Search: swebench.com | Heykuki News

Heykuki News

Top New Best Ask Show Jobs

Top New Best Ask Show Jobs

1.

Show HN: LLM Function Calling Library to Interact with File, Shell, Git and Code (swekit.dev)

5 points

2 years ago

2.

Show HN: New SWE-bench leaderboard compares LMs without fancy agent scaffolds (swebench.com)

2 points

10 months ago

3.

Show HN: Agent Benchmark Repository and Viewer (explorer.invariantlabs.ai)

2 points

2 years ago

4.

MiniMax M2.5 is beating Claude Opus 4.6 and MiniMax is 17x-20x cheaper (swebench.com)

6 points

3 months ago

5.

Show HN: Randomly switching between LMs at every step boosts SWE-bench score (swebench.com)

5 points

9 months ago

6.

SWE-bench just published an updated list of top AI Agents (swebench.com)

4 points

a year ago

7.

Amazon Q Developer Agent is now SOTA on SWE-bench (swebench.com)

4 points

2 years ago

8.

New leader on swe-bench multimodal (swebench.com)

3 points

a year ago

9.

Refact.ai is the new open-source SOTA on SWE-bench Verified and Lite (swebench.com)

3 points

a year ago

10.

New #1 SOTA on Swe-bench is using Claude 3.7 and O1 (swebench.com)

3 points

a year ago

11.

SWE-Bench Can Language Models Resolve Real-World GitHub Issues? (swebench.com)

3 points

3 years ago

12.

Gru.ai Got 35.67% on SWEbench (swebench.com)

2 points

2 years ago

13.

SWE-Bench: Can Language Models Resolve Real-World GitHub Issues? (swebench.com)

2 points

3 years ago

14.

SWE-bench (swebench.com)

1 point

a year ago

15.

SWE-Bench: Can Language Models Resolve Real-World GitHub Issues? (swebench.com)

1 point

2 years ago

16.

Can Language Models Resolve Real-World GitHub Issues? (swebench.com)

1 point

3 years ago