Agentic Codinghigher is better

SWE-bench Verified

A human-validated subset of real GitHub issues; the model must produce a patch that passes the repository's tests. Figures are vendor-reported unless noted.

Benchmark source

Domain: Agentic Coding
Metric: %
Orientation: Higher is better
Results: 20

Ranking

#	Model	Score	Source	Status
1	Claude Opus 4.8 Anthropic	88.6%	Anthropic — Claude Opus 4.8vendor	unverified
2	Claude Opus 4.7 Anthropic	87.6%	Anthropic — Claude Opus 4.7vendor	unverified
3	Claude Opus 4.6 Anthropic	80.8%	Anthropic — Claude Opus 4.6vendor	unverified
4	Gemini 3.1 Pro Google DeepMind	80.6%	Google DeepMind — Gemini 3.1 Pro model cardvendor	unverified
5	DeepSeek V4-Pro DeepSeek	80.6%	DeepSeek — V4-Pro model cardvendor	unverified
6	Qwen3.7 Max Alibaba Qwen	80.4%	Qwen — Qwen3.7 Maxvendor	unverified
7	Kimi K2.6 Moonshot AI	80.2%	Moonshot — Kimi K2.6 model cardvendor	unverified
8	GPT-5.2 OpenAI	80%	llm-stats — GPT-5.2 (vendor-reported)3rd-party	unverified
9	Claude Sonnet 4.6 Anthropic	79.6%	Anthropic — Claude Sonnet 4.6vendor	unverified
10	DeepSeek V4-Flash DeepSeek	79%	DeepSeek — V4-Flash model cardvendor	unverified
11	Gemini 3 Flash Google DeepMind	78%	Google — Gemini 3 Flashvendor	unverified
12	Qwen3.6-27B Alibaba Qwen	77.2%	Alibaba — Qwen3.6-27B model cardvendor	unverified
13	Gemini 3 Pro Google DeepMind	76.2%	Google — Gemini 3 Provendor	unverified
14	Qwen3.6-35B-A3B Alibaba Qwen	73.4%	Alibaba — Qwen3.6-35B-A3B model cardvendor	unverified
15	Claude Haiku 4.5 Anthropic	73.3%	Anthropic — Claude Haiku 4.5vendor	unverified
16	DeepSeek V3.2 DeepSeek	73.1%	DeepSeek — V3.2 technical reportvendor	unverified
17	Nemotron 3 Ultra NVIDIA	71.9%	NVIDIA — Nemotron 3 Ultra model cardvendor	unverified
18	Kimi K2 Thinking Moonshot AI	71.3%	Moonshot — Kimi K2 Thinking model cardvendor	unverified
19	Nova 2 Pro Amazon	61.5%	Amazon — Nova 2 technical reportvendor	unverified
20	Gemini 2.5 Pro Google DeepMind	59.6%	Google DeepMind — Gemini 2.5 Pro model cardvendor	unverified