2026-05-13 · 排行榜 · 编程能力专项

LLM 编程能力排行：三份独立榜单交叉看

AA Coding Index（国际做题基准）、SuperCLUE 代码生成（中文场景）、LMArena WebDev（前端人类偏好）三份独立榜单并列展示。它们对同一个模型的判断经常差几位—— 这恰恰是需要看三份榜的理由。

做题（AA）：前 6 名清一色国际厂商（OpenAI 4 款、Anthropic 2 款、Google 1 款），国内最强 DeepSeek V4 Pro 排第 7，落后榜首 GPT-5.5 共 11.65 分，但便宜 8.6 倍（$3.48 vs $30 输出价/M）。

中文（SuperCLUE）：字节豆包在 AA 几乎看不见， SuperCLUE 中文代码却拿到 63.93 排第 5，超越所有国内同行——中文场景优化值得单独跟踪。

前端体验（WebDev）：Claude 系列占前 6 里的 5 席， GLM-5.1 冲到第 5 夹在 Claude 旗舰之间，但 AA Coding 只排第 14—— 前端工程能力被做题分数严重低估。

性价比：DeepSeek V4 Flash 单位美元买到的 Coding Index 是榜首的 70 倍——但 38.71 的绝对分数只够辅助补全，写复杂代码还是要往上选。

AA Coding Index 全球榜 · Top 20

来源：Artificial Analysis，抓取于 2026-05-12。Coding Index 综合自 SciCode、TerminalBench Hard、GDPval-AA 等公开编程基准，推理模型按"开 reasoning"档位计分。

#	模型	Coding	Intelligence	输出价 $/M	国
1	GPT-5.5 OpenAI	59.12	60.24	$30.00	🇺🇸
2	Gemini 3.1 Pro Preview Google	55.50	57.18	$12.00	🇺🇸
3	GPT-5.3 Codex OpenAI	53.10	53.56	$14.00	🇺🇸
4	Claude Opus 4.7 Anthropic	52.51	57.28	$25.00	🇺🇸
5	GPT-5.4 mini OpenAI	51.48	48.90	$4.50	🇺🇸
6	Claude Sonnet 4.6 Anthropic	50.94	51.72	$15.00	🇺🇸
7	DeepSeek V4 Pro DeepSeek	47.47	51.51	$3.48	🇨🇳
8	Kimi K2.6 Kimi	47.12	53.90	$4.00	🇨🇳
9	GPT-5.4 OpenAI	45.57	47.94	$15.00	🇺🇸
10	MiMo-V2.5-Pro Xiaomi	45.53	53.83	$3.00	🇨🇳
11	Qwen3.6 Max Preview Alibaba	44.92	51.81	$7.80	🇨🇳
12	GLM-5 Z AI	44.18	49.77	$3.20	🇨🇳
13	GPT-5.4 nano OpenAI	43.91	43.98	$1.25	🇺🇸
14	GLM-5.1 Z AI	43.37	51.41	$4.40	🇨🇳
15	Qwen3.6 Plus Alibaba	42.87	49.98	$3.00	🇨🇳
16	Gemini 3 Flash Google	42.62	46.43	$3.00	🇺🇸
17	MiMo-V2.5 Xiaomi	42.13	49.03	$1.80	🇨🇳
18	MiniMax-M2.7 MiniMax	41.93	49.62	$1.20	🇨🇳
19	Grok 4.3 xAI	41.03	53.20	$2.50	🇺🇸
20	DeepSeek V4 Flash DeepSeek	38.71	46.52	$0.28	🇨🇳

榜首到第 6 名清一色美国厂商，国内第一档（DeepSeek V4 Pro / Kimi K2.6）跟前 6 还差 4-12 分。这个差距在 Intelligence Index 上是 6-9 分——编程能力上的差距比通用能力差距更大，国内厂商在数学推理、长上下文这些维度追得很快，唯独 coding 单项一直是国际厂商的护城河。

但价格差距把这件事拉平了：DeepSeek V4 Pro 用 $3.48 拿到 47.47 分，单位美元 13.6 分；GPT-5.5 用 $30 拿到 59.12 分，单位美元 2.0 分。跑量场景多花 8 倍钱去买多 12 分智能未必划算——见下面的性价比表。

AA Coding Index 国内 Top 10

把上面的全球榜筛出国内厂商单独看，国内"编程档"的内部排序一目了然。

#	模型	Coding	输出价 $/M	速度 t/s
1	DeepSeek V4 Pro DeepSeek	47.47	$3.48	30
2	Kimi K2.6 Kimi	47.12	$4.00	49
3	MiMo-V2.5-Pro Xiaomi	45.53	$3.00	57
4	Qwen3.6 Max Preview Alibaba	44.92	$7.80	38
5	GLM-5 Z AI	44.18	$3.20	76
6	GLM-5.1 Z AI	43.37	$4.40	57
7	Qwen3.6 Plus Alibaba	42.87	$3.00	53
8	MiMo-V2.5 Xiaomi	42.13	$1.80	99
9	MiniMax-M2.7 MiniMax	41.93	$1.20	57
10	DeepSeek V4 Flash DeepSeek	38.71	$0.28	67

DeepSeek V4 Pro 在国际通用代码基准上稳坐国内第一，Kimi K2.6 紧随其后只差 0.35 分—— 这两家是"严肃代码工作流"的国内首选。第二档 MiMo-V2.5-Pro / Qwen3.6 Max / GLM-5 三家在 43-46 分扎堆，差距小到选谁主要看接入便利度和定价。

注意 DeepSeek V4 Flash 排在最末（38.71），但 $0.28 的价格让它成为"批量代码补全、AI IDE 上下文助手"这种容错任务的极致性价比选择—— 只是别拿它写支付网关那种关键模块。

SuperCLUE 中文代码生成 · Top 12

来源：SuperCLUE（2026年3月）。 SuperCLUE 是中文场景测评，题目以中文 prompt + 中文需求描述为主，更能反映"用中文跟模型对话、让它写代码"的实际体验。

#	模型	代码生成	总分	属地
1	Claude-Opus-4.6(max) Anthropic	71.15	77.0	🇺🇸
2	Gemini-3.1-Pro-Preview(high) Google	69.78	76.7	🇺🇸
3	Kimi-K2.5-Thinking 月之暗面	65.50	64.6	🇨🇳
4	Gemini-3-Flash-Preview(high) Google	63.94	68.8	🇺🇸
5	Doubao-Seed-2.0-pro-260215(high) 字节跳动	63.93	71.5	🇨🇳
6	DeepSeek-V4-Pro(max) 深度求索	63.24	71.0	🇨🇳
7	DeepSeek-V4-Flash(max) 深度求索	61.43	68.8	🇨🇳
8	DeepSeek-V3.2-Thinking 深度求索	60.43	61.9	🇨🇳
9	MiMo-V2-Pro 小米集团	59.61	60.7	🇨🇳
10	MiniMax-M2.7 稀宇科技	58.74	55.7	🇨🇳
11	GLM-5 智谱AI	58.32	64.3	🇨🇳
12	Tencent HY 2.0 Think 腾讯	57.58	59.2	🇨🇳

中文场景下，国际厂商的优势从 AA 的 12 分缩小到 SuperCLUE 的 5-8 分—— Claude Opus 4.6（max）拿到 71.15 排第 1，Gemini 3.1 Pro 第 2（69.78），国内 Kimi K2.5 Thinking（65.50）顶到第 3，比国际第二名只差 4.3 分。

一个反直觉的发现：字节豆包 Doubao-Seed-2.0-pro 在 SuperCLUE 中文代码拿 63.93，但 AA Coding 榜上完全没有它的位置——豆包不在 Artificial Analysis 评测列表里。这不是豆包国际差，是豆包没参加（或没被收录）那场考试。想用中文写代码、考虑豆包的，要专门看 SuperCLUE 这份榜。

LMArena WebDev Arena · 前端开发人类偏好 Top 10

来源：LMArena，抓取于 2026-05-12。WebDev Arena 让真人盲测对比两个模型生成的网页前端代码，用 Elo 系统算分——测的是"人类觉得哪个代码效果更好"，不是做题。

#	模型	WebDev Elo	对应 AA Coding	差异
1	claude-opus-4-7 (thinking) claude	1570	—	AA 无数据
2	claude-opus-4-7 claude	1560	—	AA 无数据
3	claude-opus-4-6 (thinking) claude	1549	—	AA 无数据
4	claude-opus-4-6 claude	1544	—	AA 无数据
5	glm-5.1 glm	1531	43.37 (AA #14)	—
6	claude-sonnet-4-6 claude	1524	—	AA 无数据
7	kimi-k2.6 kimi	1523	47.12 (AA #8)	—
8	muse-spark muse	1509	—	AA 无数据
9	gpt-5.5-high gpt	1491	59.12 (AA #1)	AA 更强
10	claude-opus-4-5-20251101 (thinking) claude	1490	—	AA 无数据

Claude 系列在 WebDev 上的统治力比 AA Coding 更强。 Opus 4.7 占前 2 名，Opus 4.6 占第 3-4 名，Sonnet 4.6 第 6—— 前 6 名里有 5 个是 Claude。这说明 Anthropic 的模型在"生成人类觉得好看、好用的前端页面"这个维度上，优势比单纯"做题"更大。

GLM-5.1 是 WebDev 里最大的黑马。 它在 AA Coding 只排第 14（43.37 分），但在 WebDev 冲到第 5 名（1531 Elo），夹在 Claude Opus 4.6 和 Sonnet 4.6 之间。智谱的前端工程能力被做题分数严重低估了—— 如果你用 GLM 写网页、做可视化，实际体验可能比 43.37 这个数字暗示的要好得多。

GPT-5.5 的做题分数和前端体验倒挂。 AA Coding 全球第 1（59.12），WebDev 只排第 9（1491）。不是 GPT-5.5 前端差，是 Claude 系列在前端这个场景的人类偏好上拉开了差距。如果你要"生成一个 landing page"或者"把 Figma 设计稿转成代码"， Claude Opus 4.7 的盲测胜率比 GPT-5.5 高得多。

Meta muse-spark 在 AA 没有 Coding 数据。 WebDev 第 8 名（1509），但 Artificial Analysis 没给它跑 Coding Index—— 又一个"榜单覆盖不全面"的案例。选模型时如果只看单一数据源，很容易漏掉这种"某维度很强但没被测"的候选。

编程性价比 Top 12（按 Coding/$ 排序）

用 AA Coding Index 除以输出价格，得到"每花一美元能买到多少编程智能"的粗略指标。这只代表跑量场景的成本视角，绝对分数仍要看上面的全球榜。

#	模型	Coding	输出价	Coding/$	国
1	DeepSeek V4 Flash DeepSeek	38.71	$0.28	138.3	🇨🇳
2	GPT-5.4 nano OpenAI	43.91	$1.25	35.1	🇺🇸
3	MiniMax-M2.7 MiniMax	41.93	$1.20	34.9	🇨🇳
4	MiMo-V2.5 Xiaomi	42.13	$1.80	23.4	🇨🇳
5	Grok 4.3 xAI	41.03	$2.50	16.4	🇺🇸
6	MiMo-V2.5-Pro Xiaomi	45.53	$3.00	15.2	🇨🇳
7	Qwen3.6 Plus Alibaba	42.87	$3.00	14.3	🇨🇳
8	Gemini 3 Flash Google	42.62	$3.00	14.2	🇺🇸
9	GLM-5 Z AI	44.18	$3.20	13.8	🇨🇳
10	DeepSeek V4 Pro DeepSeek	47.47	$3.48	13.6	🇨🇳
11	Kimi K2.6 Kimi	47.12	$4.00	11.8	🇨🇳
12	GPT-5.4 mini OpenAI	51.48	$4.50	11.4	🇺🇸

排第 1 的 DeepSeek V4 Flash 是数量级的极端值（138 分/$，是第 2 名的 4 倍），但 38.71 的绝对 coding 分数偏低——写算法题、复杂业务逻辑会感到力不从心。它真正合适的场景是：高频率代码补全、注释生成、单元测试样板这种"格式重于聪明"的事。

性价比"甜区"在第 2-7 名（ratio 14-35）：GPT-5.4 nano、 MiniMax-M2.7、 MiMo-V2.5 / V2.5-Pro、 Qwen3.6 Plus、 Gemini 3 Flash、 GLM-5 全部聚集在这里。 coding 分数 42-44 已经够日常开发用，价格压在 $1.20-3.20 区间，月跑几亿 token 也烧不掉多少。

榜上完全看不到 Claude Opus 4.7、 Claude Sonnet 4.6—— 它们在 LMArena WebDev 榜（真人偏好测代码体验）常年前列，但 AA Coding Index 是"做题"维度， Claude 系列在做题维度的性价比一直不如它在"长链路代码工程"里的实际表现。如果你做的是真实工程而不是算法竞赛，Claude 系列值得单独评估，别只看这张表。

三榜对照：哪个维度最利好你的场景

三份榜单测的不是一回事：AA 是英文做题，SuperCLUE 是中文实战，WebDev 是前端人类偏好。同一个模型在三份榜上的相对位置不同，差异越大说明它越偏科。

SuperCLUE 中文代码前 10、AA 前 10 看不见

Doubao-Seed-2.0-pro-260215(high)（字节跳动） · SuperCLUE 代码 63.93 · 在 AA Coding Top 10 里找不到对应家族
MiniMax-M2.7（稀宇科技） · SuperCLUE 代码 58.74 · 在 AA Coding Top 10 里找不到对应家族
GLM-5（智谱AI） · SuperCLUE 代码 58.32 · 在 AA Coding Top 10 里找不到对应家族
Tencent HY 2.0 Think（腾讯） · SuperCLUE 代码 57.58 · 在 AA Coding Top 10 里找不到对应家族
MiniMax-M2.5（稀宇科技） · SuperCLUE 代码 55.33 · 在 AA Coding Top 10 里找不到对应家族

这批模型有两种可能：要么是国内厂商专门针对中文 prompt 调优、在中文场景下确有特长（豆包、腾讯混元尤其典型）；要么是它们干脆没参加 AA 那场考试。两种情况都意味着—— 只看一份榜单做不出对它们的可靠判断，跨场景使用前最好自己跑一两个真实需求。

AA 国际榜前列、SuperCLUE 中文榜断档

GPT-5.5、GPT-5.3 Codex、 GPT-5.4 mini 都在 AA Coding 全球前 6，但 SuperCLUE 这一期的榜里 GPT-5 系列只录了 GPT-5.4(xhigh)（中文代码 52.05，整张代码榜第 17），比 Claude / Gemini 在中文场景里落了一截。OpenAI 在中文 prompt 的指令遵循上一直不如 Anthropic / Google 稳定，这条经验在编程任务上也成立。如果你是"全中文写需求 + 让模型直接输出生产代码"的工作流， Claude Opus / Gemini 3.1 Pro 比 GPT-5.5 更值得首选。

WebDev 前 10、AA Coding 位置倒挂

Claude Opus 4.7 WebDev 第 1-2 名，AA Coding 只排第 4； GLM-5.1 WebDev 第 5 名，AA Coding 只排第 14。两个模型都是"前端体验 > 做题分数"的典型——如果你做的事情是生成网页、React 组件、CSS 动画，它们的实际表现比 AA Coding 数字暗示的强得多。

反过来，GPT-5.5 AA Coding 第 1，WebDev 只排第 9。这不是 GPT-5.5 前端差，是 Claude 在前端人类偏好上拉开了断层。算法题和前端落地是两回事，选模型前先想清楚自己主要在干嘛。

场景

IDE 内代码补全 / Copilot 替代

首选 DeepSeek V4 Flash（$0.28）或 GPT-5.4 nano（$1.25）。延迟低、跑量便宜，coding 38-44 足够格式化输出。

场景

中文需求 → 直接生成业务代码

首选 Kimi K2.6（$4）或 DeepSeek V4 Pro（$3.48）。 SuperCLUE 中文代码前 5，AA 国内前 2，两份榜都认。

场景

长链路代码 agent / 多文件改动

首选 Claude Sonnet 4.6（$15）或 Claude Opus 4.7（$25）。 LMArena WebDev 长期前列，AA 单一分数没体现的"工程执行力"是 Claude 的强项。

场景

算法题 / 数学密集型代码

首选 GPT-5.5（$30）或 GPT-5.3 Codex（$14）。 AA Coding 榜 1 / 3 名，做题维度护城河最厚，跑量贵就只在关键模块用。

场景

海量批处理（生成测试用例 / 注释 / 代码 review）

首选 MiniMax-M2.7（$1.20）或 MiMo-V2.5（$1.80）。性价比榜第 3、4 名，coding 41-42 够用，单价压到 $1-2 区间，烧不掉太多钱。

方法学说明 / 这份榜不能告诉你的事

AA Coding Index 是"做题"分数。包含 SciCode、TerminalBench、GDPval-AA 等基准，但不覆盖真实工程能力（多文件改动、调试、需求理解）。算法题前列的模型未必能搞定真实代码库。
WebDev Arena 是"人类偏好"分数。真人盲测对比两个模型生成的网页，选"更好看/更好用"的那个。它和 AA Coding 经常倒挂——Claude 系列在 WebDev 上统治力更强，GPT-5.5 做题第一但前端体验只排第 9。
SuperCLUE 国外模型不参与排名。SuperCLUE 把国外模型标"不参与排名只做参考"，所以"代码生成 71.15"的 Claude Opus 4.6 在它的官方排名里不算第一。本表按代码生成分数实际值排序，参考分也一起列。
三个榜单的模型版本可能不一致。SuperCLUE 这期录的是 Kimi K2.5 Thinking，AA 录的是 Kimi K2.6，WebDev 里还有 Opus 4.6/4.7 的不同变体——同一家厂商的不同代际同时出现在两边。结论参考时按"家族"看，别死磕版本号。
推理模型按高档位计分。同一个模型 reasoning effort 不同档位（xhigh/high/medium/low）AA 拆开排，本表按 base 模型只保留分数最高的变体。实际部署若用 medium 或更低，分数和价格都会下降。
国内可用性没单独列。Claude Opus 4.7 在 AA 前 4，但官方不支持国内调用——要么走 Bedrock / Vertex 海外节点（合规风险），要么用第三方聚合（稳定性看运气）。详情见国内 API 开通指南。
数据 2026-05-12 / 2026-05-12 抓取。编程模型迭代特别快（GPT-5.5、Claude 4.7、Kimi K2.6 都是最近 1-2 个月发布），本页跟着数据源每月更新。