LLM 编程能力排行:三份独立榜单交叉看
AA Coding Index(国际做题基准)、SuperCLUE 代码生成(中文场景)、LMArena WebDev(前端人类偏好) 三份独立榜单并列展示。它们对同一个模型的判断经常差几位—— 这恰恰是需要看三份榜的理由。
做题(AA):前 6 名清一色国际厂商(OpenAI 4 款、Anthropic 2 款、Google 1 款), 国内最强 DeepSeek V4 Pro 排第 7,落后榜首 GPT-5.5 共 11.65 分, 但便宜 8.6 倍($3.48 vs $30 输出价/M)。
中文(SuperCLUE):字节豆包在 AA 几乎看不见, SuperCLUE 中文代码却拿到 63.93 排第 5,超越所有国内同行——中文场景优化值得单独跟踪。
前端体验(WebDev):Claude 系列占前 6 里的 5 席, GLM-5.1 冲到第 5 夹在 Claude 旗舰之间,但 AA Coding 只排第 14—— 前端工程能力被做题分数严重低估。
性价比:DeepSeek V4 Flash 单位美元买到的 Coding Index 是榜首的 70 倍——但 38.71 的绝对分数只够辅助补全,写复杂代码还是要往上选。
AA Coding Index 全球榜 · Top 20
来源:Artificial Analysis, 抓取于 2026-05-12。Coding Index 综合自 SciCode、TerminalBench Hard、GDPval-AA 等公开编程基准, 推理模型按"开 reasoning"档位计分。
| # | 模型 | Coding | 输出价 $/M | 国 |
|---|---|---|---|---|
| 1 | GPT-5.5 OpenAI | 59.12 | $30.00 | 🇺🇸 |
| 2 | Gemini 3.1 Pro Preview Google | 55.50 | $12.00 | 🇺🇸 |
| 3 | GPT-5.3 Codex OpenAI | 53.10 | $14.00 | 🇺🇸 |
| 4 | Claude Opus 4.7 Anthropic | 52.51 | $25.00 | 🇺🇸 |
| 5 | GPT-5.4 mini OpenAI | 51.48 | $4.50 | 🇺🇸 |
| 6 | Claude Sonnet 4.6 Anthropic | 50.94 | $15.00 | 🇺🇸 |
| 7 | DeepSeek V4 Pro DeepSeek | 47.47 | $3.48 | 🇨🇳 |
| 8 | Kimi K2.6 Kimi | 47.12 | $4.00 | 🇨🇳 |
| 9 | GPT-5.4 OpenAI | 45.57 | $15.00 | 🇺🇸 |
| 10 | MiMo-V2.5-Pro Xiaomi | 45.53 | $3.00 | 🇨🇳 |
| 11 | Qwen3.6 Max Preview Alibaba | 44.92 | $7.80 | 🇨🇳 |
| 12 | GLM-5 Z AI | 44.18 | $3.20 | 🇨🇳 |
| 13 | GPT-5.4 nano OpenAI | 43.91 | $1.25 | 🇺🇸 |
| 14 | GLM-5.1 Z AI | 43.37 | $4.40 | 🇨🇳 |
| 15 | Qwen3.6 Plus Alibaba | 42.87 | $3.00 | 🇨🇳 |
| 16 | Gemini 3 Flash Google | 42.62 | $3.00 | 🇺🇸 |
| 17 | MiMo-V2.5 Xiaomi | 42.13 | $1.80 | 🇨🇳 |
| 18 | MiniMax-M2.7 MiniMax | 41.93 | $1.20 | 🇨🇳 |
| 19 | Grok 4.3 xAI | 41.03 | $2.50 | 🇺🇸 |
| 20 | DeepSeek V4 Flash DeepSeek | 38.71 | $0.28 | 🇨🇳 |
榜首到第 6 名清一色美国厂商,国内第一档(DeepSeek V4 Pro / Kimi K2.6)跟前 6 还差 4-12 分。 这个差距在 Intelligence Index 上是 6-9 分——编程能力上的差距比通用能力差距更大, 国内厂商在数学推理、长上下文这些维度追得很快,唯独 coding 单项一直是国际厂商的护城河。
但价格差距把这件事拉平了:DeepSeek V4 Pro 用 $3.48 拿到 47.47 分,单位美元 13.6 分;GPT-5.5 用 $30 拿到 59.12 分, 单位美元 2.0 分。跑量场景多花 8 倍钱去买多 12 分智能未必划算——见下面的性价比表。
AA Coding Index 国内 Top 10
把上面的全球榜筛出国内厂商单独看,国内"编程档"的内部排序一目了然。
| # | 模型 | Coding | 输出价 $/M |
|---|---|---|---|
| 1 | DeepSeek V4 Pro DeepSeek | 47.47 | $3.48 |
| 2 | Kimi K2.6 Kimi | 47.12 | $4.00 |
| 3 | MiMo-V2.5-Pro Xiaomi | 45.53 | $3.00 |
| 4 | Qwen3.6 Max Preview Alibaba | 44.92 | $7.80 |
| 5 | GLM-5 Z AI | 44.18 | $3.20 |
| 6 | GLM-5.1 Z AI | 43.37 | $4.40 |
| 7 | Qwen3.6 Plus Alibaba | 42.87 | $3.00 |
| 8 | MiMo-V2.5 Xiaomi | 42.13 | $1.80 |
| 9 | MiniMax-M2.7 MiniMax | 41.93 | $1.20 |
| 10 | DeepSeek V4 Flash DeepSeek | 38.71 | $0.28 |
DeepSeek V4 Pro 在国际通用代码基准上稳坐国内第一,Kimi K2.6 紧随其后只差 0.35 分—— 这两家是"严肃代码工作流"的国内首选。第二档 MiMo-V2.5-Pro / Qwen3.6 Max / GLM-5 三家在 43-46 分扎堆, 差距小到选谁主要看接入便利度和定价。
注意 DeepSeek V4 Flash 排在最末(38.71), 但 $0.28 的价格让它成为"批量代码补全、AI IDE 上下文助手"这种容错任务的极致性价比选择—— 只是别拿它写支付网关那种关键模块。
SuperCLUE 中文代码生成 · Top 12
来源:SuperCLUE(2026年3月)。 SuperCLUE 是中文场景测评,题目以中文 prompt + 中文需求描述为主,更能反映"用中文跟模型对话、让它写代码"的实际体验。
| # | 模型 | 代码生成 | 属地 |
|---|---|---|---|
| 1 | Claude-Opus-4.6(max) Anthropic | 71.15 | 🇺🇸 |
| 2 | Gemini-3.1-Pro-Preview(high) Google | 69.78 | 🇺🇸 |
| 3 | Kimi-K2.5-Thinking 月之暗面 | 65.50 | 🇨🇳 |
| 4 | Gemini-3-Flash-Preview(high) Google | 63.94 | 🇺🇸 |
| 5 | Doubao-Seed-2.0-pro-260215(high) 字节跳动 | 63.93 | 🇨🇳 |
| 6 | DeepSeek-V4-Pro(max) 深度求索 | 63.24 | 🇨🇳 |
| 7 | DeepSeek-V4-Flash(max) 深度求索 | 61.43 | 🇨🇳 |
| 8 | DeepSeek-V3.2-Thinking 深度求索 | 60.43 | 🇨🇳 |
| 9 | MiMo-V2-Pro 小米集团 | 59.61 | 🇨🇳 |
| 10 | MiniMax-M2.7 稀宇科技 | 58.74 | 🇨🇳 |
| 11 | GLM-5 智谱AI | 58.32 | 🇨🇳 |
| 12 | Tencent HY 2.0 Think 腾讯 | 57.58 | 🇨🇳 |
中文场景下,国际厂商的优势从 AA 的 12 分缩小到 SuperCLUE 的 5-8 分—— Claude Opus 4.6(max)拿到 71.15 排第 1,Gemini 3.1 Pro 第 2(69.78), 国内 Kimi K2.5 Thinking(65.50)顶到第 3,比国际第二名只差 4.3 分。
一个反直觉的发现:字节豆包 Doubao-Seed-2.0-pro 在 SuperCLUE 中文代码拿 63.93, 但 AA Coding 榜上完全没有它的位置——豆包不在 Artificial Analysis 评测列表里。 这不是豆包国际差,是豆包没参加(或没被收录)那场考试。 想用中文写代码、考虑豆包的,要专门看 SuperCLUE 这份榜。
LMArena WebDev Arena · 前端开发人类偏好 Top 10
来源:LMArena, 抓取于 2026-05-12。WebDev Arena 让真人盲测对比两个模型生成的网页前端代码, 用 Elo 系统算分——测的是"人类觉得哪个代码效果更好",不是做题。
| # | 模型 | WebDev Elo | 差异 |
|---|---|---|---|
| 1 | claude-opus-4-7 (thinking) claude | 1570 | AA 无数据 |
| 2 | claude-opus-4-7 claude | 1560 | AA 无数据 |
| 3 | claude-opus-4-6 (thinking) claude | 1549 | AA 无数据 |
| 4 | claude-opus-4-6 claude | 1544 | AA 无数据 |
| 5 | glm-5.1 glm | 1531 | — |
| 6 | claude-sonnet-4-6 claude | 1524 | AA 无数据 |
| 7 | kimi-k2.6 kimi | 1523 | — |
| 8 | muse-spark muse | 1509 | AA 无数据 |
| 9 | gpt-5.5-high gpt | 1491 | AA 更强 |
| 10 | claude-opus-4-5-20251101 (thinking) claude | 1490 | AA 无数据 |
Claude 系列在 WebDev 上的统治力比 AA Coding 更强。 Opus 4.7 占前 2 名,Opus 4.6 占第 3-4 名,Sonnet 4.6 第 6—— 前 6 名里有 5 个是 Claude。这说明 Anthropic 的模型在"生成人类觉得好看、好用的前端页面"这个维度上, 优势比单纯"做题"更大。
GLM-5.1 是 WebDev 里最大的黑马。 它在 AA Coding 只排第 14(43.37 分),但在 WebDev 冲到第 5 名(1531 Elo), 夹在 Claude Opus 4.6 和 Sonnet 4.6 之间。智谱的前端工程能力被做题分数严重低估了—— 如果你用 GLM 写网页、做可视化,实际体验可能比 43.37 这个数字暗示的要好得多。
GPT-5.5 的做题分数和前端体验倒挂。 AA Coding 全球第 1(59.12),WebDev 只排第 9(1491)。 不是 GPT-5.5 前端差,是 Claude 系列在前端这个场景的人类偏好上拉开了差距。 如果你要"生成一个 landing page"或者"把 Figma 设计稿转成代码", Claude Opus 4.7 的盲测胜率比 GPT-5.5 高得多。
Meta muse-spark 在 AA 没有 Coding 数据。 WebDev 第 8 名(1509),但 Artificial Analysis 没给它跑 Coding Index—— 又一个"榜单覆盖不全面"的案例。选模型时如果只看单一数据源,很容易漏掉这种"某维度很强但没被测"的候选。
编程性价比 Top 12(按 Coding/$ 排序)
用 AA Coding Index 除以输出价格,得到"每花一美元能买到多少编程智能"的粗略指标。这只代表跑量场景的成本视角,绝对分数仍要看上面的全球榜。
| # | 模型 | Coding | 输出价 | Coding/$ | 国 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash DeepSeek | 38.71 | $0.28 | 138.3 | 🇨🇳 |
| 2 | GPT-5.4 nano OpenAI | 43.91 | $1.25 | 35.1 | 🇺🇸 |
| 3 | MiniMax-M2.7 MiniMax | 41.93 | $1.20 | 34.9 | 🇨🇳 |
| 4 | MiMo-V2.5 Xiaomi | 42.13 | $1.80 | 23.4 | 🇨🇳 |
| 5 | Grok 4.3 xAI | 41.03 | $2.50 | 16.4 | 🇺🇸 |
| 6 | MiMo-V2.5-Pro Xiaomi | 45.53 | $3.00 | 15.2 | 🇨🇳 |
| 7 | Qwen3.6 Plus Alibaba | 42.87 | $3.00 | 14.3 | 🇨🇳 |
| 8 | Gemini 3 Flash Google | 42.62 | $3.00 | 14.2 | 🇺🇸 |
| 9 | GLM-5 Z AI | 44.18 | $3.20 | 13.8 | 🇨🇳 |
| 10 | DeepSeek V4 Pro DeepSeek | 47.47 | $3.48 | 13.6 | 🇨🇳 |
| 11 | Kimi K2.6 Kimi | 47.12 | $4.00 | 11.8 | 🇨🇳 |
| 12 | GPT-5.4 mini OpenAI | 51.48 | $4.50 | 11.4 | 🇺🇸 |
排第 1 的 DeepSeek V4 Flash 是数量级的极端值(138 分/$,是第 2 名的 4 倍), 但 38.71 的绝对 coding 分数偏低——写算法题、复杂业务逻辑会感到力不从心。 它真正合适的场景是:高频率代码补全、注释生成、单元测试样板这种"格式重于聪明"的事。
性价比"甜区"在第 2-7 名(ratio 14-35):GPT-5.4 nano、 MiniMax-M2.7、 MiMo-V2.5 / V2.5-Pro、 Qwen3.6 Plus、 Gemini 3 Flash、 GLM-5 全部聚集在这里。 coding 分数 42-44 已经够日常开发用,价格压在 $1.20-3.20 区间,月跑几亿 token 也烧不掉多少。
榜上完全看不到 Claude Opus 4.7、 Claude Sonnet 4.6—— 它们在 LMArena WebDev 榜(真人偏好测代码体验)常年前列,但 AA Coding Index 是"做题"维度, Claude 系列在做题维度的性价比一直不如它在"长链路代码工程"里的实际表现。 如果你做的是真实工程而不是算法竞赛,Claude 系列值得单独评估,别只看这张表。
三榜对照:哪个维度最利好你的场景
三份榜单测的不是一回事:AA 是英文做题,SuperCLUE 是中文实战,WebDev 是前端人类偏好。 同一个模型在三份榜上的相对位置不同,差异越大说明它越偏科。
SuperCLUE 中文代码前 10、AA 前 10 看不见
- Doubao-Seed-2.0-pro-260215(high)(字节跳动) · SuperCLUE 代码 63.93 · 在 AA Coding Top 10 里找不到对应家族
- MiniMax-M2.7(稀宇科技) · SuperCLUE 代码 58.74 · 在 AA Coding Top 10 里找不到对应家族
- GLM-5(智谱AI) · SuperCLUE 代码 58.32 · 在 AA Coding Top 10 里找不到对应家族
- Tencent HY 2.0 Think(腾讯) · SuperCLUE 代码 57.58 · 在 AA Coding Top 10 里找不到对应家族
- MiniMax-M2.5(稀宇科技) · SuperCLUE 代码 55.33 · 在 AA Coding Top 10 里找不到对应家族
这批模型有两种可能:要么是国内厂商专门针对中文 prompt 调优、在中文场景下确有特长(豆包、腾讯混元尤其典型); 要么是它们干脆没参加 AA 那场考试。两种情况都意味着—— 只看一份榜单做不出对它们的可靠判断,跨场景使用前最好自己跑一两个真实需求。
AA 国际榜前列、SuperCLUE 中文榜断档
GPT-5.5、GPT-5.3 Codex、 GPT-5.4 mini 都在 AA Coding 全球前 6, 但 SuperCLUE 这一期的榜里 GPT-5 系列只录了 GPT-5.4(xhigh)(中文代码 52.05,整张代码榜第 17), 比 Claude / Gemini 在中文场景里落了一截。OpenAI 在中文 prompt 的指令遵循上一直不如 Anthropic / Google 稳定, 这条经验在编程任务上也成立。如果你是"全中文写需求 + 让模型直接输出生产代码"的工作流, Claude Opus / Gemini 3.1 Pro 比 GPT-5.5 更值得首选。
WebDev 前 10、AA Coding 位置倒挂
Claude Opus 4.7 WebDev 第 1-2 名,AA Coding 只排第 4; GLM-5.1 WebDev 第 5 名,AA Coding 只排第 14。 两个模型都是"前端体验 > 做题分数"的典型——如果你做的事情是生成网页、React 组件、CSS 动画, 它们的实际表现比 AA Coding 数字暗示的强得多。
反过来,GPT-5.5 AA Coding 第 1,WebDev 只排第 9。 这不是 GPT-5.5 前端差,是 Claude 在前端人类偏好上拉开了断层。 算法题和前端落地是两回事,选模型前先想清楚自己主要在干嘛。
按场景选:5 个常见组合
方法学说明 / 这份榜不能告诉你的事
- AA Coding Index 是"做题"分数。包含 SciCode、TerminalBench、GDPval-AA 等基准,但不覆盖真实工程能力(多文件改动、调试、需求理解)。算法题前列的模型未必能搞定真实代码库。
- WebDev Arena 是"人类偏好"分数。真人盲测对比两个模型生成的网页,选"更好看/更好用"的那个。它和 AA Coding 经常倒挂——Claude 系列在 WebDev 上统治力更强,GPT-5.5 做题第一但前端体验只排第 9。
- SuperCLUE 国外模型不参与排名。SuperCLUE 把国外模型标"不参与排名只做参考",所以"代码生成 71.15"的 Claude Opus 4.6 在它的官方排名里不算第一。本表按代码生成分数实际值排序,参考分也一起列。
- 三个榜单的模型版本可能不一致。SuperCLUE 这期录的是 Kimi K2.5 Thinking,AA 录的是 Kimi K2.6,WebDev 里还有 Opus 4.6/4.7 的不同变体——同一家厂商的不同代际同时出现在两边。结论参考时按"家族"看,别死磕版本号。
- 推理模型按高档位计分。同一个模型 reasoning effort 不同档位(xhigh/high/medium/low)AA 拆开排,本表按 base 模型只保留分数最高的变体。实际部署若用 medium 或更低,分数和价格都会下降。
- 国内可用性没单独列。Claude Opus 4.7 在 AA 前 4,但官方不支持国内调用——要么走 Bedrock / Vertex 海外节点(合规风险),要么用第三方聚合(稳定性看运气)。详情见 国内 API 开通指南。
- 数据 2026-05-12 / 2026-05-12 抓取。编程模型迭代特别快(GPT-5.5、Claude 4.7、Kimi K2.6 都是最近 1-2 个月发布),本页跟着数据源每月更新。
想接下来做什么
- 看完编程榜,跳到 性价比散点图 把通用智能维度也叠加比较。
- 选定 2-3 个候选,去 2026 Q2 选型盘点 看具体场景表现。
- 查 完整价格表 对照输入价、上下文长度、国内可用性。
- 开通账号、跑两个真实需求自测——榜单只能帮你排除 80% 候选,最后一里还是要自己跑。