LMArena 对战 Elo(人类偏好)
来源 lmarena.ai · 抓取于 2026-05-12 · 4 天前更新
| 1 | claude-opus-4-7 (thinking) | 1503 |
| 2 | claude-opus-4-6 (thinking) | 1502 |
| 3 | claude-opus-4-6 | 1498 |
| 4 | gemini-3.1-pro-preview | 1492 |
| 5 | claude-opus-4-7 | 1491 |
| 6 | Meta muse-spark | 1490 |
| 7 | gemini-3-pro | 1486 |
| 8 | gpt-5.5-high | 1484 |
| 9 | grok-4.20-beta1 | 1480 |
| 10 | gpt-5.2-chat-latest-20260210 | 1477 |
| 1 | claude-opus-4-7 (thinking) | 1570 |
| 2 | claude-opus-4-7 | 1560 |
| 3 | claude-opus-4-6 (thinking) | 1549 |
| 4 | claude-opus-4-6 | 1544 |
| 5 | glm-5.1 | 1531 |
| 6 | claude-sonnet-4-6 | 1524 |
| 7 | kimi-k2.6 | 1523 |
| 8 | Meta muse-spark | 1509 |
| 9 | gpt-5.5-high (codex-harness) | 1491 |
| 10 | claude-opus-4-5-20251101-thinking-32k | 1490 |
| 1 | claude-opus-4-7 (thinking) | 1305 |
| 2 | claude-opus-4-7 | 1301 |
| 3 | claude-opus-4-6 (thinking) | 1300 |
| 4 | Meta muse-spark | 1298 |
| 5 | claude-opus-4-6 | 1291 |
| 6 | gemini-3-pro | 1288 |
| 7 | gpt-5.5 | 1288 |
| 8 | gpt-5.5-high | 1281 |
| 9 | gpt-5.2-chat-latest-20260210 | 1279 |
| 10 | gemini-3.1-pro-preview | 1277 |
LMArena(前 LMSYS Chatbot Arena)让真人对两个匿名模型同问题打分,用类似下棋的 Elo 系统算分。 偏好高 ≠ 实际效果好——很多人偏爱回答冗长、礼貌的模型,但你的实际场景可能恰恰相反。
Artificial Analysis · 独立评测综合分
来源 artificialanalysis.ai · 抓取于 2026-05-12 · 第三方评测站
| # | 模型 | 智能 |
|---|---|---|
| 1 | GPT-5.5 OpenAI | 60.2 |
| 2 | Claude Opus 4.7 Anthropic | 57.3 |
| 3 | Gemini 3.1 Pro Preview Google | 57.2 |
| 4 | Kimi K2.6 Kimi · 🇨🇳 | 53.9 |
| 5 | MiMo-V2.5-Pro Xiaomi · 🇨🇳 | 53.8 |
| 6 | GPT-5.3 Codex OpenAI | 53.6 |
| 7 | Grok 4.3 xAI | 53.2 |
| 8 | Qwen3.6 Max Preview Alibaba · 🇨🇳 | 51.8 |
| 9 | Claude Sonnet 4.6 Anthropic | 51.7 |
| 10 | DeepSeek V4 Pro DeepSeek · 🇨🇳 | 51.5 |
| 11 | GLM-5.1 Z AI · 🇨🇳 | 51.4 |
| 12 | Qwen3.6 Plus Alibaba · 🇨🇳 | 50.0 |
| # | 模型 | 智能 |
|---|---|---|
| 1 | Kimi K2.6 Kimi | 53.9 |
| 2 | MiMo-V2.5-Pro Xiaomi | 53.8 |
| 3 | Qwen3.6 Max Preview Alibaba | 51.8 |
| 4 | DeepSeek V4 Pro DeepSeek | 51.5 |
| 5 | GLM-5.1 Z AI | 51.4 |
| 6 | Qwen3.6 Plus Alibaba | 50.0 |
| 7 | GLM-5 Z AI | 49.8 |
| 8 | MiniMax-M2.7 MiniMax | 49.6 |
| 9 | MiMo-V2.5 Xiaomi | 49.0 |
| 10 | DeepSeek V4 Flash DeepSeek | 46.5 |
Artificial Analysis 是独立第三方评测,不收厂商钱。 和 LMArena 互补——LMArena 反映"人类觉得回答好不好",AA 反映"机器能不能做对题"。 同一个模型多种 reasoning effort 配置时,本表只取最高分那档。
SuperCLUE · 中文能力综合测评
来源 superclueai.com · 2026年3月测评 · 国内独立第三方
| # | 模型 | 总分 |
|---|---|---|
| 1 | Claude-Opus-4.6(max) Anthropic · 闭源 | 77.0 |
| 2 | Gemini-3.1-Pro-Preview(high) Google · 闭源 | 76.7 |
| 3 | GPT-5.4(xhigh) OpenAI · 闭源 | 72.5 |
| 4 | Doubao-Seed-2.0-pro-260215(high) 字节跳动 · 🇨🇳 · 闭源 | 71.5 |
| 5 | DeepSeek-V4-Pro(max) 深度求索 · 🇨🇳 · 开源 | 71.0 |
| 6 | Gemini-3-Flash-Preview(high) Google · 闭源 | 68.8 |
| 7 | DeepSeek-V4-Flash(max) 深度求索 · 🇨🇳 · 开源 | 68.8 |
| 8 | Grok-4.20-Beta-0309(Reasoning) X.AI · 闭源 | 66.1 |
| 9 | Kimi-K2.5-Thinking 月之暗面 · 🇨🇳 · 开源 | 64.6 |
| 10 | Qwen3.5-397B-A17B-Thinking 阿里巴巴 · 🇨🇳 · 开源 | 64.5 |
| 11 | GLM-5 智谱AI · 🇨🇳 · 开源 | 64.3 |
| 12 | DeepSeek-V3.2-Thinking 深度求索 · 🇨🇳 · 开源 | 61.9 |
| # | 模型 | 总分 |
|---|---|---|
| 1 | Doubao-Seed-2.0-pro-260215(high) 字节跳动 · 闭源 | 71.5 |
| 2 | DeepSeek-V4-Pro(max) 深度求索 · 开源 | 71.0 |
| 3 | DeepSeek-V4-Flash(max) 深度求索 · 开源 | 68.8 |
| 4 | Kimi-K2.5-Thinking 月之暗面 · 开源 | 64.6 |
| 5 | Qwen3.5-397B-A17B-Thinking 阿里巴巴 · 开源 | 64.5 |
| 6 | GLM-5 智谱AI · 开源 | 64.3 |
| 7 | DeepSeek-V3.2-Thinking 深度求索 · 开源 | 61.9 |
| 8 | MiMo-V2-Pro 小米集团 · 闭源 | 60.7 |
| 9 | Tencent HY 2.0 Think 腾讯 · 闭源 | 59.2 |
| 10 | Qwen3.5-122B-A10B-Thinking 阿里巴巴 · 开源 | 58.5 |
SuperCLUE 是国内做中文测评最久的独立基准,覆盖数学、科学、幻觉控制、指令遵循、代码、Agent 六个维度。 这是看"中文场景能力"的关键一票——AA 和 LMArena 的题大多英文,国内模型在中文上的真实差距,这张榜上才看得清楚。 官方说明:分差 1 分内并列,部分国内模型只做参考不参与排名。
OpenRouter 周用量榜
来源 openrouter.ai/rankings · 抓取于 2026-05-12 · 过去 7 天
| 排名 | 模型 | 周用量 |
|---|---|---|
| 1 | Hy3 Preview (free) | 2.07T |
| 2 | Kimi K2.6 | 1.53T |
| 3 | Claude Sonnet 4.6 | 1.49T |
| 4 | Claude Opus 4.7 | 1.33T |
| 5 | Hy3 Preview | 1.3T |
| 6 | Deepseek V4 Flash | 1.19T |
| 7 | Gemini 3 Flash Preview | 1.11T |
| 8 | Deepseek V3.2 | 887B |
| 9 | Deepseek V4 Pro | 845B |
| 10 | Minimax M2.7 | 754B |
OpenRouter 是聚合多家模型的中间商,能看到跨厂商的真实开发用量。 用量榜偏向便宜+免费层——比如腾讯 Hy3 Preview 在免费阶段冲到第一,并不代表它最强。
API 价格对比(USD / 百万 token)
来源 openrouter.ai API · 抓取于 2026-05-12 · 国内可用性按公开事实标注
| 模型 | 输入 | 输出 | 国内 |
|---|---|---|---|
| DeepSeek V4 Flash DeepSeek · 当前性价比之王 当前性价比之王 | $0.14 | $0.28 | 可用 |
| Grok 4.1 Fast xAI · Grok 便宜版 / 2M 上下文 Grok 便宜版 / 2M 上下文 | $0.20 | $0.50 | 需代理 |
| Llama 4 Maverick Meta · 开源 / 自部署友好 开源 / 自部署友好 | $0.15 | $0.60 | 需代理 |
| DeepSeek V4 Pro DeepSeek · DeepSeek 旗舰 DeepSeek 旗舰 | $0.43 | $0.87 | 可用 |
| MiniMax M2.7 MiniMax · MiniMax 旗舰 MiniMax 旗舰 | $0.20 | $1.20 | 可用 |
| GPT-5.4 Nano OpenAI · GPT 最便宜 / 大批量请求 GPT 最便宜 / 大批量请求 | $0.20 | $1.25 | 需代理 |
| Gemini 3.1 Flash Lite Google · Gemini 最便宜 / 大批量 Gemini 最便宜 / 大批量 | $0.25 | $1.50 | 不稳定 |
| GLM 5 Z.ai (智谱) · GLM 上代 / 更稳 GLM 上代 / 更稳 | $0.60 | $1.92 | 可用 |
| Qwen3.6 Plus Alibaba (阿里云百炼) · 通义中档 / 性价比 通义中档 / 性价比 | $0.33 | $1.95 | 可用 |
| MiMo-V2.5 Xiaomi · 小米经济版 小米经济版 | $0.40 | $2.00 | 可用 |
| Grok 4.3 xAI · Grok 旗舰 Grok 旗舰 | $1.25 | $2.50 | 需代理 |
| MiMo-V2.5-Pro Xiaomi · 小米开源 / 编程 Agent 路线 小米开源 / 编程 Agent 路线 | $1.00 | $3.00 | 可用 |
| Gemini 3 Flash Preview Google · Gemini 廉价快速 / 长上下文 Gemini 廉价快速 / 长上下文 | $0.50 | $3.00 | 不稳定 |
| GLM 5.1 Z.ai (智谱) · GLM 最新旗舰 GLM 最新旗舰 | $0.98 | $3.08 | 可用 |
| Kimi K2.6 Moonshot AI · Kimi 最新旗舰 / 长文本 Kimi 最新旗舰 / 长文本 | $0.74 | $3.50 | 可用 |
| GPT-5.4 Mini OpenAI · GPT 经济版 / 速度快 GPT 经济版 / 速度快 | $0.75 | $4.50 | 需代理 |
| Claude Haiku 4.5 Anthropic · Claude 经济版 / 入门 Claude 经济版 / 入门 | $1.00 | $5.00 | 需代理 |
| Qwen3.6 Max Preview Alibaba (阿里云百炼) · 通义旗舰 / 中文标杆 通义旗舰 / 中文标杆 | $1.04 | $6.24 | 可用 |
| Gemini 3.1 Pro Preview Google · Gemini 旗舰 Preview / 1M 上下文 Gemini 旗舰 Preview / 1M 上下文 | $2.00 | $12.00 | 不稳定 |
| Claude Sonnet 4.6 Anthropic · 主力旗舰 / 性价比国际线最高 主力旗舰 / 性价比国际线最高 | $3.00 | $15.00 | 需代理 |
| GPT-5.4 OpenAI · GPT 主力 / 性价比中档 GPT 主力 / 性价比中档 | $2.50 | $15.00 | 需代理 |
| Claude Opus 4.7 Anthropic · 推理/编程 / 综合最强档 推理/编程 / 综合最强档 | $5.00 | $25.00 | 需代理 |
| GPT-5.5 OpenAI · GPT 主力 / 综合能力强(Intelligence 60.24 全球第一) GPT 主力 / 综合能力强(Intelligence 60.24 全球第一) | $5.00 | $30.00 | 需代理 |
| GPT-5.5 Pro OpenAI · GPT 顶配 Pro / 复杂任务 GPT 顶配 Pro / 复杂任务 | $30.00 | $180.00 | 需代理 |
价格为 OpenRouter 聚合的厂商官方定价,每条数据带 last_verified 字段(2026-05-12)。 实际成本要看输入/输出比例——同样输出 1 万字,输入 3 万字提示和输入 1 千字提示,总价能差好几倍。 国内可用性:「可用」指厂商自家 API 在中国大陆稳定访问;「需代理」「不稳定」按公开事实而非测速判断。
几个场景的选法(个人观点,按使用频率排)
不要相信"综合最强",看你具体要干嘛。
日常 ChatGPT 平替(国内)
首选 DeepSeek V4 Flash,输出 $0.28/M,便宜到几乎不用考虑成本。中文写作、看代码、写邮件都够。 预算松一点上 DeepSeek V4 Pro,AA Intelligence 51 分仅次于 Kimi K2.6。
代码 / Agent 主力
国内:Kimi K2.6,AA 中国榜第一,Agentic 66 分。 国际:Claude Sonnet 4.6,WebDev Arena 长期前列。预算紧选 Claude Haiku 4.5(输出 $5/M)。
极致便宜跑大量请求
Grok 4.1 Fast $0.50/M 输出 + 2M 上下文,国际线最便宜的旗舰区间。 国内:DeepSeek V4 Flash(输出 $0.28/M)或 MiniMax M2.7(输出 $1.20/M)。
长文档 / RAG 检索
Gemini 3.1 Pro Preview(1M)和 Qwen3.6 Plus(1M)都行。 真要塞百万 token,Gemini 3.1 Flash Lite(输出 $1.50/M)最划算。
推理 / 数学 / 复杂报告
国际:GPT-5.5(AA Intelligence 60.24 全球第一)或 Claude Opus 4.7。 国内:Kimi K2.6(53.9)或 GLM 5.1(51.4)。
合规 / 企业 / 要发票
阿里百炼 Qwen3.6 Plus / Max,或火山方舟豆包系列。 云厂商背书、合同好走、发票齐全。开通指南看这里。
热门两两对比
看全部 18 组 →把多源数据并到一张表,左右逐项 PK,给选型建议。
深度阅读
围绕中文用户实际场景的选型笔记和避坑指南。