5 个独立数据源 · 2026-05-12 更新

中文用户的 LLM 综合参考

LMArena 看人类偏好、Artificial Analysis 看国际评测、SuperCLUE 看中文能力、OpenRouter 看真实用量、各家官网比价格。五份榜单互相独立、互相印证，不替你做"综合分"。

看人类偏好看国际评测看中文能力看真实用量比 API 价格

数据来源

AA 智能榜

SuperCLUE 入榜

价格对比

国内直接可用

LMArena 对战 Elo（人类偏好）

来源 lmarena.ai · 抓取于 2026-05-12 · 4 天前更新

分数越高 = 盲测中越多用户选它

综合对话

Text Arena

1	claude-opus-4-7 (thinking)	1503
2	claude-opus-4-6 (thinking)	1502
3	claude-opus-4-6	1498
4	gemini-3.1-pro-preview	1492
5	claude-opus-4-7	1491
6	Meta muse-spark	1490
7	gemini-3-pro	1486
8	gpt-5.5-high	1484
9	grok-4.20-beta1	1480
10	gpt-5.2-chat-latest-20260210	1477

前端编程

WebDev Arena

1	claude-opus-4-7 (thinking)	1570
2	claude-opus-4-7	1560
3	claude-opus-4-6 (thinking)	1549
4	claude-opus-4-6	1544
5	glm-5.1	1531
6	claude-sonnet-4-6	1524
7	kimi-k2.6	1523
8	Meta muse-spark	1509
9	gpt-5.5-high (codex-harness)	1491
10	claude-opus-4-5-20251101-thinking-32k	1490

视觉理解

Vision Arena

1	claude-opus-4-7 (thinking)	1305
2	claude-opus-4-7	1301
3	claude-opus-4-6 (thinking)	1300
4	Meta muse-spark	1298
5	claude-opus-4-6	1291
6	gemini-3-pro	1288
7	gpt-5.5	1288
8	gpt-5.5-high	1281
9	gpt-5.2-chat-latest-20260210	1279
10	gemini-3.1-pro-preview	1277

LMArena（前 LMSYS Chatbot Arena）让真人对两个匿名模型同问题打分，用类似下棋的 Elo 系统算分。 偏好高 ≠ 实际效果好——很多人偏爱回答冗长、礼貌的模型，但你的实际场景可能恰恰相反。

Artificial Analysis · 独立评测综合分

来源 artificialanalysis.ai · 抓取于 2026-05-12 · 第三方评测站

Intelligence 综合自 GPQA / HLE / MMLU-Pro 等基准

全球 Top 12 · 综合智能

Intelligence Index

#	模型	智能
1	GPT-5.5 OpenAI	60.2
2	Claude Opus 4.7 Anthropic	57.3
3	Gemini 3.1 Pro Preview Google	57.2
4	Kimi K2.6 Kimi · 🇨🇳	53.9
5	MiMo-V2.5-Pro Xiaomi · 🇨🇳	53.8
6	GPT-5.3 Codex OpenAI	53.6
7	Grok 4.3 xAI	53.2
8	Qwen3.6 Max Preview Alibaba · 🇨🇳	51.8
9	Claude Sonnet 4.6 Anthropic	51.7
10	DeepSeek V4 Pro DeepSeek · 🇨🇳	51.5
11	GLM-5.1 Z AI · 🇨🇳	51.4
12	Qwen3.6 Plus Alibaba · 🇨🇳	50.0

中国厂商 Top 10

含编程 / Agent 子维度

#	模型	智能	编程	Agent
1	Kimi K2.6 Kimi	53.9	47.1	66.0
2	MiMo-V2.5-Pro Xiaomi	53.8	45.5	67.4
3	Qwen3.6 Max Preview Alibaba	51.8	44.9	64.8
4	DeepSeek V4 Pro DeepSeek	51.5	47.5	67.2
5	GLM-5.1 Z AI	51.4	43.4	67.0
6	Qwen3.6 Plus Alibaba	50.0	42.9	61.7
7	GLM-5 Z AI	49.8	44.2	63.1
8	MiniMax-M2.7 MiniMax	49.6	41.9	61.5
9	MiMo-V2.5 Xiaomi	49.0	42.1	65.5
10	DeepSeek V4 Flash DeepSeek	46.5	38.7	61.3

Artificial Analysis 是独立第三方评测，不收厂商钱。 和 LMArena 互补——LMArena 反映"人类觉得回答好不好"，AA 反映"机器能不能做对题"。同一个模型多种 reasoning effort 配置时，本表只取最高分那档。

SuperCLUE · 中文能力综合测评

来源 superclueai.com · 2026年3月测评 · 国内独立第三方

分差 1 分内视为并列 · 含数学/科学/代码/Agent 六维子分

综合榜 Top 12 · 全部模型

国内 + 海外，按 SuperCLUE 总分

#	模型	总分
1	Claude-Opus-4.6(max) Anthropic · 闭源	77.0
2	Gemini-3.1-Pro-Preview(high) Google · 闭源	76.7
3	GPT-5.4(xhigh) OpenAI · 闭源	72.5
4	Doubao-Seed-2.0-pro-260215(high) 字节跳动 · 🇨🇳 · 闭源	71.5
5	DeepSeek-V4-Pro(max) 深度求索 · 🇨🇳 · 开源	71.0
6	Gemini-3-Flash-Preview(high) Google · 闭源	68.8
7	DeepSeek-V4-Flash(max) 深度求索 · 🇨🇳 · 开源	68.8
8	Grok-4.20-Beta-0309(Reasoning) X.AI · 闭源	66.1
9	Kimi-K2.5-Thinking 月之暗面 · 🇨🇳 · 开源	64.6
10	Qwen3.5-397B-A17B-Thinking 阿里巴巴 · 🇨🇳 · 开源	64.5
11	GLM-5 智谱AI · 🇨🇳 · 开源	64.3
12	DeepSeek-V3.2-Thinking 深度求索 · 🇨🇳 · 开源	61.9

国内厂商 Top 10

含数学/代码/Agent 子维度

#	模型	总分	代码	Agent
1	Doubao-Seed-2.0-pro-260215(high) 字节跳动 · 闭源	71.5	63.9	81.0
2	DeepSeek-V4-Pro(max) 深度求索 · 开源	71.0	63.2	77.5
3	DeepSeek-V4-Flash(max) 深度求索 · 开源	68.8	61.4	75.3
4	Kimi-K2.5-Thinking 月之暗面 · 开源	64.6	65.5	78.4
5	Qwen3.5-397B-A17B-Thinking 阿里巴巴 · 开源	64.5	51.0	71.5
6	GLM-5 智谱AI · 开源	64.3	58.3	66.6
7	DeepSeek-V3.2-Thinking 深度求索 · 开源	61.9	60.4	56.6
8	MiMo-V2-Pro 小米集团 · 闭源	60.7	59.6	56.0
9	Tencent HY 2.0 Think 腾讯 · 闭源	59.2	57.6	59.7
10	Qwen3.5-122B-A10B-Thinking 阿里巴巴 · 开源	58.5	50.2	65.2

SuperCLUE 是国内做中文测评最久的独立基准，覆盖数学、科学、幻觉控制、指令遵循、代码、Agent 六个维度。 这是看"中文场景能力"的关键一票——AA 和 LMArena 的题大多英文，国内模型在中文上的真实差距，这张榜上才看得清楚。官方说明：分差 1 分内并列，部分国内模型只做参考不参与排名。

OpenRouter 周用量榜

来源 openrouter.ai/rankings · 抓取于 2026-05-12 · 过去 7 天

看开发者真金白银在烧哪些模型

排名	模型	厂商	周用量	环比
1	Hy3 Preview (free)	tencent	2.07T	↑ 40%
2	Kimi K2.6	moonshotai	1.53T	↑ 15%
3	Claude Sonnet 4.6	anthropic	1.49T	↑ 12%
4	Claude Opus 4.7	anthropic	1.33T	↑ 44%
5	Hy3 Preview	tencent	1.3T	新增
6	Deepseek V4 Flash	deepseek	1.19T	↑ 56%
7	Gemini 3 Flash Preview	google	1.11T	↑ 15%
8	Deepseek V3.2	deepseek	887B	↑ 4%
9	Deepseek V4 Pro	deepseek	845B	↑ 70%
10	Minimax M2.7	minimax	754B	↑ 3%

OpenRouter 是聚合多家模型的中间商，能看到跨厂商的真实开发用量。 用量榜偏向便宜+免费层——比如腾讯 Hy3 Preview 在免费阶段冲到第一，并不代表它最强。

API 价格对比（USD / 百万 token）

来源 openrouter.ai API · 抓取于 2026-05-12 · 国内可用性按公开事实标注

输出价格升序 · 仅显示当代主力（24 款）

模型	厂商	输入	输出	上下文	国内
DeepSeek V4 Flash DeepSeek · 当前性价比之王当前性价比之王	DeepSeek	$0.14	$0.28	1049K	可用
Grok 4.1 Fast xAI · Grok 便宜版 / 2M 上下文 Grok 便宜版 / 2M 上下文	xAI	$0.20	$0.50	2000K	需代理
Llama 4 Maverick Meta · 开源 / 自部署友好开源 / 自部署友好	Meta	$0.15	$0.60	1049K	需代理
DeepSeek V4 Pro DeepSeek · DeepSeek 旗舰 DeepSeek 旗舰	DeepSeek	$0.43	$0.87	1049K	可用
MiniMax M2.7 MiniMax · MiniMax 旗舰 MiniMax 旗舰	MiniMax	$0.20	$1.20	197K	可用
GPT-5.4 Nano OpenAI · GPT 最便宜 / 大批量请求 GPT 最便宜 / 大批量请求	OpenAI	$0.20	$1.25	400K	需代理
Gemini 3.1 Flash Lite Google · Gemini 最便宜 / 大批量 Gemini 最便宜 / 大批量	Google	$0.25	$1.50	1049K	不稳定
GLM 5 Z.ai (智谱) · GLM 上代 / 更稳 GLM 上代 / 更稳	Z.ai (智谱)	$0.60	$1.92	203K	可用
Qwen3.6 Plus Alibaba (阿里云百炼) · 通义中档 / 性价比通义中档 / 性价比	Alibaba (阿里云百炼)	$0.33	$1.95	1000K	可用
MiMo-V2.5 Xiaomi · 小米经济版小米经济版	Xiaomi	$0.40	$2.00	1049K	可用
Grok 4.3 xAI · Grok 旗舰 Grok 旗舰	xAI	$1.25	$2.50	1000K	需代理
MiMo-V2.5-Pro Xiaomi · 小米开源 / 编程 Agent 路线小米开源 / 编程 Agent 路线	Xiaomi	$1.00	$3.00	1049K	可用
Gemini 3 Flash Preview Google · Gemini 廉价快速 / 长上下文 Gemini 廉价快速 / 长上下文	Google	$0.50	$3.00	1049K	不稳定
GLM 5.1 Z.ai (智谱) · GLM 最新旗舰 GLM 最新旗舰	Z.ai (智谱)	$0.98	$3.08	203K	可用
Kimi K2.6 Moonshot AI · Kimi 最新旗舰 / 长文本 Kimi 最新旗舰 / 长文本	Moonshot AI	$0.74	$3.50	33K	可用
GPT-5.4 Mini OpenAI · GPT 经济版 / 速度快 GPT 经济版 / 速度快	OpenAI	$0.75	$4.50	400K	需代理
Claude Haiku 4.5 Anthropic · Claude 经济版 / 入门 Claude 经济版 / 入门	Anthropic	$1.00	$5.00	200K	需代理
Qwen3.6 Max Preview Alibaba (阿里云百炼) · 通义旗舰 / 中文标杆通义旗舰 / 中文标杆	Alibaba (阿里云百炼)	$1.04	$6.24	262K	可用
Gemini 3.1 Pro Preview Google · Gemini 旗舰 Preview / 1M 上下文 Gemini 旗舰 Preview / 1M 上下文	Google	$2.00	$12.00	1049K	不稳定
Claude Sonnet 4.6 Anthropic · 主力旗舰 / 性价比国际线最高主力旗舰 / 性价比国际线最高	Anthropic	$3.00	$15.00	1000K	需代理
GPT-5.4 OpenAI · GPT 主力 / 性价比中档 GPT 主力 / 性价比中档	OpenAI	$2.50	$15.00	1050K	需代理
Claude Opus 4.7 Anthropic · 推理/编程 / 综合最强档推理/编程 / 综合最强档	Anthropic	$5.00	$25.00	1000K	需代理
GPT-5.5 OpenAI · GPT 主力 / 综合能力强（Intelligence 60.24 全球第一） GPT 主力 / 综合能力强（Intelligence 60.24 全球第一）	OpenAI	$5.00	$30.00	1050K	需代理
GPT-5.5 Pro OpenAI · GPT 顶配 Pro / 复杂任务 GPT 顶配 Pro / 复杂任务	OpenAI	$30.00	$180.00	1050K	需代理

价格为 OpenRouter 聚合的厂商官方定价，每条数据带 last_verified 字段（2026-05-12）。 实际成本要看输入/输出比例——同样输出 1 万字，输入 3 万字提示和输入 1 千字提示，总价能差好几倍。国内可用性：「可用」指厂商自家 API 在中国大陆稳定访问；「需代理」「不稳定」按公开事实而非测速判断。