GLM 5.1
Z.ai (智谱) · 🇨🇳前端工程黑马——LMArena WebDev 第 5 名,比 Claude Sonnet 还前面
发布日期:2026-04-07 · 覆盖数据源:3 / 5 (AA · Arena · Pricing)
智谱 AI 当前旗舰。最显眼的一条数据:LMArena WebDev Arena 排到第 5 名(1531 分),把 Claude Sonnet 4.6(第 6)和 GPT-5.5(第 9)都甩在身后——前端代码人类盲测能打过 GPT 系列,国内独一份。但同一个模型在 AA Coding Index 只有 43.37,国内榜第 5——「做题分」和「实际写前端能力」严重背离的典型。AA Intelligence 51.41、Agentic 67.05。$1.4/M 输入、$4.4/M 输出。
关键指标
AA Intelligence
51.4
全球 #11 中国 #5
AA Coding
43.4
Coding #14
AA Agentic
67.0
Tool/Agent 能力
输出价格
$3.08
/ 百万 token
Artificial Analysis · 独立评测
artificialanalysis.ai · 抓取于 2026-05-12| 综合智能(Intelligence Index) | 51.41 |
| 代码能力(Coding Index) | 43.37 |
| Agent 能力(Agentic Index) | 67.05 |
| 输出速度 | 56.8 token/s |
| 推理模式 | 是(reasoning model) |
AA 是独立第三方评测站,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等公开基准。 同一模型不同 reasoning effort 配置 AA 拆开排,本表只取最高分那档。
LMArena · 人类盲测排名
lmarena.ai · 抓取于 2026-05-12| 分类 | 最佳变体 | 排名 | Elo |
|---|---|---|---|
| 前端开发(WebDev) | glm-5.1 | #5 | 1531 |
只展示 Top 10 内出现的分类与变体。同一分类下若有多个变体(thinking / search 等),只显示排名最靠前的。 LMArena 是 Elo 分,人类盲测两两投票算出来—— 「人类觉得好」≠「客观最强」,但反映真实使用体验。
SuperCLUE · 中文能力测评
未收录:SuperCLUE 3 月榜里是 GLM-5(总分 64.27 国内榜第 8),5.1 是 4 月升级版。
API 价格与国内可用性
来源 openrouter.ai · 抓取于 2026-05-12| 输入价格 | $0.98 / 百万 token |
| 输出价格 | $3.08 / 百万 token |
| 上下文窗口 | 203K tokens |
| 国内可用性 | 可用 |
| 最近核验 | 2026-05-12 |
同档对手价格
| 模型 | 输入 | 输出 | 国内 |
|---|---|---|---|
| MiMo-V2.5-Pro · Xiaomi | $1.00 | $3.00 | 可用 |
| Gemini 3 Flash Preview · Google | $0.50 | $3.00 | 不稳定 |
| Kimi K2.6 · Moonshot AI | $0.74 | $3.50 | 可用 |
| Grok 4.3 · xAI | $1.25 | $2.50 | 需代理 |
什么时候选它 / 别选它
适合场景
- 前端 UI 开发、React/Vue 组件生成——人类盲测能赢 GPT-5.5
- 国内合规场景需要稳定 API 的——智谱开放平台支持发票/合同
- Agent 任务(Agentic 67.05 国内前列)
不适合场景
- 纯做题/复杂数学——AA Coding 才 43.37,低于 Kimi/DeepSeek
- 对响应速度有要求的——AA 实测 56.8 token/s 中规中矩
- OpenRouter 用量没进前 10——开发者圈认知度还在爬升