GPT-5.5
OpenAI做题之王,但写前端不如 Claude——AA 第一、WebDev 只排到第 9
发布日期:2026-04-23 · 覆盖数据源:3 / 5 (AA · Arena · Pricing)
OpenAI 当前主力。AA Intelligence 60.24 拿下全球第一,Coding Index 59.12 也是榜首,Agentic 74.12 三个综合分都顶。但 LMArena Text 只排到第 8(1484)、WebDev 跌到第 9——「做对题」和「人类觉得回答好」之间的差距,没有比这更典型的案例。$5/M 输入、$30/M 输出,比 Claude Opus 4.7 略贵一档。
关键指标
AA Intelligence
60.2
全球 #1
AA Coding
59.1
Coding #1
AA Agentic
74.1
Tool/Agent 能力
输出价格
$30.00
/ 百万 token
Artificial Analysis · 独立评测
artificialanalysis.ai · 抓取于 2026-05-12| 综合智能(Intelligence Index) | 60.24 |
| 代码能力(Coding Index) | 59.12 |
| Agent 能力(Agentic Index) | 74.12 |
| 输出速度 | 61.7 token/s |
| 推理模式 | 是(reasoning model) |
AA 是独立第三方评测站,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等公开基准。 同一模型不同 reasoning effort 配置 AA 拆开排,本表只取最高分那档。
LMArena · 人类盲测排名
lmarena.ai · 抓取于 2026-05-12| 分类 | 最佳变体 | 排名 | Elo |
|---|---|---|---|
| 联网检索(Search) | gpt-5.5-search | #2 | 1242 |
| 视觉理解(Vision) | gpt-5.5 | #7 | 1288 |
| 综合对话(Text) | gpt-5.5-high | #8 | 1484 |
| 前端开发(WebDev) | gpt-5.5-high (codex-harness) | #9 | 1491 |
只展示 Top 10 内出现的分类与变体。同一分类下若有多个变体(thinking / search 等),只显示排名最靠前的。 LMArena 是 Elo 分,人类盲测两两投票算出来—— 「人类觉得好」≠「客观最强」,但反映真实使用体验。
SuperCLUE · 中文能力测评
未收录:SuperCLUE 3 月榜评的是 GPT-5.4(xhigh)总分 72.48,5.5 还没参评。
API 价格与国内可用性
来源 openrouter.ai · 抓取于 2026-05-12| 输入价格 | $5.00 / 百万 token |
| 输出价格 | $30.00 / 百万 token |
| 上下文窗口 | 1050K tokens |
| 国内可用性 | 需代理 |
| 最近核验 | 2026-05-12 |
同档对手价格
| 模型 | 输入 | 输出 | 国内 |
|---|---|---|---|
| Claude Opus 4.7 · Anthropic | $5.00 | $25.00 | 需代理 |
| Claude Sonnet 4.6 · Anthropic | $3.00 | $15.00 | 需代理 |
| GPT-5.4 · OpenAI | $2.50 | $15.00 | 需代理 |
| Gemini 3.1 Pro Preview · Google | $2.00 | $12.00 | 不稳定 |
什么时候选它 / 别选它
适合场景
- 数学/科学推理、复杂分析报告、需要严谨链路的研究任务
- 代码生成的「正确性」分(AA Coding #1),尤其复杂算法、leetcode 类
- Agent 任务编排——AA Agentic 74.12 是同档最高
不适合场景
- 前端 UI 开发——LMArena WebDev 排到第 9,Claude 在前 6 占 5 席
- 极致预算敏感的跑量场景——$30/M 输出价不低
- 国内无代理——OpenAI 没有大陆节点