跨境 · 国际旗舰 vs 国内 #1

GPT-5.5 vs Kimi K2.6

TL;DR

做题分 GPT-5.5 完胜(差 6 分),但 Kimi K2.6 便宜 7.5 倍 + 国内直连——做题选 GPT,跑量国内场景选 Kimi。

关键差异

  • AA Intelligence:GPT-5.5 (60.24) > Kimi K2.6 (53.92),差 6.3 分
  • AA Coding:GPT-5.5 (59.12) > Kimi K2.6 (48.06),差 11 分
  • 输出价:GPT-5.5 $30 vs Kimi $4,GPT 贵 7.5 倍
  • 国内可用性:GPT-5.5 需代理,Kimi 直连国内

关键指标逐项对比

AA 数据抓取于 2026-05-12 · 价格抓取于 2026-05-12
指标 GPT-5.5 Kimi K2.6 优胜
AA 综合智能(Intelligence Index) 越高越好 60.24 53.90 A
AA 代码能力(Coding Index) 越高越好 59.12 47.12 A
AA Agent 能力(Agentic Index) 越高越好 74.12 65.97 A
输入价格($ / 百万 token) 越低越好 $5.00 $0.74 B
输出价格($ / 百万 token) 越低越好 $30.00 $3.50 B
输出速度(token / 秒) 越高越好 61.7 49.3 A
上下文窗口 越大越好 1050K 33K A

价格差距:GPT-5.5 输出价比 Kimi K2.6 贵 8.57 倍($30 vs $3.5)

A = GPT-5.5,B = Kimi K2.6。空缺值表示该数据源未收录此模型,不参与优胜判定。

LMArena · 人类盲测各分类

抓取于 2026-05-12
分类 GPT-5.5 Kimi K2.6
联网检索(Search) #2 · 1242 未进 Top 10
前端开发(WebDev) #9 · 1491 #7 · 1523
视觉理解(Vision) #7 · 1288 未进 Top 10
综合对话(Text) #8 · 1484 未进 Top 10

只显示 Top 10 内出现的分类。同一模型不同变体(thinking / search 等)取排名最靠前的。LMArena 是人类盲测两两投票算的 Elo 分。

国内可用性 & OpenRouter 用量

GPT-5.5
  • 国内可用性 需代理
  • OpenRouter 本周 未进 Top 10
  • 价格最近核验 2026-05-12
Kimi K2.6
  • 国内可用性 可用
  • OpenRouter 本周 #2 · 1.53T
  • 价格最近核验 2026-05-12

OpenRouter 用量榜抓取于 2026-05-12,反映过去 7 天聚合 API 用量。免费层模型经常冲到榜首,参考时注意是「跑量」而不是「能力」。

怎么选

GPT-5.5,如果你:

数学/科学推理顶级、复杂算法、Agent 编排(Agentic 74.12 全场最高)、不在乎 $30/M 输出。

Kimi K2.6,如果你:

国内开发不走代理、性价比(输出便宜 7.5 倍)、AA 中国榜第 1 的中文场景。

还在比的其他对