模型对比库

做题 GPT-5.5 全面碾压，但写前端代码 Claude Opus 4.7 反过来碾压——AA 第一对决 WebDev 第一。

国际线 · 主力 vs 旗舰

做题 GPT-5.5 高 8.5 分，但便宜一半；写前端 Sonnet 4.6 强；用 Cursor 默认是 Sonnet 不是没原因。

国际线 · 顶级 vs 长文档之王

Opus 4.7 智能/写代码强，Gemini 3.1 Pro 便宜一半 + 速度快 2 倍 + 中文意外能打——百页 PDF 选 Gemini。

国际线 · 长文档 vs 做题

做题分 GPT-5.5 高 3 分，但 Gemini 便宜 60% + 速度快 2 倍 + 中文榜第 2——长上下文场景的国际线首选。

Google · OpenAI

国际线 · 主力对决

智能分 Gemini 高 5.5 分 + 便宜 20%，但 Sonnet 4.6 在前端 WebDev 强、OpenRouter 用量主力。

同家族升级

Opus 4.7 智能分高 5.5 分但贵 67%；日常代码任务 Sonnet 4.6 已经够用，Opus 留给真正的硬骨头。

DeepSeek V3.2

DeepSeek · 🇨🇳 · DeepSeek · 🇨🇳

V3.2 是 2025 年 12 月的开源常青树，数学极强、价格极低；V4 Pro 是 2026 年 4 月新旗舰，Agent 能力、SuperCLUE 成绩全面进化。

同家族 · Flash vs Pro

DeepSeek · 🇨🇳 · DeepSeek · 🇨🇳

Pro 智能分高 + SuperCLUE 国内 #2，Flash 输出价便宜 3.9 倍（$0.2 vs $0.87）——客服/批处理选 Flash，复杂任务选 Pro。

国内线 · 双雄对决

DeepSeek · 🇨🇳 · Moonshot AI · 🇨🇳

Kimi K2.6 智能/Agent 高一档（AA 中国第 1），DeepSeek V4 Pro 便宜 + SuperCLUE 国内第 2——选 Kimi 看能力，选 DeepSeek 看中文 + 便宜。

国内线 · 前端 vs 通用

Z.ai (智谱) · 🇨🇳 · Moonshot AI · 🇨🇳

Kimi K2.6 综合能力强一档（AA 中国 #1），但 GLM-5.1 LMArena WebDev 第 5 比 Kimi 还前面——前端项目反向选 GLM。

国内线 · Moonshot vs 阿里

Moonshot AI · 🇨🇳 · Alibaba (阿里云百炼) · 🇨🇳

Kimi K2.6 综合更强 + 便宜 50%，Qwen3.6 Max 主打阿里云 SLA/发票合规——纯开发用 Kimi，企业合规走 Qwen。

国内线 · 通用 vs 前端黑马

DeepSeek · 🇨🇳 · Z.ai (智谱) · 🇨🇳

DeepSeek 综合分均衡 + SuperCLUE 国内 #2，GLM-5.1 LMArena WebDev 第 5 是前端黑马——选型按场景拆。

国内线 · 开源 vs 阿里云背书

DeepSeek · 🇨🇳 · Alibaba (阿里云百炼) · 🇨🇳

DeepSeek 智能/中文综合更强 + 便宜 50%，Qwen3.6 Max 主打阿里云背书 + 1M 上下文——纯开发 DeepSeek，企业合规 Qwen。

国内线 · 智谱 vs 阿里

Z.ai (智谱) · 🇨🇳 · Alibaba (阿里云百炼) · 🇨🇳

GLM-5.1 LMArena WebDev 第 5 前端黑马 + 便宜 40%，Qwen3.6 Max 1M 上下文 + 阿里云背书——前端选 GLM，长文档企业场景选 Qwen。

国内线 · Moonshot vs 小米黑马

Moonshot AI · 🇨🇳 · Xiaomi · 🇨🇳

MiMo-V2.5-Pro

AA 中国 #1 vs #2 差距不到 0.1 分，但 MiMo 价格再便宜 25%——小米这条黑马值得看。

国内线 · DeepSeek vs 小米黑马

DeepSeek · 🇨🇳 · Xiaomi · 🇨🇳

MiMo-V2.5-Pro

MiMo AA 智能/Agent 略高，DeepSeek SuperCLUE 国内 #2 + 价格略便宜 + 开源——MiMo 用 AA 数据更亮眼，DeepSeek 用中文榜更稳。

跨境 · 国际主力 vs 国内旗舰

Anthropic · DeepSeek · 🇨🇳

Claude Sonnet 4.6 国际线主力（OpenRouter 用量 #3），DeepSeek V4 Pro 国内 #2 + 便宜 4 倍 + 不用代理——预算紧 + 国内场景直接选 DeepSeek。

Anthropic · Moonshot AI · 🇨🇳

AA 智能/代码分接近（差 2 分以内），但 Kimi K2.6 便宜 4 倍 + 不用代理 + OpenRouter 用量都在第 2/3——国内开发场景 Kimi 是更高杠杆的选择。

跨境 · 国际旗舰 vs 国内 #1

OpenAI · Moonshot AI · 🇨🇳

做题分 GPT-5.5 完胜（差 6 分），但 Kimi K2.6 便宜 7.5 倍 + 国内直连——做题选 GPT，跑量国内场景选 Kimi。

undefined

Fable 5 做题 5 分更高但更贵、速度更快；Opus 4.8 综合更均衡，适合需要稳定输出的场景

Anthropic 新模型 vs Google 新模型：Fable 5 强推理，Gemini 3.5 Flash 性价比惊人

Anthropic 最新 vs OpenAI 最新：Fable 5 推理激进速度快，GPT-5.5 做题更高但更贵

Gemini 3.1 Flash Image

Gemini 3 Pro Image

Google 两款图像模型：Flash Image(Nano Banana 2) 便宜快速，Pro Image 质量更高

Llama 4 Maverick

Muse Spark

Meta 旗舰 vs 新秀：Maverick 通用强，Muse Spark 为开源社区新选项

Meta · Meta

Claude Sonnet 5

Claude Sonnet 5

Poolside Laguna XS 2.1

Poolside · DeepSeek · 🇨🇳

NVIDIA Nemotron 3 Ultra

Qwen3.7 Plus

NVIDIA · Alibaba · 🇨🇳

Sakana Fugu Ultra

Gemini 3.1 Flash Lite Image

Sakana AI · Anthropic

Gemini 3 Pro Image

Gemini 3.1 Flash Lite

Flash Lite 是 Gemini 最便宜款（$0.25/$1.5），跑量成本优先；3.5 Flash 智能 55 全球第 6、速度最快，要智能和吞吐选 3.5

GPT-5.5 Pro

GPT-5.5 $5/$30 是主力通用款；GPT-5.5 Pro $30/$180 是顶配旗舰，专攻高风险高准确性任务，普通场景用 Pro 是浪费钱

GPT-5.5 Pro

两者都是旗舰档：GPT-5.5 Pro $30/$180 主打高风险推理，Claude Opus 4.8 AA 智能 56 全球第 2、综合更均衡

同家族 · 标准 vs 高速

Claude Opus 4.7 Fast

能力完全一致但速度快一档，价格贵 6 倍——只有那些对响应时间敏感的实时场景值回票价。

同家族 · 7 天迭代

4.8 比 4.7 Intelligence 高 4 分（61 vs 57），价格完全一样——Anthropic 一周内的免费升级，4.7 用户可以直接切过去。

跨境 · 国际顶级 vs 国内 #1

Anthropic · DeepSeek · 🇨🇳

Opus 4.7 AA 智能/编程/Agent 三项全胜，但输出 $25 vs V4 Pro $0.87——撑门面 Opus，跑量国内场景 V4 Pro 是 28 倍便宜的合理替代。

跨境 · 国际顶级 vs 速度甜点

Opus 4.7 智能高 2 分，但 Gemini 3.5 Flash 速度快 4 倍 + 输出便宜 64%——非顶级任务 Flash 已足够，硬骨头才需要 Opus。

跨境 · 国际顶级 vs OpenAI 长文档中档

Opus 4.7 智能/编程/Agent 三项全胜（差 7-13 分），但 GPT-5.4 上下文长 5% + 便宜 40% + 速度快 27%——非顶级任务用 GPT-5.4 已足够。

跨境 · 国际顶级 vs 国内 AA #1

Anthropic · Moonshot AI · 🇨🇳

AA 三项 Opus 4.7 都领先 3-5 分，但 Kimi K2.6 LMArena WebDev 第 7 + 输出便宜 7 倍——国内 Cursor / 编辑器主力用 Kimi 才是合理选择。

同家族 · 高速顶配 vs 主力性价比

Claude Opus 4.7 Fast

Opus Fast 质量和 Opus 标准版一致但比 Sonnet 强一档，输出贵 10 倍——只有对延迟敏感且不能接受 Sonnet 质量的场景值回票价。

同家族 · 新旗舰 vs 老主力

Opus 4.8 Intelligence 61 全场第一，比 Sonnet 4.6 高 9 分；输出价贵 67%（$25 vs $15）——日常代码 Sonnet 4.6 够用，真硬骨头才需要 Opus 4.8。

跨境 · 国际新王 vs 国内 #1

Anthropic · DeepSeek · 🇨🇳

Opus 4.8 Intelligence 61 全场第一，比 DeepSeek V4 Pro 高 9 分；但输出价贵 28 倍（$25 vs $0.87）且国内不可用——国内场景或预算敏感直接选 DeepSeek。

跨境 · 国际新王 vs 速度甜点

Opus 4.8 Intelligence 61 全场第一，但 Gemini 3.5 Flash 速度快 3.6 倍 + 输出便宜 64%——非顶级任务 Flash 足够，硬骨头才需要 Opus。

国际线 · 新王 vs 旧王

Opus 4.8 Intelligence 61 全场第一，比 GPT-5.5 高 1 分；价格几乎一样但输出便宜 17%——Anthropic 终于拿回榜首，GPT-5.5 的「全球最强」称号只维持了不到两个月。

国际线 · 主力 vs 速度甜点

Gemini 3.5 Flash 智能高 3 分 + 速度快 3.3 倍 + 便宜 40%，但 Sonnet 4.6 有 LMArena WebDev 排名和 OpenRouter 用量背书——开发者生态成熟选 Sonnet，追求速度性价比选 Flash。

国际线 · OpenAI 新主力 vs Claude 主力

定价完全一样（$2.5/$15），但 Sonnet 4.6 编程能力更强、 LMArena WebDev 第 6——写代码选 Claude，通用任务 GPT-5.4 略便宜。

跨境 · xAI 性价比 vs Claude 主力

Grok 4.3 输出价只有 Sonnet 4.6 的 1/6，但编程能力差距明显——代码选 Claude，跑量选 Grok。

Anthropic · xAI

国内线 · 地板价跑量 vs 字节黑马

DeepSeek · 🇨🇳 · 字节跳动 · 🇨🇳

Doubao Seed 2.0

DeepSeek V4 Flash 输出 $0.20/M 便宜到没朋友，但豆包 Seed 2.0 SuperCLUE 总分高 2.5 分 + 幻觉控制好 9 分——跑量选 DeepSeek，质量选豆包。

跨境 · 极致便宜档对决

GPT-5.4 Nano

Nano 写代码 + 速度 + 幻觉率三项胜出（HHEM 3.1% 全球 #2），V4 Flash 在 Agent 编排反超 13.7 分 + 国内直连——RAG / 翻译选 Nano，Agent / 国内跑量选 Flash。

DeepSeek · 🇨🇳 · OpenAI

国内线 · 最便宜 Top 10 对决

DeepSeek · 🇨🇳 · MiniMax · 🇨🇳

MiniMax M2.7

DeepSeek V4 Flash 输出 $0.2/M 全场最低，MiniMax M2.7 输出 $1.20/M 但 SuperCLUE 55.68 有中文实测——极致便宜选 DeepSeek，要中文榜数据选 MiniMax。

跑量场景 · 便宜 vs 免费

DeepSeek · 🇨🇳 · OpenRouter

Owl Alpha

V4 Flash 输出 $0.20/M 是全场最便宜的有质量保证的模型；Owl Alpha 完全免费但能力未经严格验证——生产环境选 V4 Flash，零预算实验选 Owl。

国内线 · 平价档对决

DeepSeek · 🇨🇳 · Alibaba · 🇨🇳

Qwen3.6 Plus

DeepSeek V4 Flash 输出价只有 Qwen3.6 Plus 的 1/8.7（$0.2 vs $1.95），但 Qwen3.6 Plus 智能高 3.5 分——跑量选 Flash，质量选 Qwen。

国内线 · 地板价对决

DeepSeek · 🇨🇳 · 阶跃星辰 (StepFun) · 🇨🇳

Step 3.7 Flash

DeepSeek V4 Flash 输出价 $0.1966/M 只有 Step 3.7 Flash 的 17%，输入价也只有 49%——两者都是国内可用，但 DeepSeek 的便宜程度没有对手。

跨境 · 国内 #1 vs 长文档之王

做题 Gemini 高 5.7 分但Gemini 输出价贵 14 倍——Agent 工作流国内场景选 V4 Pro，长文档 RAG + 中文海外榜首选 Gemini。

DeepSeek · 🇨🇳 · Google

跨境 · 国内性价比 vs 国际速度型

Gemini 3.5 Flash 智能高 3 分 + 速度快 4.4 倍，但 DeepSeek V4 Pro 输出便宜 10.3 倍 + 国内直连——跑量国内场景 DeepSeek 仍是成本结构最优解。

DeepSeek · 🇨🇳 · Google

跨境 · 国际中档 vs 国内旗舰

DeepSeek V4 Pro 智能高 3.6 分 + 便宜 4.3 倍 + 国内直连——除非绑定 OpenAI 生态，否则 DeepSeek 更优。

DeepSeek · 🇨🇳 · OpenAI

跨境 · 国内 #1 vs 国际旗舰

AA 全面 GPT-5.5 领先 8-12 分，但输出价 $30 vs $0.87 差 34 倍——做题 GPT-5.5，跑量国内场景 V4 Pro 是另一档级别的成本结构。

DeepSeek · 🇨🇳 · OpenAI

跨境 · 性价比之王对决

Grok 4.3 智能略高 1.7 分 + 国际线可用，DeepSeek V4 Pro 中文强 + 国内直连 + 开源——选 Grok 看国际生态，选 DeepSeek 看国内落地。

DeepSeek · 🇨🇳 · xAI

国内线 · 性价比之王 vs 质量天花板

DeepSeek · 🇨🇳 · Alibaba · 🇨🇳

Qwen3.7 Max Intelligence 高 5 分 + 速度快 4 倍 + 1M 上下文，但 DeepSeek V4 Pro 输出便宜 9.3 倍 + 国内直连成本最低——跑量选 DeepSeek，质量选 Qwen。

国产线 · 开源性价比 vs MoE 新贵

DeepSeek · 🇨🇳 · Tencent (腾讯) · 🇨🇳

Tencent Hy3 Preview

DeepSeek V4 Pro 更便宜、有开源权重、SuperCLUE 背书；Hy3 Preview 参数效率更高、Agent 能力更强、OpenRouter 用量冲得更猛。

同家族 · Pro vs Flash

3.1 Pro 智能高 2 分，3.5 Flash 速度快 50% + 便宜 25%——常规任务 Flash 够用，复杂推理和编程任务选 Pro。

跨境 · 长文档之王 vs xAI 性价比黑马

Gemini 智能/编程能力更高 + 速度快 37% + SuperCLUE 中文海外榜第 2，但输出便宜 4.8 倍——长文档/中文选 Gemini，跑量 Agent 选 Grok。

Google · xAI

跨境 · 长文档 vs 国内 AA #1

Google · Moonshot AI · 🇨🇳

做题 Gemini 略高，但国内直连 + 输出便宜 3.4 倍——纯长文档 + 速度选 Gemini，Agent / 国内场景选 Kimi。

跨境 · 国际长文档 vs 国内速度王

AA 智能同档（57 分），Qwen3.7 Max 速度快 51% + 输出便宜 37.5% + 国内直连，Gemini 3.1 Pro 编程能力有数据、 SuperCLUE 海外 #2——长文档/编程选 Gemini，速度/性价比/国内选 Qwen。

Google · Alibaba · 🇨🇳

国际线 · 速度甜点 vs 做题王

GPT-5.5 Intelligence 60 高 5 分，但 Gemini 3.5 Flash 输出便宜 70%、速度快 3 倍——非硬核推理场景 Flash 更香，真竞赛才上 GPT-5.5。

Google · OpenAI

跨境 · Google 速度型 vs xAI 性价比

Gemini 3.5 Flash 智能高 2 分 + 速度快 26%，但 Grok 4.3 输出便宜 14 倍 + 价格几乎和 DeepSeek 同级——预算敏感选 Grok，速度和生态选 Gemini。

Google · xAI

国际线 · 轻量档对决

Gemini 3 Flash Preview

GPT-5.4 Mini

GPT-5.4 Mini 品牌认知强但上下文只有 128K，Gemini 3 Flash 1M 上下文 + 速度快 + 便宜 33%——长文档选 Gemini，通用选 GPT。

Google · OpenAI

同家族 · 智谱升级

GLM-5

Z AI (智谱) · 🇨🇳 · Z.ai (智谱) · 🇨🇳

GLM-5.1 智能高 1.6 分 + LMArena WebDev 第 5 前端黑马，但 GLM-5 便宜 45%——日常用 GLM-5 足够，前端项目上 5.1。

同家族 · GLM 5.1 vs 5.2

Z.ai (智谱) · 🇨🇳 · Z.ai (智谱) · 🇨🇳

GLM 5.2

5.2 综合能力明显更强，WebDev 从第 9 冲到第 2；但价格也涨了 40%，不是免费升级。

同家族 · OpenAI 主力升级

5.5 比 5.4 全面提升，但贵一倍且速度还慢 14%——非高难任务用 5.4 已绰绰有余。

国际线 · xAI 黑马 vs OpenAI 新主力

Grok 4.3 智能高 5.3 分 + 便宜 6 倍，GPT-5.4 只有 OpenAI 生态优势——非生态绑定用户选 Grok。

OpenAI · xAI

跨境 · 国际旗舰 vs 国内最强

GPT-5.5 智能高 3 分，但 Qwen3.7 Max 速度快 2.8 倍 + 输出便宜 75% + 国内直连——非极端推理任务选 Qwen 更实际。

OpenAI · Alibaba · 🇨🇳

跨境 · xAI 性价比 vs 国内综合

Kimi 智能高 1 分，Grok 4.3 速度快 2.4 倍 + 输入略便宜——价格几乎一样，选谁看生态和场景。

xAI · Moonshot AI · 🇨🇳

国产线 · 老牌旗舰 vs 6 月新秀

Moonshot AI · 🇨🇳 · MiniMax · 🇨🇳

MiniMax M3

Kimi K2.6 有 AA 中国第一+SuperCLUE 国内第二的全套背书；MiniMax M3 刚发布但 BrowseComp 超过 Claude Opus，MSA 稀疏注意力让 1M 上下文不再龟速。

国内线 · 旧王 vs 新王

Moonshot AI · 🇨🇳 · Alibaba · 🇨🇳

Qwen3.7 Max 智能高 3 分 + 速度快 3 倍，但 Kimi K2.6 输出便宜 10.7 倍 ——预算敏感跑量选 Kimi，质量敏感选 Qwen。

同家族 · 开源长文档怪兽 vs 通用主力

Llama 4 Scout

Llama 4 Maverick

Scout 10M 上下文是 Maverick 的 10 倍，输出还便宜一半——但需要吞整本书/整本法律条文才值得 Scout，普通任务 Maverick 够用。

Meta · Meta

国内线 · 小米 Agent 黑马 vs 阿里背书

MiMo-V2.5-Pro

Xiaomi · 🇨🇳 · Alibaba (阿里云百炼) · 🇨🇳

MiMo 1M 上下文 + 便宜一半，Qwen3.6 Max 拼阿里云 SLA + 通义生态——纯 Agent 任务选 MiMo，企业合规走 Qwen。

新发布 · 开源大厂 vs 国产中端

NVIDIA Nemotron 3 Ultra

Qwen3.7 Plus

Nemotron 3 Ultra 是 NVIDIA 首款 frontier 开源模型，MoE 550B + 免费 tier，适合实验和 NVIDIA 生态；Qwen3.7 Plus 是阿里中端多模态，1M 上下文 + $0.4/M 输入价，国内可用。两者都刚发布，benchmark 数据尚少。

NVIDIA · Alibaba · 🇨🇳

同家族 · 阿里升级

Alibaba (阿里云百炼) · 🇨🇳 · Alibaba · 🇨🇳

Qwen3.6 Plus

Max Preview 智能高 1.8 分 + 1M 上下文，但 Plus 输出价便宜 2.6 倍——日常开发 Plus 够用，复杂任务上 Max。

同家族 · Preview 到正式版

Tencent Hy3

Tencent Hy3 Preview

正式版能力与 Preview 一致但价格贵 3-4 倍——升级的是产品化程度，不是模型能力。Preview 用户没必要急着切，除非需要更强的 SLA 和稳定性保障。

Tencent (腾讯) · 🇨🇳 · Tencent (腾讯) · 🇨🇳

国产 Agent 模型 · 腾讯 vs 深度求索

Tencent Hy3

Tencent (腾讯) · 🇨🇳 · DeepSeek · 🇨🇳

DeepSeek V4 Pro 推理更强（AA 53 vs 34），Hy3 Agent 场景有腾讯生态加成——做题选 DeepSeek，Agent 选 Hy3。

国产 Agent 模型 · 腾讯 vs 阿里

Tencent Hy3

Tencent (腾讯) · 🇨🇳 · Alibaba · 🇨🇳

阿里 Qwen3.7 Max 做题更强，腾讯 Hy3 Agent 场景更专——国产 Agent 模型两条路线。

同家族 · 图像生成旗舰对比

Gemini 3.1 Pro Image

Gemini 3 Pro Image

3.1 Pro Image 比 3 Pro Image 生图质量全面提升一个级别，AA Intelligence 46 比 3 Pro Image 高得多——但价格也贵 2-3 倍。

同家族 · 生图 Pro vs Flash

Gemini 3.1 Flash Image

Gemini 3.1 Pro Image

同一代生图模型，Pro 画质更好但 Flash 便宜 11 倍——日常配图 Flash 够用，商业级才上 Pro。

同底座 · 生图 vs 纯文本

Gemini 3.1 Pro Image

同一个 Gemini 3.1 Pro 底座，一个侧重生图一个侧重文本推理——选哪个看你是要画图还是做题。

换代 · OpenAI 旗舰

GPT-5.6 Sol

GPT-5.6 Sol 是 5.5 的同价继任（都是 $5/$30），7-9 发布——除非已经在用 5.5 跑得很好，否则新项目直接上 5.6 Sol。

同系列 · 5.6 内部档位

GPT-5.6 Luna

GPT-5.6 Terra

5.6 内部怎么选档：跑量 chat/分类选 Luna（$1/$6），日常编码/推理选 Terra（$2.5/$15）——差 2.5 倍输出价，按场景别选错。

换代 · Grok 旗舰