2026-05-12 · 选型指南

中文用户怎么选 LLM：2026 上半年盘点

国内 DeepSeek V3.2、Qwen3 Max、Kimi K2、GLM 4.6 都到了一个真能用的状态，国际线 Claude 4.5、GPT-5、Gemini 2.5 也都换了代。这篇不做"综合排行"，按你具体要干什么来拆。

先给三句话

预算最低、跑量、不要思考——DeepSeek V3.2，输入 $0.25 / 输出 $0.38，国内直连。
想要 Claude Code 那种水平的代码 / Agent——Claude Sonnet 4.5，输入 $3.00 / 输出 $15.00，得走代理。
国内合规、要中文调性——Qwen3 Max 或 GLM 4.6，前者偏正式后者更便宜。

国内模型这一年发生了什么

直接说结论：现在国内主流 5 家（DeepSeek、阿里通义、月之暗面 Kimi、字节豆包、智谱 GLM）的旗舰款，在中文日常对话、代码、长文档场景下，已经能稳定接近 GPT-4 时代的国际水平。差距还在但没有以前那么大。

分家说：

DeepSeek V3.2

目前国内性价比之王。输入 $0.25 / 输出 $0.38，输出价比输入还贵不到一倍——这种结构非常适合"提示长、回答短"的场景，比如分类、摘要、SQL 生成。 R1 系列继续维护，但 V3.2 在常规对话上更新更快、更稳。缺点也直说：和 Claude 这种比起来，复杂指令理解还是会偶尔"自作主张"。

Qwen3 Max / Qwen3 Coder Plus

阿里通义旗舰。Qwen3 Max（输入 $0.78 / 输出 $3.90）综合质量稳； Qwen3 Coder Plus（输入 $0.65 / 输出 $3.25）专门优化代码，给到 1M 上下文，整个项目扔进去都行。缺点：阿里云百炼的控制台体验和定价细则还是偏复杂，新手算成本容易踩坑。

Kimi K2

Moonshot 现在用的是 K2 系列，输入 $0.57 / 输出 $2.30。老牌长文本选手，把整本 PDF / 一堆合同甩进去定位条款是它的看家本事。网页端体验也好，能直接读 PPT / Excel / Word。

GLM 4.6 / 4.5

智谱 Z.ai 的旗舰。输入 $0.39 / 输出 $1.90。做信息抽取、摘要这类活很合适，便宜还快。WebDev Arena 上 GLM 5.1（更新一档）已经能挤进前 10，能力线在迅速追上。

还有谁值得提一句

字节 Doubao 在国内 OpenRouter 看不到详细分布，但火山引擎平台上是个稳定备选，价格也很压。百度 ERNIE 4.5 系列在 OpenRouter 也有上线，价格在中下，但平台体验和文档更新偏慢，不太推荐新项目用。腾讯 Hy3 Preview 这波因为 Free Tier 冲到 OpenRouter 用量榜第一，等它退出免费阶段再看真实定价。

国际线还值不值得用

值得。但前提是你能解决访问问题，并且你的应用对质量真的敏感。

Claude Sonnet 4.5（输入 $3.00 / 输出 $15.00）是目前公认在长链路代码任务上最稳的模型——Claude Code、Cursor 这些专业开发工具的默认推荐都是它。代价是没有官方国内通道。

GPT-5 / GPT-5 mini（输入 $0.25 / 输出 $2.00）现在的 mini 版本极有性价比，输出 $2/M 拿到 400K 上下文，能处理大部分日常工作流。推理任务首选 o3（输入 $2.00 / 输出 $8.00），便宜版 o4-mini 也能打。

Gemini 2.5 Pro / Flash（输入 $0.30 / 输出 $2.50）的杀手锏永远是 1M 上下文 + 低价。做超长文档分析、RAG 检索时，没有竞品。但国内访问稳定性时好时坏，做生产项目最好准备 fallback。

Grok 4 Fast（输入 $0.20 / 输出 $0.50）是匹黑马：$0.50/M 输出 + 2M 上下文 + 联网搜索，价格已经接近国内厂商但还是国际水平。可惜 Vision、Document 这些细分榜上还看不到它名次，能力面不全。

几个常见场景直接给答案

写小红书 / 公众号种草

豆包 / Qwen3 Max。这两家训练语料明显吃了中文社媒。Claude 写公文很正经，但写"姐妹们绝绝子"会出戏。

写代码 / 重构 / 写 SQL

预算够：Claude Sonnet 4.5。预算紧：Qwen3 Coder Plus（国内）或 GPT-5 mini（国际）。别用便宜版小模型搞 Agent，省下的钱往往全花在调试上。

做 RAG / 文档问答

看你文档总量。1MB 以内随便挑；超过 100MB 选 Gemini 2.5 Flash 或 Kimi K2，1M-256K 上下文吃下整章问比检索拼回更准。

分类 / 标注 / 数据清洗

DeepSeek V3.2，没别的。$0.25/M 输入跑 100 万条文本也就几十块。

数学 / 复杂推理 / 写 paper-style 报告

o3 或 DeepSeek R1。前者贵但准，后者便宜且开源可控。Claude Opus 4.5 也行但价格快是 o3 的 3 倍。

视觉理解 / 看图说话

Vision Arena 上 Claude Opus 系列前几名，但走代理。国内能稳定调 Vision 的目前还少，Qwen3 VL 系列是务实选择。

几个常见的坑

别只看 LMArena 排名——Arena 测的是「人类盲选偏好」，不是「干活质量」。有些模型回答冗长礼貌反而拿高分，但你做 Agent 想要的是精准短回应。
别只看输入价格——很多人盯着 $0.27/M 然后给模型写一个超长系统提示，最后输出才是真正烧钱大头。算总账。
别用最新发布的模型上生产——刚发布的版本 API 限速严、稳定性差，等 2-4 周风评稳定再切。
国内/国际不要"统一接口"幻想——OpenAI 协议兼容只是表面，模型能力差异、上下文限制、停止词支持都不一样。提示词得分别调。

下个季度看什么

值得关注的几条线：

DeepSeek V4 系列已经出现在 OpenRouter 用量榜上（V4 Flash 周用量 1.19T），等它正式定价后会冲击中端价位段。
Anthropic Claude 4.7 已经在 LMArena 测试，预计很快正式发布——可能进一步拉大长链路推理的领先。
Gemini 3.1 Pro Preview 价格相对 2.5 Pro 没贵多少但分数明显更高，等正式版上线会重新洗牌长上下文场景。
国内还没有出现明显的"国产 Sora"或"国产 Veo"级别视频生成模型，文本以外的多模态还得看国际。

本文数据来自 OpenRouter、LMArena 公开榜单，首页有完整价格表和实时排行。如发现某条信息已过时，欢迎在 GitHub 提 issue。