中文用户怎么选 LLM:2026 上半年盘点
国内 DeepSeek V3.2、Qwen3 Max、Kimi K2、GLM 4.6 都到了一个真能用的状态,国际线 Claude 4.5、GPT-5、Gemini 2.5 也都换了代。 这篇不做"综合排行",按你具体要干什么来拆。
先给三句话
- 预算最低、跑量、不要思考——DeepSeek V3.2,输入 $0.25 / 输出 $0.38,国内直连。
- 想要 Claude Code 那种水平的代码 / Agent——Claude Sonnet 4.5,输入 $3.00 / 输出 $15.00,得走代理。
- 国内合规、要中文调性——Qwen3 Max 或 GLM 4.6,前者偏正式后者更便宜。
国内模型这一年发生了什么
直接说结论:现在国内主流 5 家(DeepSeek、阿里通义、月之暗面 Kimi、字节豆包、智谱 GLM)的旗舰款, 在中文日常对话、代码、长文档场景下,已经能稳定接近 GPT-4 时代的国际水平。差距还在但没有以前那么大。
分家说:
DeepSeek V3.2
目前国内性价比之王。输入 $0.25 / 输出 $0.38,输出价比输入还贵不到一倍——这种结构非常适合"提示长、回答短"的场景,比如分类、摘要、SQL 生成。 R1 系列继续维护,但 V3.2 在常规对话上更新更快、更稳。 缺点也直说:和 Claude 这种比起来,复杂指令理解还是会偶尔"自作主张"。
Qwen3 Max / Qwen3 Coder Plus
阿里通义旗舰。Qwen3 Max(输入 $0.78 / 输出 $3.90)综合质量稳; Qwen3 Coder Plus(输入 $0.65 / 输出 $3.25)专门优化代码,给到 1M 上下文,整个项目扔进去都行。 缺点:阿里云百炼的控制台体验和定价细则还是偏复杂,新手算成本容易踩坑。
Kimi K2
Moonshot 现在用的是 K2 系列,输入 $0.57 / 输出 $2.30。 老牌长文本选手,把整本 PDF / 一堆合同甩进去定位条款是它的看家本事。 网页端体验也好,能直接读 PPT / Excel / Word。
GLM 4.6 / 4.5
智谱 Z.ai 的旗舰。输入 $0.39 / 输出 $1.90。 做信息抽取、摘要这类活很合适,便宜还快。WebDev Arena 上 GLM 5.1(更新一档)已经能挤进前 10,能力线在迅速追上。
还有谁值得提一句
字节 Doubao 在国内 OpenRouter 看不到详细分布,但火山引擎平台上是个稳定备选,价格也很压。 百度 ERNIE 4.5 系列在 OpenRouter 也有上线,价格在中下,但平台体验和文档更新偏慢,不太推荐新项目用。 腾讯 Hy3 Preview 这波因为 Free Tier 冲到 OpenRouter 用量榜第一,等它退出免费阶段再看真实定价。
国际线还值不值得用
值得。但前提是你能解决访问问题,并且你的应用对质量真的敏感。
Claude Sonnet 4.5(输入 $3.00 / 输出 $15.00) 是目前公认在长链路代码任务上最稳的模型——Claude Code、Cursor 这些专业开发工具的默认推荐都是它。 代价是没有官方国内通道。
GPT-5 / GPT-5 mini(输入 $0.25 / 输出 $2.00)现在的 mini 版本极有性价比,输出 $2/M 拿到 400K 上下文,能处理大部分日常工作流。 推理任务首选 o3(输入 $2.00 / 输出 $8.00),便宜版 o4-mini 也能打。
Gemini 2.5 Pro / Flash(输入 $0.30 / 输出 $2.50)的杀手锏永远是 1M 上下文 + 低价。 做超长文档分析、RAG 检索时,没有竞品。 但国内访问稳定性时好时坏,做生产项目最好准备 fallback。
Grok 4 Fast(输入 $0.20 / 输出 $0.50)是匹黑马:$0.50/M 输出 + 2M 上下文 + 联网搜索,价格已经接近国内厂商但还是国际水平。 可惜 Vision、Document 这些细分榜上还看不到它名次,能力面不全。
几个常见场景直接给答案
写小红书 / 公众号种草
豆包 / Qwen3 Max。这两家训练语料明显吃了中文社媒。Claude 写公文很正经,但写"姐妹们绝绝子"会出戏。
写代码 / 重构 / 写 SQL
预算够:Claude Sonnet 4.5。预算紧:Qwen3 Coder Plus(国内)或 GPT-5 mini(国际)。 别用便宜版小模型搞 Agent,省下的钱往往全花在调试上。
做 RAG / 文档问答
看你文档总量。1MB 以内随便挑;超过 100MB 选 Gemini 2.5 Flash 或 Kimi K2,1M-256K 上下文吃下整章问比检索拼回更准。
分类 / 标注 / 数据清洗
DeepSeek V3.2,没别的。$0.25/M 输入跑 100 万条文本也就几十块。
数学 / 复杂推理 / 写 paper-style 报告
o3 或 DeepSeek R1。前者贵但准,后者便宜且开源可控。Claude Opus 4.5 也行但价格快是 o3 的 3 倍。
视觉理解 / 看图说话
Vision Arena 上 Claude Opus 系列前几名,但走代理。国内能稳定调 Vision 的目前还少,Qwen3 VL 系列是务实选择。
几个常见的坑
- 别只看 LMArena 排名——Arena 测的是「人类盲选偏好」,不是「干活质量」。有些模型回答冗长礼貌反而拿高分,但你做 Agent 想要的是精准短回应。
- 别只看输入价格——很多人盯着 $0.27/M 然后给模型写一个超长系统提示,最后输出才是真正烧钱大头。算总账。
- 别用最新发布的模型上生产——刚发布的版本 API 限速严、稳定性差,等 2-4 周风评稳定再切。
- 国内/国际不要"统一接口"幻想——OpenAI 协议兼容只是表面,模型能力差异、上下文限制、停止词支持都不一样。提示词得分别调。
下个季度看什么
值得关注的几条线:
- DeepSeek V4 系列已经出现在 OpenRouter 用量榜上(V4 Flash 周用量 1.19T),等它正式定价后会冲击中端价位段。
- Anthropic Claude 4.7 已经在 LMArena 测试,预计很快正式发布——可能进一步拉大长链路推理的领先。
- Gemini 3.1 Pro Preview 价格相对 2.5 Pro 没贵多少但分数明显更高,等正式版上线会重新洗牌长上下文场景。
- 国内还没有出现明显的"国产 Sora"或"国产 Veo"级别视频生成模型,文本以外的多模态还得看国际。
本文数据来自 OpenRouter、LMArena 公开榜单,首页有完整价格表和实时排行。 如发现某条信息已过时,欢迎在 GitHub 提 issue。