2026-05-12 · API 成本

API 调用怎么算账:百万 token 到底等于多少钱

"$0.27/M 输入"看着便宜得不像话,结果实际跑下来账单翻 3 倍——这一篇拆清楚为什么。

先搞懂 token 是什么

token 不是字符也不是单词,是模型把文本切成的最小处理单位。粗略对照:

语言/类型 100 token 约等于
英文文本75 个英文单词
中文文本55-70 个汉字
代码50-80 行(看语言)
JSON / 数据30-50 个键值对

关键事实:中文比英文贵。同样表达一段意思,中文消耗的 token 比英文多约 30-50%。 这不是厂商收费规则的问题,是 tokenizer 的底层差异——大多数模型的分词器是基于英文优化的。

输入 vs 输出:才是真正的差价

所有模型都分开计价:你发给它的(输入 / prompt) 和它生成给你的(输出 / completion)。 输出几乎都比输入贵 3-5 倍,原因是生成需要更多算力。

看几个典型组合:

模型 输入 输出 输出 / 输入
DeepSeek V3.2 $0.252 $0.378 1.5×
Claude Sonnet 4.5 $3.00 $15.00 5.0×
GPT-5 Mini $0.25 $2.00 8.0×
Gemini 2.5 Flash $0.30 $2.50 8.3×

DeepSeek V3.2 的输出/输入只有 1.5 倍——这是个少见的"反常"。 所以做分类、抽取这种"输入长输出短"的任务,DeepSeek 价格优势会被放大; 但如果你让它写小说(输出几千 token),优势就缩小了。

三个真实账单例子

例子 1:每天 1000 次客服问答

典型场景:用户问 50 字、加上系统提示 800 字、模型回答 200 字。 一次调用约 = 输入 1200 token + 输出 280 token。

  • DeepSeek V3.2:$0.0003 + $0.0001 = $0.0004 / 次 → 月 $12(≈¥85)
  • Claude Sonnet 4.5:$0.0036 + $0.0042 = $0.0078 / 次 → 月 $234(≈¥1670)
  • Gemini 2.5 Flash:$0.00036 + $0.0007 = $0.00106 / 次 → 月 $32(≈¥230)

差距 19×。日常客服没必要上 Claude。

例子 2:每天处理 100 份 50 页 PDF

假设每份 PDF 约 50000 token,模型输出 2000 token 总结。 一次调用 = 输入 50000 + 输出 2000。

  • DeepSeek V3.2:$0.0126 + $0.00076 = $0.0134 / 份 → 月 $40(≈¥288)
  • Gemini 2.5 Flash:$0.015 + $0.005 = $0.020 / 份 → 月 $60(≈¥430)
  • Kimi K2:$0.0285 + $0.0046 = $0.033 / 份 → 月 $99(≈¥710)

这种场景 DeepSeek 还是最便宜,但 Gemini 1M 上下文有"装得下"的优势。

例子 3:跑一个 Agent 反复调用

Agent 场景特殊:每一轮都把之前的对话历史一起塞进去,输入会指数级膨胀。 假设 10 轮交互后单次输入到 20000 token、输出 500 token。

  • DeepSeek V3.2 单轮:$0.005 + $0.00019 = $0.00519
  • Claude Sonnet 4.5 单轮:$0.06 + $0.0075 = $0.0675(13×)

所以 Cursor、Claude Code 这种 Agent 工具如果不接 prompt caching,月账单飙到 $200+ 是常态。

省钱的关键:prompt caching

Anthropic、OpenAI、Google 都支持"提示缓存"——同一段输入(比如系统提示、文档上下文)在 5 分钟内重复使用, 缓存命中部分按 0.1-0.25 折收费。

具体折扣:

  • Anthropic:缓存写入 1.25×,缓存读取 0.1×(5 分钟 TTL)
  • OpenAI:自动缓存,读取 0.5×(无需配置)
  • Google:缓存读取 0.25×(需要显式声明 cachedContent)
  • DeepSeek:内置缓存命中 0.1×(默认开启)

如果你的 Agent 系统提示有 5000 token,每次都要塞进去——开了缓存后,每次实际只按 500 token 算输入。 没开缓存的 Agent 应用,账单大概率虚高 60-80%。

几个隐藏成本

  • thinking token 也算钱。o3、Claude Opus 4.x-thinking、DeepSeek R1 这些"推理模型"会先思考再回答, 思考过程的 token 按输出价计费,但你看不到。问一个数学题,可能"消耗 3000 token 输出"里 2500 是思考、500 才是真答案。
  • system prompt 每次都算输入。无状态 API(除了缓存)每次调用都把系统提示重新发一遍。 如果你的 system prompt 写了 3000 字(约 4000 token),调一次就是 $0.01+ 的固定成本。
  • JSON Schema、Tool 定义也是 token。给模型挂 5 个工具,每次调用会自动把这些定义的描述塞进输入。 工具描述写得简短能省一半钱。
  • 流式输出不便宜。stream 模式不会改变 token 计费,只改变交互体验,别被"流式更经济"的谣言骗了。
  • OpenRouter 多收 5%。聚合平台方便切模型但有手续费,自营 API 占用量大的话建议直连。

实操建议

  1. 先估算再上线。用上面的公式按你预计的日请求量 × 平均 token 数算一遍月成本,比上线后看账单震惊好。
  2. 给模型分级。简单任务走 DeepSeek / GPT-5 mini,复杂任务才上 Claude / o3。一个项目混用 2-3 个模型是常态。
  3. 开启 prompt caching。这是最便宜的优化手段,代码改动小,省 50%+ 不是问题。
  4. 监控真实消耗。各家控制台都有用量明细,每天看一眼,发现某个端点突然飙升能止损。
  5. 国内/国际钱包分开。海外卡跑国际模型,国内对公账户接国内厂商,财务、合规、报销都更顺。

本文价格数据来自 OpenRouter API 抓取,首页有完整对比表。 模型厂商定价变化频繁(特别是国内厂商常有阶梯优惠和限时活动),下单前请回到厂商官网二次确认。