2026-05-12 · API 成本

API 调用怎么算账：百万 token 到底等于多少钱

"$0.27/M 输入"看着便宜得不像话，结果实际跑下来账单翻 3 倍——这一篇拆清楚为什么。

先搞懂 token 是什么

token 不是字符也不是单词，是模型把文本切成的最小处理单位。粗略对照：

关键事实：中文比英文贵。同样表达一段意思，中文消耗的 token 比英文多约 30-50%。这不是厂商收费规则的问题，是 tokenizer 的底层差异——大多数模型的分词器是基于英文优化的。

所有模型都分开计价：你发给它的（输入 / prompt）和它生成给你的（输出 / completion）。输出几乎都比输入贵 3-5 倍，原因是生成需要更多算力。

看几个典型组合：

模型	输入	输出	输出 / 输入
DeepSeek V3.2	$0.252	$0.378	1.5×
Claude Sonnet 4.5	$3.00	$15.00	5.0×
GPT-5 Mini	$0.25	$2.00	8.0×
Gemini 2.5 Flash	$0.30	$2.50	8.3×

DeepSeek V3.2 的输出/输入只有 1.5 倍——这是个少见的"反常"。所以做分类、抽取这种"输入长输出短"的任务，DeepSeek 价格优势会被放大；但如果你让它写小说（输出几千 token），优势就缩小了。

典型场景：用户问 50 字、加上系统提示 800 字、模型回答 200 字。一次调用约 = 输入 1200 token + 输出 280 token。

差距 19×。日常客服没必要上 Claude。

假设每份 PDF 约 50000 token，模型输出 2000 token 总结。一次调用 = 输入 50000 + 输出 2000。

这种场景 DeepSeek 还是最便宜，但 Gemini 1M 上下文有"装得下"的优势。

Agent 场景特殊：每一轮都把之前的对话历史一起塞进去，输入会指数级膨胀。假设 10 轮交互后单次输入到 20000 token、输出 500 token。

所以 Cursor、Claude Code 这种 Agent 工具如果不接 prompt caching，月账单飙到 $200+ 是常态。

Anthropic、OpenAI、Google 都支持"提示缓存"——同一段输入（比如系统提示、文档上下文）在 5 分钟内重复使用，缓存命中部分按 0.1-0.25 折收费。

具体折扣：

如果你的 Agent 系统提示有 5000 token，每次都要塞进去——开了缓存后，每次实际只按 500 token 算输入。没开缓存的 Agent 应用，账单大概率虚高 60-80%。

thinking token 也算钱。o3、Claude Opus 4.x-thinking、DeepSeek R1 这些"推理模型"会先思考再回答，思考过程的 token 按输出价计费，但你看不到。问一个数学题，可能"消耗 3000 token 输出"里 2500 是思考、500 才是真答案。
system prompt 每次都算输入。无状态 API（除了缓存）每次调用都把系统提示重新发一遍。如果你的 system prompt 写了 3000 字（约 4000 token），调一次就是 $0.01+ 的固定成本。
JSON Schema、Tool 定义也是 token。给模型挂 5 个工具，每次调用会自动把这些定义的描述塞进输入。工具描述写得简短能省一半钱。
流式输出不便宜。stream 模式不会改变 token 计费，只改变交互体验，别被"流式更经济"的谣言骗了。
OpenRouter 多收 5%。聚合平台方便切模型但有手续费，自营 API 占用量大的话建议直连。

本文价格数据来自 OpenRouter API 抓取，首页有完整对比表。模型厂商定价变化频繁（特别是国内厂商常有阶梯优惠和限时活动），下单前请回到厂商官网二次确认。