Gemini 3.1 Pro Preview

Name: Gemini 3.1 Pro Preview
Brand: Google
Price: 12.00 USD
Rating: 46.00 (1 reviews)

Google

百万上下文加便宜价格，长文档场景的国际线首选

发布日期：2026-02-19 · 覆盖数据源：5 / 6 （AA · Arena · SuperCLUE · Pricing · HHEM）

Google 当前主力 Pro 档。AA Intelligence 46 全球第 8，价格 $2/M 输入 + $12/M 输出，是 Top 10 里最便宜的之一。SuperCLUE 中文榜 75.73 排海外第 1、整体第 1，中文能力意外能打。1M 上下文塞百页 PDF 不眨眼，输出速度 136 token/s 远超 Claude 的 56.6。

关键指标

AA Intelligence

46.0

全球 #12

输出价格

$12.00

/ 百万 token

Artificial Analysis · 独立评测

artificialanalysis.ai · 抓取于 2026-07-11

综合智能（Intelligence Index）	46.00
输出速度	117 token/s
首 token 延迟（TTFT）	25.40s
总响应延迟	29.68s
推理模式	否

AA 是独立第三方评测站，综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等公开基准。同一模型不同 reasoning effort 配置 AA 拆开排，本表只取最高分那档。

LMArena · 人类盲测排名

arena.ai · 抓取于 2026-07-11

分类	最佳变体	排名	Elo
🔍 Search	gemini-3.1-pro-grounding	#7	1213.260217961327
🌐 Web Dev	gemini-3.1-pro-preview	#9	1489.93
🏆 Overall	gemini-3.1-pro-preview	#10	1485.338420499454
👁️ Vision	gemini-3.1-pro-preview	#12	1281.51
📄 Document	gemini-3.1-pro-preview	#18	1440.82
💻 Code	gemini-3.1-pro-preview	#32	1444.57

只展示 Top 10 内出现的分类与变体。同一分类下若有多个变体（thinking / search 等），只显示排名最靠前的。 LMArena 是 Elo 分，人类盲测两两投票算出来—— 「人类觉得好」≠「客观最强」，但反映真实使用体验。

SuperCLUE · 中文能力测评

superclueai.com · 2026-05

收录条目	Gemini-3.1-Pro-Preview
综合总分	75.73 （榜单第 1 位）
代码生成	81.47
数学推理	82.46
智能体（任务规划）	75.12
精确指令遵循	56.19

SuperCLUE 是国内做中文测评最久的独立基准。覆盖数学/科学/幻觉/指令/代码/Agent 六维。官方说明：分差 1 分内并列，部分模型只做参考不参与排名。

API 价格与国内可用性

来源 openrouter.ai · 抓取于 2026-07-11

输入价格	$2.00 / 百万 token
输出价格	$12.00 / 百万 token
上下文窗口	1049K tokens
国内可用性	不稳定
最近核验	2026-07-11

同档对手价格

模型	输入	输出	国内
Gemini 3 Pro Image · Google	$2.00	$12.00	需代理
Gemini 3.1 Pro Image · Google	$2.00	$12.00	需代理
Claude Sonnet 5 · Anthropic	$2.00	$10.00	需代理
Claude Sonnet 4.6 · Anthropic	$3.00	$15.00	需代理

Vectara HHEM · 幻觉率实测

vectara/hallucination-leaderboard · 2026-07-02T04:24:22.584572+08:00

幻觉率（Hallucination Rate）	10.4% （越低越好 · 全榜第 59 / 105）
事实一致率	89.6%
答题率（Answer Rate）	99.4%

Vectara HHEM-2.3 是开源的事实一致性评估器。让模型对 7700+ 篇文档（新闻/科技/科学/医疗/法律/体育/商业/教育）做摘要，温度=0，HHEM 评估摘要是否「捏造原文里没说的内容」。 幻觉率不等于"模型质量"——它只衡量摘要任务的事实一致性，做题强的旗舰模型反而经常更爱"加戏"。但对 RAG、客服、医疗法律这种「不能瞎说」的场景，这是目前最有参考价值的指标之一。