Gemini 3.1 Pro 新增了一个 MEDIUM 思考等级(thinking_level 参数)。之前 Gemini 3 Pro 只有 LOW 和 HIGH 两个极端,要么不怎么想,要么想到死。Gemini 3.1 Pro 的 MEDIUM 填了这个空,但到底什么时候用哪档,大多数文章没说清楚。我从 Vertex AI 文档、第三方测试和实际 API 计费逻辑出发,尽量把 Gemini 3.1 Pro 的三档思考等级讲透。
先理解 thinking_level 在技术上做了什么
thinking_level 参数控制的是模型在生成最终回答之前,先进行一段"内部推理"(chain-of-thought)的 token 数量上限。这段推理过程不会出现在最终输出里,但会被计入输出 token 的费用。
形象地说:你问模型一个问题,模型在回答之前会先在脑子里"打草稿"。LOW 模式下草稿很短,HIGH 模式下草稿可以写到几万字。这段草稿你看不到,但你要为它付钱。
技术上这属于"思维链推理"(Chain-of-Thought Reasoning)的受控版本。之前的 Gemini 2.5 Pro 也有思维链,但只有"开"和"关"两个选项。Gemini 3 Pro 引入了 LOW 和 HIGH 两档,3.1 Pro 再加了 MEDIUM,变成三档可调。
三档的具体参数
LOW:最低推理强度
推理 token 大约 200 到 500 个。模型基本上看到问题就开始答,推理链极短。
适合的任务类型:文本分类、语言翻译、简单问答、格式转换。这类任务不需要多步推理,模型凭"直觉"就能给出好答案。
实际延迟:最快。如果你的应用对响应速度有严格要求(比如实时聊天机器人),LOW 模式的 TTFT(Time To First Token)通常比 HIGH 模式低一个数量级。
MEDIUM:日常工作默认档
推理 token 大约 2000 到 8000 个。模型会做一段有组织的推理,但不会没完没了。
Vertex AI 文档的原话是"在成本、性能和速度之间取得平衡"。这是 3.1 Pro 新加的档位,也是 Google 建议的大多数场景默认选择。
适合的任务类型:代码审查(不是竞赛级别的那种,是日常工作中的代码 review)、文档摘要合成、有一定复杂度的问题回答、数据分析报告生成。
我自己的体感是:MEDIUM 模式下模型会"想一想再答",回答质量比 LOW 好不少,但不会像 HIGH 那样慢得让人等不及。
HIGH:全力推理模式
推理 token 上限 32768 个。会触发 Deep Think Mini,模型在回答前进行深度推理。Model Card 里那些漂亮的基准分数(ARC-AGI-2 的 77.1%、LiveCodeBench Pro 的 2887 Elo)全是 HIGH 模式下跑出来的。
适合的任务类型:数学证明、竞赛编程、复杂的逻辑推理、需要多步规划的科学研究问题。
代价:延迟高(内部推理可能需要几十秒),成本高(3 万多 token 的推理链都要按输出 token 付钱)。
API 配置方法
Python SDK 的写法:
python
import google.generativeai as genai
model = genai.GenerativeModel("gemini-3.1-pro-preview")
# MEDIUM 模式
response = model.generate_content(
"分析这段代码的潜在问题并给出改进建议",
generation_config={
"thinking_config": {
"thinking_level": "MEDIUM"
}
}
)
REST API 的写法:
json
{
"contents": [{"parts": [{"text": "你的 prompt"}]}],
"generationConfig": {
"thinkingConfig": {
"thinkingLevel": "MEDIUM"
}
}
}
thinking_level 接受三个字符串值:"LOW"、"MEDIUM"、"HIGH"。大小写敏感,用大写。
三档的成本差异到底有多大
这是最实际的问题。推理 token 按输出 token 价格计费($12/百万 token),所以推理链越长,费用越高。
我算了一个具体场景:一个代码审查 bot,每次请求输入 3000 token,期望输出 800 token,一天跑 2000 次。
| 档位 | 推理 token/次 | 推理费/天 | 输出费/天 | 输入费/天 | 合计/天 | 合计/月 |
|---|---|---|---|---|---|---|
| LOW | ~400 | $9.60 | $19.20 | $12.00 | $40.80 | $1,224 |
| MEDIUM | ~5000 | $120.00 | $19.20 | $12.00 | $151.20 | $4,536 |
| HIGH | ~20000 | $480.00 | $19.20 | $12.00 | $511.20 | $15,336 |
LOW 和 HIGH 之间的月费差了 10 倍以上,从 1,224 到 15,336。MEDIUM 在中间,大约 $4,500/月。
这个表清楚地说明了一件事:推理 token 是费用大头。当推理链很长时(HIGH 模式),推理 token 的费用远超输入和输出。所以"Gemini 3.1 Pro 比 Claude 便宜"这个说法,只在你控制好了思考等级的前提下成立。
实际选择策略
基于上面的分析,我的建议是:
默认用 MEDIUM。 大多数生产场景用 MEDIUM 就够了。代码生成、文档处理、一般性问答,MEDIUM 的质量明显好于 LOW,但成本只有 HIGH 的三分之一左右。
明确不需要推理的任务用 LOW。 翻译、格式转换、分类打标签,这些任务的质量不太受推理深度影响。用 LOW 可以把成本砍到最低,延迟也最小。
只在真正需要时开 HIGH。 数学题、竞赛编程、需要模型"反复验证自己的答案"的任务。如果你不确定是否需要 HIGH,可以先用 MEDIUM 跑一遍看看结果,不够好再切 HIGH。
不要在批量任务上用 HIGH。 如果你有 10 万条文档要处理,每条开 HIGH 的话推理 token 会让账单失控。批量任务优先 LOW 或 MEDIUM。
默认行为是什么
Vertex AI 文档写了"默认开启动态思考"(dynamic thinking by default),意思是如果你不传 thinking_level 参数,模型会自己决定用多少推理 token。
有开发者做了测试,发现在不传参数的情况下模型的推理 token 数量接近 MEDIUM 的范围。但 Google 没有官方确认默认等同于 MEDIUM。
生产环境里建议显式传参,原因有两个:一是"动态"意味着不可预测,你没法精确预估成本;二是如果 Google 后续调整了默认行为(比如默认改成 HIGH),你的账单会突然变化。显式传参把控制权留在自己手里。
一个有趣的发现:HIGH 不总是更好
这点反直觉但有据可查。Model Card 的安全评估部分提到:在网络安全任务上,Deep Think 模式(HIGH)的表现反而不如普通模式。也就是说,想得更多不一定想得更好。
在日常开发中我也有类似的感受:有些简单的代码生成任务,用 HIGH 模式会"过度思考",把一个简单的实现搞复杂了。模型在推理链里考虑了太多边缘情况,最终给出的代码反而不如 LOW 模式直接生成的简洁。
这不是 Gemini 3.1 Pro 独有的问题。所有带推理模式的模型(Claude 的 Thinking、GPT 的 xhigh)都有类似的现象:推理深度和任务复杂度需要匹配,不是"推理越深越好"。