| 模式 | 行为 |
|---|
|------|--------|
| 普通模式 | 直接生成答案 |
|------------|-------------|
| Thinking模式 | 先"思考更久",再回答 |
|-------------------|------------------------|
| Extended thinking | 可以"花更多计算资源做推理",甚至分多步推理 |
传统LLM(比如早期GPT):
输入 → 立即生成输出(一步到位)
Thinking / extended thinking:
输入 → 内部多步推理(可能几十步) → 再输出答案
1️⃣ 多步推理展开(Chain-of-Thought增强)
模型会:
- 拆解问题
- 推导中间步骤
- 检查逻辑一致性
2️⃣ 自我验证(Self-check / reflection)
- 先生成答案A
- 再检查A有没有错误
- 必要时修正
3️⃣ 多路径推理(Tree-of-Thought)
不是一条路思考,而是:
- 路径1
- 路径2
- 路径3
然后选最优解
4️⃣ 更多计算预算(test-time compute)
核心点是:
不只是"模型变大",而是"每次回答允许算更多"
它解决了什么问题?
✔ 提升复杂问题能力
比如:
- 数学推理
- 代码debug
- 逻辑题
- 多约束规划问题
"thinking / extended thinking模式本质是让模型在生成答案前,使用更多计算资源进行多步推理与自我验证,从而提升复杂任务的准确性。它类似于test-time scaling,让模型从一次性生成转变为分阶段推理与校验,因此在数学、代码和复杂规划任务上表现更好,但代价是延迟和计算成本增加。"
主流"thinking / extended thinking"更接近"单次调用 + 增加推理计算",而不是简单的多次调用模型API。
三种实现方式
① 单次调用 + 长推理(主流方式 ⭐⭐⭐)
这是 OpenAI / Google / Anthropic 新一代模型的主流方向。
流程:
输入
↓
同一次模型调用
↓
内部进行多步推理(hidden reasoning)
↓
输出答案
特点:
- ❌ 不会暴露多次API调用
- ✔ 只是"算得更久"
- ✔ 可以内部做很多中间步骤
- ✔ 类似"加长思考链"
👉 本质:
一个模型调用,但token计算更多 + 内部推理更深
② 多阶段单会话(semi-iterative)
有些系统会这样做:
Step 1: 生成初步思考
Step 2: 自我评估
Step 3: 修正
Step 4: 输出最终答案
但注意:
- 仍然可能是同一个模型多轮调用
- 或者"同一模型不同prompt阶段"
特点:
- ✔ 更稳定
- ❌ 更慢
- ❌ 成本更高
③ 多模型/多Agent调用(Agent系统)
在 Agent 框架里会出现:
- Planner模型
- Solver模型
- Critic模型
流程:
Planner LLM → 拆解任务
Solver LLM → 执行
Critic LLM → 评估
Final LLM → 汇总
特点:
- ✔ 最强效果
- ❌ 最贵
- ❌ latency高
👉 但注意:
这不是"thinking模式本身",而是 Agent 系统设计。
thinking模式的本质不是"多次调用"
而是:
test-time compute scaling(测试时计算扩展)
也就是:
- 训练时:模型固定
- 推理时:给它更多"思考预算"
普通模式:
一步生成答案(instant inference)
thinking模式:
同一个模型,但允许它:
- 多做内部采样
- 多步推理
- 多路径搜索
- 自我修正
"deep thinking"能力主要不是靠预训练阶段专门喂'思考数据'训练出来的,而是通过后训练(SFT + RLHF/RL + reasoning data)逐步塑造的;预训练只提供基础语言与知识能力。"
LLM训练分三层:
1️⃣ Pretraining(预训练)
- 学语言
- 学知识
- 学模式(pattern)
👉 不负责"教它怎么深度思考"
2️⃣ SFT(监督微调)
- 教"怎么按人类期望回答"
- 会引入:
- CoT(chain-of-thought)数据
- step-by-step解题数据
👉 开始"教它展示推理过程"
3️⃣ RLHF / RLAIF / Reasoning RL(强化学习)
- 优化"答案质量"
- 重点优化:
- 正确性
- 多步推理能力
- 自我纠错能力
👉 真正强化"deep thinking行为"
关键点:deep thinking数据到底在哪一阶段?
❌ 预训练阶段:基本不"专门教思考"
预训练数据是:
- Wikipedia
- code
- books
- web text
特点:
- 没有明确"推理标签"
- 只是大量文本预测
👉 它学的是:
"语言世界的统计规律"
不是:
"如何一步步思考问题"
✔ SFT阶段:第一次引入"显式思考数据"
这里开始出现:
常见数据类型:
- math step-by-step solutions
- code explanations
- reasoning QA(如GSM8K)
- chain-of-thought traces
例子:
Q: 2+3×4=?
A: 先算乘法3×4=12,再加2,所以答案14
👉 作用:
- 教模型"可以写推理步骤"
- 建立"思维表达方式"
但注意:
这时候只是"学会写出来",不一定真的会"内部推理"。
✔ RLHF / RL阶段:真正强化"deep thinking能力"
这是关键。
训练目标变成:
- 哪个答案更正确?
- 哪个推理更合理?
- 哪个步骤更一致?
方法包括:
1️⃣ reward model优化
让"正确推理路径"得分更高
2️⃣ process supervision(过程监督)
不仅看结果,还看每一步推理
3️⃣ self-consistency训练
鼓励多路径推理取一致答案
👉 这一阶段的作用是:
不只是"会写思考过程",而是"更倾向于走正确的思考路径"
deep thinking能力并不是主要在预训练阶段通过专门数据学习出来的,而是在后训练阶段逐步形成的。
预训练阶段主要学习语言与知识分布;SFT阶段通过加入带有step-by-step推理的数据,让模型学会显式表达推理过程;而真正提升推理质量的是RLHF或基于过程奖励的强化学习,它优化的是推理路径的正确性。
同时,现代的thinking/extended thinking能力还依赖test-time compute scaling,即在推理阶段允许模型使用更多计算资源进行多步推理和自我验证。
test-time scaling 主要是在推理阶段实现的 ,核心方式包括多次采样、多路径搜索、自我评估与重排序等,而不是单纯依赖训练阶段。
但在更先进的系统里,训练阶段(SFT / RL / process supervision)会提供"让test-time scaling更有效的能力基础"。
test-time scaling不是一个技术,而是一组方法:
① 多次采样(Sampling scaling)
最基础形式:
同一个问题 → 生成多个答案(n samples)
→ 选最优答案
比如:
- temperature sampling
- best-of-n
- majority vote
👉 本质:
"多试几次,而不是只答一次"
② 自一致性(Self-consistency)
经典 reasoning trick:
同一个问题
→ 生成多个推理路径(CoT)
→ 结果投票
👉 适合:
- 数学题
- 逻辑推理
③ 多路径搜索(Tree / Graph of Thoughts)
更高级版本:
问题
↓
拆成多个思考分支
↓
每个分支继续展开
↓
评分 + 剪枝
↓
选最优路径
👉 本质类似:
"在推理空间做搜索(search over reasoning space)"
④ Self-reflection / Critic loop(自我纠错循环)
流程:
Step 1: 初始答案
Step 2: 自己检查错误
Step 3: 修改答案
Step 4: 再检查
或者:
- generator model
- critic model
- revision model
👉 这是"thinking模式"的核心之一
⑤ Reranking(重排序)
流程:
生成多个候选答案
→ 用 reward model / verifier 打分
→ 选最高分
⑥ Tool-augmented reasoning(工具增强)
比如:
- 代码执行
- 搜索
- calculator
- database lookup
👉 每一步都可能调用工具再继续推理
✔ 1. test-time scaling = 推理阶段主导
它的定义就是:
不改变模型参数,只在推理时增加计算
所以核心在:
- decoding strategy
- search strategy
- sampling strategy
✔ 2. 但训练阶段"必须配合"
否则 scaling 没用。
训练阶段会做三件关键事:
(1)SFT:教模型"会写推理"
- chain-of-thought数据
- step-by-step reasoning
👉 作用:
让模型"知道怎么展开思考"
(2)RL / process reward:让"好推理"更容易出现
- reward正确推理路径
- penalize错误推理步骤
👉 作用:
让模型"倾向走正确思考路径"
(3)verifier training(很关键)
训练一个"打分器":
- 判断答案是否正确
- 判断推理是否合理
👉 作用:
test-time scaling才有"选优机制"
❗ test-time scaling ≠ prompt engineering
很多人会误解:
"是不是就是prompt写:请多思考?"
❌ 错
真正区别是:
| 方法 | 本质 |
|---|---|
| prompt让它思考 | 行为引导 |
| test-time scaling | 算力扩展 + 搜索 + 多路径推理 |
现在主流系统是:
👉 Training + Test-time scaling 联合
可以这样理解:
训练阶段:
- 学会推理结构
- 学会合理路径
推理阶段:
- 多采样
- 多路径搜索
- 自我评估
- rerank
test-time scaling主要发生在推理阶段,通过多次采样、多路径搜索、自我评估和重排序等方法,在不改变模型参数的情况下增加计算预算来提升推理质量;但训练阶段(SFT + RL + process supervision)提供了让这些推理策略有效发挥作用的基础能力。