【大模型面试突击】08_推理范式与思维链

2026大模型面试：推理范式与思维链必考28题（含答案）

精选自132道采集题目，保留最高频最核心的28题 | 难度：⭐基础 ⭐⭐进阶 ⭐⭐⭐深入

答案风格：一句话秒答 -> 展开来说 -> 面试加分 | 如同资深大佬在咖啡厅跟你聊技术

一、Chain-of-Thought 基础与提示策略（6题）

1. ⭐ [高频] 什么是思维链（Chain-of-Thought）提示？它与传统的 Prompt 有何本质不同？请从输出内容、推理过程可见性、适用任务难度三个维度对比。

一句话秒答： CoT 就是让模型"把草稿纸摊开给你看"，从只给答案变成展示完整解题过程。

展开来说：

你想想看，传统 Prompt 就像考试时学生只写了个最终答案"42"，你完全不知道他是真会还是蒙的。CoT 呢，要求模型把中间步骤一步步写出来------"先算这个、再推那个、所以结论是..."。

从三个维度来对比：

输出内容：传统方式就吐一个答案出来，CoT 会输出"中间推理步骤 + 最终答案"，内容量大了好几倍
推理可见性：传统方式是纯黑盒，出错了你都不知道哪步错的；CoT 把推理过程摊在阳光下，哪步逻辑不对一目了然，可以追踪、可以调试
任务难度适配：简单任务比如情感分类，加 CoT 反而可能"想多了"导致性能下降；但涉及多步推理、数学、逻辑推断这类复杂任务，CoT 的提升非常显著

本质上，CoT 做的事情就是"分治"------把一个大问题拆成若干小问题，每一步只需要做简单推理，降低了每个环节出错的概率。

面试加分： 可以提一句 Wei et al. (2022) 首次系统性地提出 CoT Prompting，并指出 CoT 其实是在让模型自行分配更多的前向计算量------每多生成一个中间 token，本质上就是给了模型多一次"思考"的机会。这个观点直接启发了后来 o1 的 Test-Time Compute Scaling 路线。

2. ⭐ [高频] 为什么思维链提示可以提高语言模型的复杂推理能力？请列举其主要优势。

一句话秒答： CoT 把"一步到位的难题"变成了"多步走的简单题"，同时赚到了更多计算量和可解释性。

展开来说：

这个问题你可以从四个角度来理解：

降低单步难度：想象你要从A跳到Z，直接跳过去很难，但如果中间放上B、C、D...一步一步走，每步都很简单。CoT 就是把多跳推理拆成单跳推理，每一步出错的概率都大幅降低
获得更多计算量：这个很关键------模型生成每一个中间 token 都要做一次前向传播。CoT 让模型多输出了几十上百个 token，相当于白送了额外的"思考时间"。你可以理解为传统方式是限时1分钟答题，CoT 给了你10分钟
可解释性增强：推理过程写在那了，你能看到模型到底怎么想的。错了可以定位是哪步出的问题，这在生产环境debug时极其有用
少样本泛化能力：你只要给几个示例展示"怎么分步骤思考"，模型就能把这个能力迁移到新问题上，不需要重新训练

面试加分： 如果面试官追问"本质原因"，可以聊一下信息论的角度------CoT 等价于增加了模型的有效计算深度，让原本只有固定层数 Transformer 的模型在推理时获得了"可变深度"的计算能力，这其实打破了固定架构的表达瓶颈。

3. ⭐⭐ [高频] 思维链提示为什么在小模型上效果不好？存在什么阈值效应？模型规模与 CoT 能力之间有什么关系？

一句话秒答： CoT 在约 100B 参数以上才稳定起效，小模型生成的推理链经常"一本正经地胡说八道"，反而比直接回答更差。

展开来说：

这个问题的核心是一个很有趣的"涌现"现象。你可以这样理解：

CoT 的每一步都需要模型具备一定的世界知识和逻辑推理能力。大模型因为见过足够多的数据，能保证每一步都大致靠谱；但小模型知识储备不够，每一步都有出错的概率。问题是------这些错误是会累积的。假设每步 90% 正确率，5步下来就只有 59% 了。小模型每步可能只有 70%，5步下来就惨不忍睹。

Wei et al. (2022) 的实验清楚地展示了这个阈值效应：

小于 10B：CoT 几乎没有正面效果，甚至负作用，因为模型会编造看似合理实则荒谬的推理步骤
10B - 100B：效果不稳定，高度依赖示例的质量和设计
大于 100B：CoT 稳定起效，模型越大效果越好

实际建议：小模型优先用标准 Prompt 或者直接微调；中等模型需要精心设计示例；大模型放心使用 CoT。

面试加分： 记得补一句------但是！推理蒸馏改变了这个局面。DeepSeek-R1 的蒸馏实验表明，7B 级别的小模型通过学习大模型的推理链数据，也能获得不错的 CoT 能力。所以这个 100B 的阈值并不是绝对的，而是"从零开始涌现"的阈值。站在大模型肩膀上，小模型也能推理。

4. ⭐⭐⭐ [阿里] 为什么说 CoT 不能完全反映模型内部计算过程？CoT 的忠实性（faithfulness）问题是什么？

一句话秒答： 模型可能是先有了答案再编一个"看起来合理"的解题过程，CoT 更像是事后合理化而不是真实推理轨迹。

展开来说：

这是一个特别深刻的问题，也是 CoT 研究中的一个"灵魂拷问"。

想象一个学生考试时，其实是靠直觉蒙到了答案，然后再倒推出一个像模像样的解题过程写在卷子上。模型可能也在干类似的事------这就是所谓的"事后合理化"（post-hoc rationalization）。

有几个关键的研究证据：

修改中间步骤实验：研究者故意修改 CoT 中某些中间步骤的内容，发现有时候最终答案根本不受影响。如果模型真的在"依赖"这些步骤推理，改了应该会影响结果才对
Turpin et al. (2023) 的偏见实验：他们在少样本示例中植入了一些隐含偏见（比如答案总是选A），模型确实受到了这些偏见的影响，但在 CoT 中完全不提这些偏见------它会编一个"合理"的理由来支持被偏见影响的选择
Shortcut 问题：模型可能通过模式匹配或统计捷径直接得到答案，然后生成一段装饰性的推理过程

这意味着什么？你不能把 CoT 当作可靠的推理审计工具。它确实能提升性能，但"为什么能提升"和"它展示的推理过程是否真实"是两回事。

面试加分： 可以引申到安全对齐------如果我们不能信任模型展示的推理过程，那怎么确保它的思考是安全的？这也是 o1 把内部思维链对用户隐藏的原因之一。实际工程中，应该配合 PRM（过程奖励模型）等外部验证机制来交叉检验推理质量，而不是盲目信任 CoT 输出。

5. ⭐⭐ [高频] 什么是 Zero-shot CoT？为什么简单加一句"Let's think step by step"就能提升推理效果？它与 Few-shot CoT 的效果差异和适用场景分别是什么？

一句话秒答： Zero-shot CoT 就是靠一句"Let's think step by step"激活模型潜在的分步推理能力，不用给任何示例。

展开来说：

这个事情初看很神奇------凭什么加一句话就能变聪明？其实道理很简单：

模型在预训练时见过海量的"分步解题"文本------教科书、Stack Overflow、论坛上的数学解答等等。"Let's think step by step"这句话就像一把钥匙，激活了模型记忆中"逐步解题"的模式。你可以理解为模型本来就会这个技能，只是需要一个正确的触发词来把它调出来。

Kojima et al. (2022) 首次发现并系统验证了这个现象，属于 CoT 研究中最优雅的发现之一。

和 Few-shot CoT 对比的话：

维度	Zero-shot CoT	Few-shot CoT
效果	一般略低 5-15 个百分点	通常更好
使用成本	几乎零成本	需要精心设计示例
适用场景	快速原型、通用场景、即席查询	特定领域、高精度要求
上下文占用	极小	示例会占用大量上下文窗口

面试加分： 可以提一下后续研究发现"Let's think step by step"并不是唯一有效的触发语，其他类似的指令如"Let's work this out in a step by step way to be sure we have the right answer"效果可能更好。这说明 Zero-shot CoT 的效果与触发语的具体措辞相关，有一定的 prompt engineering 空间。实际工程中两种方法经常混用。

6. ⭐⭐ [高频] 在 Few-shot CoT 中，示例（exemplar）的选择对效果有多大影响？如何选择好的示例？示例的多样性和代表性如何平衡？

一句话秒答： 示例的质量和多样性比数量重要得多，一个高质量多样的示例集能顶十个随便选的。

展开来说：

这个问题在实际工程中特别关键，因为示例选不好，CoT 的效果可能大打折扣。

几个核心原则：

质量 > 数量：推理步骤逻辑清晰、每步都正确的示例效果最好。一条推理链如果中间有逻辑跳跃或错误，会直接带偏模型。宁可少放两个示例也不要放质量差的
多样性覆盖：示例应该覆盖不同的推理模式------有算术推理的、有逻辑推导的、有常识推理的，还要涵盖不同难度级别。如果你全放简单题的示例，模型遇到难题就懵了
选择策略：业界有两条路------一条是手工精心设计涵盖典型推理模式的"代表集"；另一条是自动化方法，比如 Auto-CoT，根据语义相似度动态检索与当前问题最相关的示例
数量建议：通常 4-8 个示例效果较好。太少覆盖不够，太多则占用上下文窗口且收益递减。长上下文模型出来之后这个限制有所放松，但边际递减规律不变

面试加分： 一个反直觉的发现------有研究表明即使 CoT 示例中的推理步骤是错误的，只要格式结构正确（有分步推理的样子），也能带来一定的提升。这说明 Few-shot CoT 的部分收益来自于"格式引导"而非"逻辑教学"。但当然了，正确的推理步骤效果肯定更好，这个发现只是帮助我们理解 CoT 的工作机制。

二、自一致性与高级推理结构（6题）

7. ⭐⭐ [高频] 什么是自一致性（Self-Consistency）解码策略？它与标准的贪心解码有什么区别？为什么多次采样然后投票能提升准确率？

一句话秒答： Self-Consistency 就是"让模型做同一道题N遍，然后少数服从多数"，用统计学打败随机性。

展开来说：

你回忆一下中学考试的经验------一道难题你不确定对不对，最好的策略是什么？用不同方法算几遍，如果几种方法都得到同一个答案，那大概率就是对的。Self-Consistency 做的就是这件事。

具体操作非常直观：

把 temperature 调高（比如 0.7），让模型有随机性
对同一个问题采样多条推理路径（比如采样 10 次）
每条路径可能推理过程不同，但各自得到一个最终答案
对所有最终答案做 majority voting（多数投票），票数最多的就是输出

为什么这玩意有效？背后有一个很朴素的统计学直觉：正确答案往往有多条路可以到达，错误答案通常各错各的。 10次采样中，可能有6次通过不同的推理路径都得到了"42"，而错误答案分散在"35"、"38"、"47"各拿了一两票。一投票，正确答案自然胜出。

和贪心解码的核心区别：贪心解码只走一条路，撞了南墙没得回头；SC 是多条路一起走，哪条路人多就选哪条。

Wang et al. (2022) 提出这个方法，在 GSM8K 上直接提了 10-20 个百分点，效果极其显著。

面试加分： 提两个工程细节------第一，SC 的采样次数和准确率是对数关系，前5次提升巨大，后面边际递减；第二，SC 只适用于有确定性答案的任务（数学、选择题），对于开放式生成任务不太适用。另外可以提一下 Universal Self-Consistency (USC) 的工作，它通过 LLM 自身来做一致性判断，把 SC 扩展到了自由文本生成场景。

8. ⭐⭐ [高频] Self-Consistency 的采样次数如何选择？采样次数与性能之间的关系是什么？如何在准确率和效率之间权衡？

一句话秒答： 采样次数和准确率是对数增长关系------前几次提升猛，后面越来越平，生产环境5-10次性价比最高。

展开来说：

这个问题本质上是一个投入产出比的问题，我给你画个直觉上的曲线：

1 -> 5 次：提升最猛，基本能拿到总提升的 70-80%
5 -> 10 次：还有不错的提升，累计能到 90% 左右
10 -> 20 次：提升明显放缓，但在某些困难问题上还有价值
20 -> 40 次：边际收益已经很小了，但成本翻了一倍
40 次以上：基本进入"花钱买心安"的阶段

实际建议很明确：

生产环境：5-10 次，性价比最高。大部分问题这个次数已经够了
研究/竞赛：40-100 次，追求极限性能，不太在乎成本
实时场景：3-5 次或者干脆不用，延迟是硬约束

还有个聪明的优化策略叫自适应采样：先采样 3 次，如果答案完全一致就停下来（说明模型很确定）；如果答案分散就追加采样到 10 次甚至更多。这样简单题快速通过，难题多花时间。

面试加分： 可以从理论角度解释对数增长------假设模型单次正确率为 p（p > 0.5），N 次独立采样后多数投票正确率趋近于1的速度由大数定律决定，收敛速度大约是 O(exp(-N))，取对数后就是线性增长，即采样次数的对数与错误率线性相关。

9. ⭐⭐ [高频] 请解释 Best-of-N 采样策略与 Self-Consistency 的区别和联系。如何利用验证器（Verifier）来替代或增强自一致性投票？

一句话秒答： SC 靠"民主投票"选答案，Best-of-N 靠"专家评审"打分选答案------后者引入了一个判断质量的裁判。

展开来说：

两者表面上很像，都是"采样N次选一个最好的"，但选择机制完全不同：

Self-Consistency：

采样 N 条推理路径
提取每条的最终答案
多数投票，谁票多选谁
不需要额外模型，简单粗暴
缺点：两条路径都得到正确答案，但推理质量天差地别，SC 分不出来

Best-of-N：

同样采样 N 条推理路径
用一个 Verifier（验证器）给每条路径打分
选分数最高的那条
需要额外的打分模型（ORM 或 PRM）
优点：能区分推理质量，不只看答案对不对

两者其实可以组合使用------先用 SC 的投票逻辑确定候选答案（比如有7条路径得到"42"），然后用 Verifier 在这7条路径中挑推理质量最高的那条。这就兼顾了"答案可靠性"和"推理质量"。

面试加分： 重点强调 PRM（过程奖励模型）相比 ORM 在 Best-of-N 场景中的优势------PRM 可以精确到每一步打分，不仅能选出最好的路径，还能告诉你"这条路径第3步开始出问题了"。Lightman et al. (2023) 的实验表明 PRM 指导的 Best-of-N 在 MATH 数据集上显著优于 ORM 指导和纯 SC 投票。

10. ⭐⭐ [高频] 什么是 Tree-of-Thought（ToT）？它与 Chain-of-Thought 有何本质区别？搜索策略（BFS/DFS）各适用于什么场景？

一句话秒答： CoT 是走一条直路，ToT 是在十字路口分兵探索多条路，走不通还能掉头回来换一条。

展开来说：

CoT 最大的问题是什么？一条道走到黑。中间某步走错了，后面全跟着错，没有纠错机制。ToT 就是来解决这个问题的。

Yao et al. (2023) 把推理过程建模成一棵搜索树：

根节点：原始问题
每个中间节点：一个推理步骤的状态
分支：每一步生成多个候选推理（而不是只走一条）
评估：用 LLM 自己对每个候选打分（"这步走得靠不靠谱？"）
回溯：走不通就回到上一个分叉口换一条路

四大核心组件：思维分解（怎么拆步骤）-> 思维生成（每步生成多个候选）-> 思维评估（打分或投票）-> 搜索算法（BFS/DFS）。

搜索策略的选择：

BFS（广度优先）：一层一层往下推进，每层保留最好的 K 个节点。适合解空间小、需要全局最优的场景，比如 24 点游戏------每一步选择不多，但需要保证最终能凑出来
DFS（深度优先）：一条路尽可能深入，不行再回溯。适合解空间大、可以靠剪枝加速的场景，比如创意写作、长期规划------需要深入探索才能发现好方案

面试加分： ToT 的代价是 LLM 调用次数爆炸式增长。一个 3 层、每层 5 个分支的树，光评估就要调用 LLM 几十次。所以在生产环境中，ToT 更适合离线的高价值任务（数学竞赛、代码生成），不太适合实时响应场景。实践中常用的折中方案是 CoT + Self-Consistency，兼顾效果和效率。

11. ⭐⭐⭐ [高频] 请比较 CoT、ToT、GoT 三种推理范式的适用场景和优缺点。在实际应用中如何选择？

一句话秒答： 链式、树状、图状------从简单到复杂三级递进，工程上90%的场景用 CoT + SC 就够了。

展开来说：

这三种范式可以看作推理结构的演化史：

CoT（链式推理）：

结构：A -> B -> C -> D -> 答案，一条直线
优点：简单高效，延迟低，实现容易
缺点：不能回溯，一步错步步错
适用：线性推理任务------数学计算、逻辑推导、简单问答

ToT（树状推理）：

结构：树状分支，可以在每个节点探索多条路径，支持回溯
优点：搜索能力强，能处理需要探索的问题
缺点：LLM 调用次数多，计算成本高
适用：需要规划和搜索的任务------博弈对抗、代码调试、约束满足问题

GoT（图状推理）：

结构：图，节点之间可以有合并、循环等任意连接
优点：最灵活，允许多条推理线索融合，支持迭代精炼
缺点：实现复杂，控制流难以管理
适用：需要整合多源信息的复杂任务------多角度分析、排序优化、需要反复迭代改进的场景

实际选择原则 说白了就一句话：能用简单的就别用复杂的。

生产环境 90% 的推理需求用 CoT + Self-Consistency 就能满足。只有遇到真正需要搜索探索的高价值难题，才值得上 ToT。GoT 目前更多还在研究阶段，实际工业部署案例比较少。

面试加分： 可以提到 2024-2025 年出现的一个新趋势------o1/R1 这类推理模型其实在内部已经隐式地实现了类似 ToT 的搜索能力（通过 RL 学会回溯和自我纠错），只是对外表现为一条长长的 CoT。所以未来的方向可能不是在推理时显式搭建 ToT/GoT 框架，而是通过训练让模型内化这些搜索能力。

12. ⭐⭐⭐ [腾讯] 如何将蒙特卡洛树搜索（MCTS）与大模型推理结合？请描述具体方案。

一句话秒答： 用 LLM 当策略网络生成候选推理步骤，用 PRM 当评估函数打分，MCTS 框架负责搜索调度。

展开来说：

如果你玩过 AlphaGo，对 MCTS 应该不陌生。把它搬到 LLM 推理上，思路是完全一样的------只不过"棋盘状态"变成了"推理进度"，"落子"变成了"生成下一步推理"。

具体方案分四个环节：

Selection（选择）：从根节点开始，用 UCB 公式（平衡探索和利用）选择要展开的节点。UCB 值高的节点要么之前评分好（利用），要么访问次数少（探索）
Expansion（扩展）：到了叶子节点，让 LLM 生成若干候选下一步推理（比如一步推理的3种不同写法），每个候选创建一个新的子节点
Rollout/Simulation（模拟）：从新节点出发，让 LLM 快速推理到最终答案（可以用贪心解码快速走完）
Backpropagation（回传）：根据最终答案的正确性（或 PRM 的评分），反向更新路径上所有节点的价值估计

典型应用案例：

AlphaProof：DeepMind 用 MCTS 指导数学定理的形式化证明，在 IMO 竞赛级别的问题上取得突破
rStar：微软的工作，把 MCTS 和 LLM 推理结合，在数学推理上接近 SOTA

面试加分： 核心挑战是成本------MCTS 每个节点都要调用 LLM，一棵搜索树下来可能要几百次 LLM forward pass。工程上的优化方向包括：使用小模型做快速 rollout、缓存中间状态避免重复计算、用 PRM 积极剪枝减少无效搜索。另外，对 value function（PRM）的质量要求非常高，PRM 不准整棵搜索树就废了。

三、o1/DeepSeek-R1 推理模型（6题）

13. ⭐⭐ [高频] OpenAI o1 模型的核心技术原理是什么？它与传统的 GPT 系列有何本质区别？什么是 Test-Time Compute Scaling？

一句话秒答： o1 的核心突破是把"变聪明"的方式从"训练时多学"扩展到了"推理时多想"，开辟了 Scaling 的新维度。

展开来说：

之前大模型领域有一条金科玉律------Scaling Laws：模型越大、数据越多、训练越久，效果越好。这是 Train-Time Compute Scaling，投入在训练阶段。

o1 发现了一条新路：Test-Time Compute Scaling------模型参数不变，但推理时让它"多想一会儿"。具体就是让模型生成更长的内部思维链，花更多的 token 来思考，而且思考时间越长、效果越好（对数关系）。

和传统 GPT 的本质区别：

GPT：问题进来 -> 模型直接输出答案，思考时间固定（就是一次前向传播的若干层）
o1：问题进来 -> 模型先在内部展开长长的思维链（可能几千 token）-> 在思维链中自我规划、验证、回溯 -> 最后给出答案

技术路线上，o1 大概率使用了大规模 RL 训练（推测涉及 PRM + 搜索），让模型学会了在推理时自主进行深度思考，而不是靠 prompt 技巧来触发。

效果方面，o1 在 AIME 数学竞赛、Codeforces 编程竞赛等高难度任务上大幅超越了 GPT-4，展示了这条新 Scaling 路线的巨大潜力。

面试加分： 强调两者是正交且互补的。更好的基础模型（Train-Time Scaling）加上更多的推理计算（Test-Time Scaling）能得到最优效果。这也是为什么 o1 是在 GPT-4 级别的底座上做 RL 训练，而不是从一个小模型开始。未来 AGI 的路径很可能是两条 Scaling Laws 的叠加。

14. ⭐⭐ [高频] o1 模型中的"内部思维链"（internal chain-of-thought）与传统 CoT 有什么不同？请解释 Slow Thinking 机制与系统1/系统2思维的关联。

一句话秒答： 传统 CoT 是靠 prompt 技巧"教"模型分步思考，o1 的内部思维链是通过 RL 训练后"学会"的真正推理能力。

展开来说：

这个区别非常关键，理解了它你就理解了为什么 o1 是一个范式性的突破。

传统 CoT：

依赖人工设计的 prompt 或示例来触发
推理深度有限，本质上是在"模仿"示例的推理格式
输出的推理链完全可见
能力上限受限于 prompt 的质量

o1 的内部思维链：

通过 RL 训练习得的内生能力，不需要任何 prompt 引导
推理链可以极长（上万 token），能自主进行反思、回溯、验证
会出现 "Wait, let me reconsider..."、"Hmm, that doesn't seem right..." 这样的自我纠错语句
内部思维链对用户不可见（只展示摘要），这是出于安全考虑

用心理学的框架来理解就很清晰：

系统1（快思考）：传统 LLM 的工作方式------输入进来，凭直觉快速反应，不假思索
系统2（慢思考）：o1 的工作方式------遇到问题先停下来，仔细分析，反复验证，深思熟虑后再给答案

o1 的 Slow Thinking 就是在模型层面实现了系统2思维------通过 RL 训练，模型学会了"什么时候该慢下来仔细想"。

面试加分： 关于隐藏思维链这个设计决策值得展开聊------OpenAI 隐藏它一方面是防止竞争对手通过分析思维链来蒸馏技术，另一方面是因为内部思维链可能包含不安全的推理过程（模型在探索过程中可能产生有害内容，即使最终答案是安全的）。这也呼应了前面聊到的 CoT 忠实性问题------如果你看不到思维过程，就无法审计它的安全性，这是一个开放的研究难题。

15. ⭐⭐⭐ [阿里] DeepSeek-R1 的技术原理是什么？它是如何通过强化学习训练推理能力的？R1-Zero 与 R1 有什么区别？为什么纯 RL 训练会出现可读性问题？

一句话秒答： R1 最震撼的发现是纯 RL 就能让模型自发"顿悟"出思维链推理能力（R1-Zero），但代价是输出乱七八糟，加了冷启动数据才解决。

展开来说：

DeepSeek-R1 的故事是2025年大模型领域最精彩的技术叙事之一，分两个阶段来讲：

第一阶段：R1-Zero（纯 RL 的惊喜）

做法极其简单粗暴------直接在 DeepSeek-V3-Base（一个没经过任何 SFT 的纯预训练模型）上用 GRPO 做 RL 训练。奖励信号就两个：答案对不对 + 格式对不对。

然后神奇的事情发生了------模型自发学会了 CoT、自我验证、回溯反思等推理行为。没有人教它"Let's think step by step"，它自己就这么干了。这是一个涌现现象，直接证明了推理能力可以通过 RL 从零涌现。

但 R1-Zero 有个严重的问题：输出一塌糊涂。多种语言混着来，推理链格式混乱，可读性极差。因为 RL 只优化了"答案正确性"，根本不关心"说人话"。

第二阶段：R1（工程优化）

为了解决可读性问题，R1 采用了多阶段训练：

先用少量高质量 CoT 数据做冷启动 SFT，教模型"好好说话"
在冷启动模型上做大规模 RL 训练，提升推理能力
用训练好的模型做拒绝采样生成高质量数据，加上通用任务数据做 SFT
再做一轮最终 RL，平衡推理能力和通用能力

面试加分： R1 最大的学术贡献是证明了"推理能力不必依赖人工标注的推理数据"。之前大家以为必须有人写好 CoT 示例才能教模型推理，R1-Zero 说不用------给一个正确答案的信号就够了，模型自己会想办法。这个发现的哲学意义甚至超越了工程意义。另外从开源角度，R1 的完全开源（包括训练细节）也是对 o1 封闭路线的有力回击。

16. ⭐⭐⭐ [高频] 什么是 GRPO（Group Relative Policy Optimization）？它与 PPO 有何区别？DeepSeek-R1 为什么选择 GRPO？

一句话秒答： GRPO 就是"把 PPO 里面那个难训的 Critic 模型扔掉"，改用同组采样的相对排名来当基线。

展开来说：

先快速回顾一下 PPO------PPO 是强化学习里的经典算法，核心是策略梯度 + 价值基线。在 RLHF 场景下，你需要两个模型：一个 Actor（生成回答的策略模型）和一个 Critic（估计状态价值的 Value Model）。

PPO 的问题在于 Critic 模型很难训好，尤其是在长链推理场景下------你让 Critic 去估计"推理到第7步时这个状态值多少钱"，它根本估不准。而且 Critic 模型和 Actor 一样大，直接让显存占用翻倍。

GRPO 的做法特别优雅：

对同一个问题，用当前策略采样 G 个回答（比如 G=8）
每个回答用奖励模型（或规则）算出一个奖励分数
在这一组回答内部算均值和标准差
每个回答的优势值 = (自己的分数 - 组内均值) / 组内标准差
用这个归一化后的相对优势来做策略更新

核心思想就是"矮子里拔将军"------不需要知道绝对水平有多好，只需要知道在这一组里谁相对更好。

DeepSeek-R1 选择 GRPO 的理由非常实际：

省掉 Critic 模型，节省约 50% 的显存和计算量，在几百B参数的模型上这个差距是巨大的
Critic 在长链推理场景下本身就估不准，不如不要
实验证明效果和 PPO 相当甚至更好

面试加分： GRPO 有个微妙的好处------它天然适配推理任务的评估方式。推理任务（数学、代码）往往有明确的对错判断，可以用规则直接给奖励，不需要复杂的奖励模型。GRPO 的组内相对排名机制和这种离散奖励信号特别搭配。另外，GRPO 的 KL 散度约束是直接加在 loss 里的参考策略 KL 项，比 PPO 的 clip 机制更稳定。

17. ⭐⭐⭐ [高频] 请解释 DeepSeek-R1 的多阶段训练流程：冷启动 -> RL -> 拒绝采样 -> SFT -> RL 的具体步骤和各阶段作用。

一句话秒答： "先教说话格式 -> 再练推理能力 -> 再攒高质量数据 -> 再补通用能力 -> 最后精雕细琢"，五步走的渐进式流程。

展开来说：

R1 的训练流程是一个非常漂亮的工程设计，每个阶段都有明确的目的。我来一步步拆解：

阶段1：冷启动 SFT

做什么：用几千条高质量的长 CoT 数据对 Base 模型做 SFT
为什么：R1-Zero 的教训告诉我们，纯 RL 出来的模型会"说胡话"。冷启动 SFT 的目的很简单------先教模型"推理输出应该长什么样"，建立基本的格式和可读性
类比：先教一个小朋友写作文的格式，再让他自由发挥

阶段2：推理 RL

做什么：在冷启动模型上用 GRPO 做大规模 RL 训练
奖励信号：答案正确性（规则判断）+ 格式奖励（有没有按要求输出 think 标签等）
为什么：这是提升推理能力的核心阶段，模型在这里学会深度思考
效果：推理能力大幅跃升，但通用能力（写作、闲聊等）可能有所退化

阶段3：拒绝采样 + SFT

做什么：用阶段2的模型大量采样推理题的解答，只保留正确且高质量的推理链（拒绝采样）；同时收集通用任务数据（写作、问答等）；把两部分数据混合起来做 SFT
为什么：双重目的------(1) 把 RL 模型的推理能力"蒸馏"成稳定的 SFT 数据，(2) 通过混入通用数据恢复在 RL 阶段退化的通用能力

阶段4：最终 RL

做什么：在阶段3的模型上再做一轮 RL
奖励信号：推理任务用规则奖励，通用任务用奖励模型打分
为什么：最后的精调，同时优化推理和通用表现，达到两者的平衡

面试加分： 这套流程的精髓是"RL 和 SFT 的交替循环"。RL 用来探索和提升能力上限，SFT 用来稳定输出质量和恢复通用能力。这种交替训练的思路在后来的很多推理模型中被广泛采用。另外，拒绝采样这一步非常关键------它本质上是在做"on-policy 数据增强"，用当前最强模型生成训练数据来训练下一版模型，形成正向循环。

18. ⭐⭐ [面经] 为什么 o1 类模型在某些简单任务上反而表现不如标准模型？过度思考（overthinking）问题如何解决？推理模型的"思考过程" token 消耗如何控制？

一句话秒答： 推理模型被训练成"凡事都要深思熟虑"，遇到简单问题也要长篇大论地想，反而容易想偏还浪费钱。

展开来说：

这是一个特别有意思的现象------o1 做简单的情感分类、常识问答，效果可能还不如 GPT-4o。为什么？

过度思考的根源：模型在 RL 训练时被大量困难题训练过，形成了"always think hard"的习惯。遇到"1+1等于几"也要展开一千个 token 的思考------"让我仔细想想，首先要明确加法的定义..."。在这个过程中，模型可能引入不必要的复杂推理，甚至自我矛盾------本来直觉是对的，想多了反而给想错了。

解决思路有几条：

路由机制：前面放一个轻量级分类器或者用 LLM 自己判断问题难度。简单题走标准模型（快且便宜），复杂题走推理模型（慢但准）。这是工程上最实用的方案
思考预算控制：设定思考 token 的上限。o3-mini 已经提供了 thinking effort 参数（low/medium/high），让用户控制模型"想多久"
训练层面优化：在 RL 训练中引入"简洁性奖励"，让模型学会判断什么时候不需要深度思考
Prompt 层面：在 system prompt 中指示"对简单问题给出直接答案，不需要冗长的思考过程"

Token 消耗的成本问题也很现实：o1 的推理成本是 GPT-4 的 3-10 倍（大量思考 token 要计费），在生产环境这个开销是不可忽视的。

面试加分： 这个问题反映了一个更深层的 AI 系统设计原则------"没有银弹"。推理模型不是用来替代标准模型的，而是作为工具箱里的一把特殊工具。最好的系统架构是混合路由------简单任务用快模型，困难任务用推理模型，这也是 OpenAI 推出 o3-mini（低成本推理）和继续维护 GPT-4o（通用高效）的产品逻辑。

四、过程奖励模型（PRM）与推理验证（5题）

19. ⭐⭐ [高频] 什么是过程奖励模型（PRM）？它与结果奖励模型（ORM）有何区别？为什么只看最终结果可能导致 reward hacking？

一句话秒答： PRM 是"过程打分"------每一步推理都给分，ORM 是"结果打分"------只看最终答案。只看结果的话模型会走歪门邪道蒙答案。

展开来说：

这是推理模型训练中最核心的概念之一，面试必考。

先说 ORM（Outcome Reward Model）------这个最直觉，就看你最终答案对不对，对了给正分，错了给负分。简单粗暴，但有个致命问题。

举个例子：一个数学题，模型前面推理全是错的（逻辑混乱、计算失误），但最终答案碰巧蒙对了。ORM 会给这条路径正面奖励。RL 训练时，这种"错误推理 + 碰巧正确"的模式就会被强化。日积月累，模型学会了各种"蒙答案"的套路而不是真正的推理能力。这就是 Reward Hacking。

PRM（Process Reward Model）就是来解决这个问题的------它对推理链的每一步都打分：

第1步：逻辑正确，+1
第2步：计算正确，+1
第3步：逻辑跳跃太大，-0.5
第4步：结论合理，+1

PRM 的优势非常明显：

更密集的奖励信号：不用等到最后才知道好不好，每步都有反馈，训练更稳定
防止 Reward Hacking：答案对但过程错的路径会被低分识别出来
可定位错误：能精确告诉你第几步出了问题，便于调试和纠错

面试加分： 可以提到一个有趣的理论视角------PRM 本质上是在做"过程监督"（process supervision），而 ORM 是"结果监督"（outcome supervision）。这和强化学习中 dense reward vs. sparse reward 的讨论完全对应。Dense reward 训练更稳定但标注成本更高，sparse reward 标注便宜但训练困难。在推理模型训练中，这个 trade-off 被 PRM 的自动化标注方法（如 Math-Shepherd）所缓解。

20. ⭐⭐⭐ [字节] PRM 的训练数据如何标注？逐步标注推理过程正确性的成本有多高？有哪些自动化标注方法（如 Math-Shepherd）？

一句话秒答： 人工逐步标注一条推理链要10-30分钟，成本是 ORM 的5-10倍。业界转向自动化方法------让模型从每步开始多次补全，用成功率当正确性标签。

展开来说：

PRM 训练数据的标注是这个领域最贵也最头疼的事情之一。我来讲讲几种路线：

路线一：纯人工标注（贵但准）

OpenAI 做的 PRM800K 数据集就是这条路------雇专业数学标注员，看一条推理链，逐步判断每一步是"正确"、"错误"还是"中性（无法判断）"。一条 8 步的推理链，标注员要逐步理解逻辑、验证计算，平均耗时 10-30 分钟。和 ORM 标注（只看答案对不对，几秒钟搞定）比，成本差了不止一个数量级。

路线二：Math-Shepherd 自动化标注（便宜但有噪声）

核心思路特别巧妙：对于推理链的第 k 步，从这一步开始让模型补全剩余步骤直到最终答案，重复 N 次，统计最终答案的正确率。如果正确率高，说明第 k 步大概率是对的；正确率低，说明从这步开始就出问题了。

举个例子：某条推理链的第3步，从第3步开始让模型补全20次，其中15次最终答案正确 -> 正确率 75% -> 标为"大概率正确"。

路线三：MCTS 自动标注

用蒙特卡洛树搜索对推理树的每个节点做 rollout 评估，根据后续路径的成功率自动标注。原理和 Math-Shepherd 类似，但搜索更系统化。

面试加分： 自动化标注的核心假设是"如果后续能经常走到正确答案，那当前步大概率是对的"。这个假设在大多数情况下成立，但有一个边界情况------如果某步推理用了错误的方法但恰好不影响后续结果（比如简化过程中错误地约分但数值恰好不变），自动化方法会误标为正确。所以业界通常会在自动化标注后加一轮人工抽检来控制噪声率。

21. ⭐⭐ [面经] OpenAI 的 "Let's Verify Step by Step" 论文核心结论是什么？PRM 相比 ORM 在数学推理上有多大优势？

一句话秒答： 核心结论就一句话------过程监督（PRM）全面碾压结果监督（ORM），在数学推理上效果差距巨大，直接奠定了 o1 的技术路线。

展开来说：

Lightman et al. (2023) 这篇论文是 OpenAI o1 技术路线的思想基石，可以说没有这篇文章就没有后来的 o1。

核心实验设置：

在 MATH 数据集上训练 PRM 和 ORM
都用 Best-of-N 策略------采样 N 条推理路径，用不同的验证器选最好的一条

关键结论：

PRM >> ORM：在同等采样次数下，PRM 选出的推理路径准确率远高于 ORM。在 Best-of-1860 的极端设置下，PRM 达到 78.2% 的准确率，ORM 差了一大截
PRM 更抗 Reward Hacking：ORM 选出的"高分"路径经常是"歪打正着"，PRM 选出的高分路径推理过程也是扎实的
过程监督更安全：因为 PRM 关注的是推理的每一步是否正确，它天然和人类对"好推理"的标准更一致。你不会觉得一个"胡乱推理但答案碰巧对"的方案是好方案

论文的深远影响：这篇论文给了 OpenAI 明确的技术方向------要做好推理模型，必须走过程监督路线。o1 的内部训练大概率深度依赖了 PRM。

面试加分： 值得一提的是，这篇论文的 PRM 标注数据（PRM800K）也被开源了，成为了后续大量 PRM 研究的基础数据集。另外，论文里还有一个很精彩的分析------随着采样次数 N 的增加，PRM 的收益持续增长，而 ORM 很快就饱和了，说明 PRM 在大规模搜索场景下的优势更加明显。

22. ⭐⭐⭐ [高频] PRM 如何与 Best-of-N 采样结合使用？在推理搜索中如何作为启发式函数指导搜索方向？

一句话秒答： 采样 N 条路径、PRM 逐步打分、选总分最高的。在搜索场景中 PRM 就是那个"指路人"------告诉搜索算法该往哪个方向走。

展开来说：

PRM + Best-of-N 是当前业界最实用、效果最稳定的推理增强方案，面试中几乎必问如何落地。

Best-of-N 结合方式：

具体流程很清晰：

对一个问题，用较高 temperature 采样 N 条推理路径
PRM 对每条路径的每一步打分，得到一个步骤分数序列
汇总方式有两种：取所有步骤分数的乘积/平均值（总体质量），或者取最低步骤分数（木桶原理------一条链的质量取决于最差的那步）
选总分最高的路径作为最终输出

作为搜索启发函数：

在更高级的搜索框架中，PRM 的作用就不只是"事后选路径"了，而是"事中指方向"：

在 Beam Search 中：每步生成多个候选 -> PRM 打分 -> 保留得分最高的 K 个候选继续往下走，低分的直接剪掉
在 MCTS 中：PRM 的步骤分数和 UCB 公式结合，作为节点的 value 估计，指导搜索优先探索 PRM 认为"有前途"的分支

这种"事中指导"比"事后筛选"效率高得多------不用把所有路径都走完再选，而是在中途就把明显不好的路径砍掉。

面试加分： 实际效果数据------PRM 指导的 Best-of-N 比纯 Self-Consistency 投票在 MATH 数据集上高出 5-10 个百分点，而且达到同等准确率所需的采样次数更少。工程上有个实用技巧：可以用一个小的 PRM（比如 7B）来指导大模型（比如 70B）的搜索，PRM 的推理成本远低于大模型本身，整体性价比很高。

23. ⭐⭐⭐ [高频] Critique 模型与 PRM 有什么关系？如何训练一个能批评和纠正推理错误的模型？

一句话秒答： PRM 只能打分说"这步有问题"，Critique 模型能用自然语言告诉你"哪里有问题、为什么错、应该怎么改"。

展开来说：

你可以把两者的关系理解为"判卷老师"和"辅导老师"的区别：

PRM：判卷老师------看你的答案，每步打个分，不多说一个字。"第1步 +1，第2步 +1，第3步 -1，第4步 +0.5"。你知道第3步有问题，但不知道为什么
Critique 模型：辅导老师------不仅告诉你第3步错了，还会说"你在这里把等式两边同时除以x，但没有考虑x可能为0的情况。正确的做法是先讨论x是否为0，然后分情况处理"

Critique 模型的输出是自然语言的错误分析 + 修正建议，信息量远比一个标量分数丰富。

训练 Critique 模型的几种方法：

人工标注 SFT：收集错误的推理过程 -> 人工写出详细的批评和修正 -> 用这些数据微调模型。质量最高但成本大
LLM 生成 + 人工筛选：让 GPT-4 之类的强模型生成 critique -> 人工检查筛选优质的 -> 用筛选后的数据训练。半自动化
自我博弈（Self-Play）：一个模型生成推理 -> 另一个模型（或同一个模型的另一次调用）写批评 -> 根据批评改进 -> 迭代。完全自动化，但需要仔细控制质量

应用场景最典型的就是 Self-Refine 框架------模型生成初版回答 -> Critique 模型批评 -> 模型根据批评改进 -> 再批评 -> 再改进，迭代到满意为止。

面试加分： Critique 模型面临的一个核心挑战是"虚假批评"------把正确的步骤误判为错误。这比 PRM 的误判更危险，因为如果 Critique 说"这步错了应该改成这样"，而原来是对的，改完反而错了。所以高质量的 Critique 模型训练数据中，不仅要有"正确地指出错误"的样本，还要有"正确地确认正确步骤"的样本，让模型学会区分真问题和假问题。

五、推理评估与 Scaling Laws（3题）

24. ⭐ [高频] 请介绍主流的大模型推理能力评估 benchmark 体系，包括 GSM8K、MATH、ARC、BIG-Bench Hard 等各自测试什么能力。

一句话秒答： 从小学数学到博士级科学问题，推理 benchmark 构成了一个完整的"难度阶梯"，面试时至少要能说出5个以上。

展开来说：

推理 benchmark 是面试高频考点，因为它反映了你对领域全景的了解程度。我按难度从低到高给你捋一遍：

第一梯队：基础推理

GSM8K：8500道小学数学应用题，需要2-8步计算。曾经是推理能力的试金石，但现在 SOTA 已经超过 95%，基本被刷爆了。面试时可以提一句"GSM8K 已经接近饱和"
ARC（AI2 Reasoning Challenge）：科学常识推理选择题，分 Easy 和 Challenge 两个级别。测试的是知识 + 推理的结合能力，比如"为什么冬天湖面会结冰"

第二梯队：中高难度推理

MATH：高中到竞赛级数学题，涵盖代数、几何、数论等7大类。难度远高于 GSM8K，是目前最常用的数学推理 benchmark
BIG-Bench Hard（BBH）：从 Google 的 BIG-Bench 里挑出来的23个"人类能做好但 LLM 做不好"的困难任务，包括逻辑推理、因果推理、时间推理等

第三梯队：顶级难度

AIME/AMC：美国数学竞赛题，o1/R1 级别的模型才开始在这上面有像样的表现
GPQA：博士级别的科学问题（物理、化学、生物），连领域专家都可能做错
LiveCodeBench：编程推理 benchmark，持续更新新题目防止数据泄漏

面试加分： 补充两个前沿趋势------第一，静态 benchmark 面临严重的数据污染问题（模型可能在训练时见过测试题），所以 LiveCodeBench、Codeforces 这种动态更新的 benchmark 越来越受重视；第二，GSM-Symbolic 这类反事实 benchmark 正在兴起，专门测试模型是"真推理"还是"背答案"。面试时能主动提到数据污染问题会显得很专业。

25. ⭐⭐ [高频] 什么是 Reasoning Scaling Laws？Test-Time Compute Scaling 与 Train-Time Scaling 的核心区别和适用场景分别是什么？

一句话秒答： 传统 Scaling Laws 说"训练时多花钱模型更好"，Reasoning Scaling Laws 说"推理时多花钱回答更好"------两条路可以叠加。

展开来说：

这可能是2025-2026年大模型领域最重要的理论发展之一，理解了这个你就理解了为什么 o1/R1 是划时代的。

Train-Time Scaling（传统 Scaling Laws）：

核心观点：增加模型参数、训练数据量、训练计算量 -> 模型 loss 按幂律下降
代表工作：Kaplan et al. (2020)、Chinchilla (2022)
特点：一次性投入，训练完成后所有问题都受益，但边际收益递减
适用：提升模型的通用基础能力

Test-Time Compute Scaling（Reasoning Scaling Laws）：

核心观点：固定模型参数，增加推理时的计算量（更长的思考链、更多的采样、更深的搜索）-> 特定问题的准确率持续提升
代表工作：o1 (2024)、DeepSeek-R1 (2025)
特点：按需投入，难题多想、简单题少想，更灵活
适用：难题攻坚，需要深度推理的场景

核心区别用一个比喻：Train-Time Scaling 是"读更多书让自己变得更有学问"，Test-Time Scaling 是"考试时多花时间仔细审题"。一个是提升基础能力，一个是充分发挥已有能力。

关键洞察：两者不是替代关系而是互补关系。更强的基础模型 + 更多的推理时计算 = 最优效果。GPT-4 级别的底座 + o1 的推理训练 = 碾压。你不可能在一个 7B 的弱模型上光靠 Test-Time Scaling 就达到 GPT-4 的水平。

面试加分： 可以提到一个深层次的观点------Test-Time Scaling 的出现意味着模型能力不再是一个固定值。同一个模型，给它1秒钟思考和给它1分钟思考，表现可能天差地别。这对产品设计、定价策略、算力规划都有深远影响。未来的 AI 服务定价可能不再是按 token 数量计费，而是按"思考难度"计费。

26. ⭐⭐⭐ [面经] 如何区分大模型是真正在"推理"还是在"背诵"答案？反事实任务（Counterfactual Tasks）如何帮助解答这个问题？

一句话秒答： 改掉题目里的数字或条件，如果模型答案跟着变就是真推理，如果还是输出原来的答案就是在背。

展开来说：

这是一个非常深刻的问题，直接关系到我们对大模型推理能力的理解。

核心矛盾：模型在 GSM8K 上跑了 95 分，到底是因为它"学会了数学推理"，还是因为它在训练时"见过这些题目或类似题目"？

反事实任务的设计思路特别聪明：

拿一道标准的 GSM8K 题目------"小明有5个苹果，给了小红3个，还剩多少个？"

反事实变体：

把数字换掉："小明有17 个苹果，给了小红8个，还剩多少个？"
把条件换掉："小明有5个苹果，又买了3个，共有多少个？"
把规则换掉："在这个世界里，给出去东西反而会增加数量，小明有5个苹果，给了小红3个，还剩多少个？"

如果模型在标准题上对，但在反事实变体上错（尤其是第三种------规则改变的情况），那说明模型很可能在依赖记忆而非推理。

GSM-Symbolic 的实验结果：

Mirzadeh et al. (2024) 做了系统性的实验------把 GSM8K 题目的数字随机替换后，很多主流模型的准确率下降了 5-10 个百分点。有些模型甚至只是改了人名就错了。这说明模型确实存在一定程度的记忆依赖。

其他检测方法：

使用全新的、训练数据中不可能出现的题目（但这越来越难做到）
分析 CoT 中是否有真正的逻辑推导，还是在套用模板
测试模型对问题微小变化的敏感度------真正理解的系统应该对无关变化不敏感

面试加分： 这个问题其实没有完美的答案------"推理"和"记忆"的边界本身就是模糊的。人类在做数学题时，很多步骤也是"记忆"来的（比如乘法表），但我们不会说人类不会推理。合理的观点是：大模型的"推理"可能是一种介于纯记忆和纯逻辑推导之间的混合能力，反事实任务帮助我们评估这个混合体中推理成分的比例。

六、推理训练、蒸馏与工程落地（2题）

27. ⭐⭐⭐ [字节] STaR（Self-Taught Reasoner）的核心思想是什么？如何通过 bootstrapping 让模型自我改进推理能力？拒绝采样微调在其中的作用是什么？

一句话秒答： STaR 的精髓是"自己出题自己做、做对的拿来教自己"------模型生成推理链，筛选正确的，再微调自己，螺旋上升。

展开来说：

STaR（Zelikman et al., 2022）是推理模型训练领域的先驱工作，它的核心思想后来被 R1 等模型广泛采用。

Bootstrapping 自我进化的完整流程：

生成：让当前模型对训练集的每道题生成推理链 + 答案
筛选：检查最终答案是否正确，只保留答案正确的推理链（这就是"拒绝采样"------reject 掉错误的）
训练：用这些正确的推理链数据微调模型
迭代：拿微调后的新模型回到第1步，重新生成、筛选、训练...

每一轮迭代，模型能做对的题目比上一轮多一些，产生的高质量训练数据也更多，形成正向循环。

拒绝采样的关键作用：它是整个流程的"质量过滤器"。如果不筛选就直接拿所有生成结果来训练，错误的推理链会把模型带偏。只保留正确的推理链，确保了模型"只学好的不学坏的"。

还有一个巧妙的技巧叫 Rationalization（合理化）：对于模型做错的题目，把正确答案作为 hint 塞回去，让模型"看着答案"重新生成推理链。这样即使是原本做不出来的难题，也能生成训练数据，大大扩展了可用数据量。

面试加分： STaR 的深远意义在于它证明了"模型可以不依赖人工标注的推理数据来自我提升推理能力"。这个思想直接启发了后来的一系列工作：R1 的拒绝采样阶段本质上就是 STaR 的变体；ReST（Reinforced Self-Training）把拒绝采样和 RL 结合得更紧密；V-STaR 进一步引入 verifier 来提升筛选质量。可以说 STaR 是推理自我进化这条技术线的开山之作。

28. ⭐⭐⭐ [高频] 如何将大型推理模型（如 R1-70B）的能力蒸馏到小模型？推理能力的蒸馏与普通知识蒸馏有何不同？DeepSeek-R1 的蒸馏实验结论是什么？

一句话秒答： 推理蒸馏的核心是"教方法不是教答案"------让小模型学习大模型的思考过程，而不只是模仿最终输出。

展开来说：

这个问题在工程落地中极其重要，因为生产环境往往跑不起 70B 的模型，必须把能力压缩到 7B-14B 级别。

推理蒸馏 vs 普通蒸馏的核心区别：

普通知识蒸馏（Hinton et al.）的做法是让小模型（学生）模仿大模型（教师）的输出分布------对齐 logits、中间层特征等。本质上是"教知识"------教你每个问题应该输出什么。

推理蒸馏不一样，它的做法是：

用大模型（R1-70B）对大量问题生成高质量的推理链
用这些"问题 + 完整推理链"数据对小模型做 SFT
小模型学到的不是"这个问题答案是42"，而是"遇到这类问题应该怎么一步步思考"

简单说就是：普通蒸馏教"是什么"，推理蒸馏教"怎么想"。

DeepSeek-R1 的蒸馏实验结论（重点记住这几个）：

蒸馏效果显著：R1-Distill-Qwen-32B 在数学推理上超越了 OpenAI o1-mini，一个开源 32B 模型打败了闭源的顶级推理模型
小模型也能推理：蒸馏到 Qwen-7B、Llama-8B 级别也有明显的推理能力提升，打破了"小模型不能推理"的传统认知
蒸馏 > 直接 RL：同规模的小模型，通过蒸馏获得的推理能力超过了直接在小模型上做 RL 训练的效果。这说明"站在巨人的肩膀上"比"自己从零学起"更高效
蒸馏到不同底座都有效：无论是 Qwen 系列还是 Llama 系列，蒸馏都能带来显著提升，说明推理能力的迁移具有通用性

面试加分： 关于"为什么蒸馏比直接 RL 训练更好"------直觉上可以这样理解：直接在小模型上做 RL，它的探索空间太大、基础能力太弱，很难自己发现好的推理模式。但如果你直接把大模型的推理链给它看，相当于告诉它"好的推理长这样"，极大缩小了搜索空间。这也暗示了一个有趣的技术路线------先训练一个顶级的推理大模型，然后蒸馏出一系列不同规模的推理小模型用于不同场景，而不是每个规模都从零训练。

写在最后：推理范式这个方向是2025-2026年大模型面试的绝对热点。o1 和 R1 的相继发布让 Test-Time Compute Scaling 从论文概念变成了工业现实，PRM、GRPO、推理蒸馏等技术也从冷门变成了面试必考。建议把这28题反复消化，特别是 R1 的多阶段训练流程和 GRPO 的原理------这两个被问到的概率极高。面试时回答不要背书式地列点，而是像我们今天这样用自己的话讲清楚本质，让面试官感觉你是真的理解了而不是临时抱佛脚。