【LLM】一文理解推理大模型

理解推理大模型------构建与精炼推理模型的方法与策略

[1. 我们如何定义"推理模型"？](#1. 我们如何定义“推理模型”？)
[2. 我们应在何时使用推理模型？](#2. 我们应在何时使用推理模型？)
[3. 简要了解DeepSeek训练流程](#3. 简要了解DeepSeek训练流程)
[4. 构建和改进推理模型的4种主要方法](#4. 构建和改进推理模型的4种主要方法)
- [4.1 推理时缩放（Interence-time scaling）](#4.1 推理时缩放（Interence-time scaling）)
- [4.2 纯强化学习（RL）](#4.2 纯强化学习（RL）)
- [4.3 监督微调与强化学习（SFT + RL）](#4.3 监督微调与强化学习（SFT + RL）)
- [4.4 纯监督微调（SFT）与蒸馏](#4.4 纯监督微调（SFT）与蒸馏)
[5. 结论](#5. 结论)
[6. 关于DeepSeek R1的思考](#6. 关于DeepSeek R1的思考)
[7. 在有限预算下开发推理模型](#7. 在有限预算下开发推理模型)
内容来源

本文介绍了 构建推理模型 的四种主要方法，即我们如何借助推理能力增强大语言模型。希望本文能为您提供有价值的见解，助您更好地把握这一领域快速发展的文献与热潮。

2024年，大语言模型领域呈现出日益细化的趋势。除了预训练和微调之外，我们还见证了各种专业化应用的兴起，从检索增强生成到代码助手，不一而足。我预计这一趋势将在2025年进一步加速，对特定领域和应用场景的优化（即"专业化"）将得到更加重视。

图1：阶段1至阶段3是开发大型语言模型的通用步骤。阶段4则针对特定用例对大型语言模型进行专门化处理。

推理模型的开发正是这些专业方向之一。这意味着，我们对大语言模型进行优化，使其在需要通过中间步骤才能解决的复杂任务上表现卓越，比如谜题、高等数学和编程挑战等。不过，这种专业化并不意味着取代其他大语言模型的应用场景。因为将大语言模型转化为推理模型的同时，也会带来一些固有的局限性，这一点我将在稍后详细探讨。

为了让大家对下文内容有个大致了解，本文我将：

解释"推理模型"的含义；
探讨推理模型的优缺点；
概述DeepSeek R1所采用的方法论；
介绍构建和改进推理模型的四种主要途径；
分享我对DeepSeek V3和R1发布后大语言模型领域发展趋势的看法；
提供一些预算有限时开发推理模型的实用建议。

希望随着人工智能在今年的迅猛发展，这篇文章能为大家带来一些启发与帮助！

1. 我们如何定义"推理模型"？

如果你从事人工智能（或更广泛地讲，机器学习）相关工作，想必对那些含糊不清且备受争议的定义早已习以为常。"推理模型"这一术语也不例外。最终，总会有人在论文中对其作出正式定义，可没过多久，它又会在下一篇文章中被重新定义------如此循环往复。

在本文中，我将"推理"定义为一种回答问题的过程，这类问题需要经过复杂、多步骤的生成过程，并包含中间环节 。例如，像"法国的首都是哪里？"这样的事实性问答并不涉及推理。相比之下，"如果一列火车以每小时60英里速度行驶，持续3小时，它能走多远？"则需要进行一些简单的推理。比如，在得出答案之前，必须先识别出距离、速度和时间之间的关系。

图2：普通的大语言模型可能只给出简短的回答（如左图所示），而推理模型通常会包含一些中间步骤，从而揭示部分思考过程。（请注意，许多并未专门针对推理任务开发的大语言模型，在其回答中也能提供中间推理步骤。）

大多数现代大语言模型都具备基本的推理能力，能够回答诸如"如果一列火车以每小时60英里的速度行驶，持续3小时，它能走多远？"这类问题。因此，如今当我们提到推理模型时，通常指那些擅长处理更复杂推理任务的大型语言模型，比如解谜题、猜谜语以及证明数学定理等。

此外，如今被冠以"推理模型"之名的大多数大语言模型，在其回答中都会包含一个"思考"或"思维"过程。至于大语言模型究竟是否真的"思考"，以及如何"思考"，则属于另一个值得探讨的话题。

推理模型中的中间步骤可以以两种方式呈现 。第一，它们可能被明确地纳入回答之中 ，正如前文图示所示。第二，一些推理型大语言模型，例如OpenAI的o1，会进行多次迭代运算，其间产生的中间步骤并不会展示给用户 。

图3："推理"在两个不同层面被使用：1）处理输入并经过多个中间步骤生成结果；2）作为用户响应的一部分，提供某种形式的推理。

2. 我们应在何时使用推理模型？

既然我们已经定义了推理模型，接下来就可以进入更有趣的部分：如何为推理任务构建并改进大语言模型。不过，在深入探讨技术细节之前，我们有必要先思考一下：究竟在什么情况下才真正需要推理模型呢？

我们何时需要推理模型？推理模型专为处理复杂任务而设计 ，例如解谜、高等数学问题以及具有挑战性的编码任务。然而，对于诸如摘要、翻译或基于知识的问答这类较为简单的任务，推理模型并非必需。事实上，如果对所有任务都使用推理模型，不仅效率低下，还会增加成本。例如，推理模型通常使用成本更高、代码更冗长，有时还容易因"过度思考"而产生更多错误。此外，这里也适用一条简单法则：针对不同任务，选用合适的工具（或大语言模型类型）。

推理模型的关键优势与局限性总结于下图中。

图4：推理模型的关键优势与劣势。

3. 简要了解DeepSeek训练流程

在下一节讨论构建和改进推理模型的四种主要方法之前，我想简要概述一下DeepSeek R1流水线，正如DeepSeek R1技术报告中所描述的那样。这份报告既是一个引人入胜的案例研究，也为开发推理类大语言模型提供了一份蓝图。

需要注意的是，DeepSeek并未发布单一的R1推理模型，而是推出了三种不同的变体：DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill。

根据技术报告中的描述，我已在下图中总结了这些模型的开发流程。

图5：DeepSeeks三种不同推理模型的开发过程，这些模型在DeepSeek R1技术报告中进行了讨论。

接下来，我们简要回顾一下上图所示的流程。更多细节将在下一节中介绍，届时我们将探讨构建和改进推理模型的四种主要方法。

(1) DeepSeek-R1-Zero ：该模型基于2024年12月发布的671B预训练DeepSeek-V3基础模型。研究团队采用强化学习（RL）方法，利用两种类型的奖励对其进行训练。这种方法被称为**"冷启动"训练**，因为它未包含通常作为人类反馈强化学习（RLHF）一部分的监督微调（SFT）步骤。

(2) DeepSeek-R1 ：这是DeepSeek的旗舰推理模型，建立在DeepSeek-R1-Zero的基础上。团队通过额外的SFT阶段和进一步的强化学习训练，对R1-Zero模型进行了优化改进。

(3) DeepSeek-R1-Distill *：利用前几步生成的SFT数据，DeepSeek团队对Qwen和Llama模型进行了微调，以提升它们的推理能力 。尽管这一过程并非传统意义上的知识蒸馏，但它涉及用大型DeepSeek-R1 671B模型的输出来训练较小的模型（Llama 8B和70B，以及Qwen 1.5B--30B）。

4. 构建和改进推理模型的4种主要方法

在本节中将概述目前用于提升大语言模型推理能力以及构建专业推理模型的关键技术，例如DeepSeek-R1、OpenAI的o1与o3等。

注：o1和o3的具体运作机制在OpenAI之外仍不为人所知。不过，据传它们采用了推理与训练技术相结合的方式。

4.1 推理时缩放（Interence-time scaling）

提升大语言模型（LLM）推理能力（或任何其他能力）的一种方法是推理时缩放 。这一术语有多种含义，但在本文语境中，它指的是在推理过程中增加计算资源，以提升输出质量。

一个粗略的类比是：当人类面对复杂问题时，如果能有更多时间思考，往往能给出更优质的答案。类似地，我们也可以采用一些技巧，促使大语言模型在生成答案时"多思考"一些。（不过，大语言模型究竟是否真的"思考"，则是另一个值得探讨的话题了。）

一种最直接的推理时缩放方法就是巧妙地进行提示工程 。一个经典例子便是**"思维链"（CoT）提示法**：在输入提示中加入诸如"一步步思考"之类的短语。这种方法能够引导模型生成中间推理步骤，而不仅仅是直接给出最终答案------这通常（但并非总是）能在处理更复杂问题时带来更准确的结果。（需要注意的是，对于那些较为简单的知识型问题------比如"法国的首都是什么"------使用这种策略并无意义。这也再次提醒我们，判断一个推理模型针对特定输入问题是否合理的一个好办法，就是看它能否给出恰当的推理过程 。）
图6：2022年大语言模型相关论文《零样本推理器》（https://arxiv.org/abs/2205.11916）中提供了一个经典的思维链提示示例。

上述CoT方法可被视为推理时缩放，因为它通过生成更多输出标记使推理过程变得更加昂贵。

另一种推理时缩放的方法是采用投票与搜索策略 。一个简单的例子就是多数投票法：我们让大语言模型生成多个答案，然后通过多数投票选出正确答案。类似地，我们还可以使用束搜索及其他搜索算法来生成更优的回复。

强烈推荐您阅读《在测试时优化大型语言模型计算量的缩放方法比单纯缩放模型参数更有效》这篇论文------《2024年值得关注的人工智能研究论文（第二部分）》一文中曾对此文做过介绍。这篇论文详细探讨了这些不同策略的更多内容。

图7：不同的基于搜索的方法依赖于一种基于过程奖励的模型来选择最佳答案。摘自LLM测试时计算论文的注释图，https://arxiv.org/abs/2408.03314

DeepSeek R1技术报告将常见的推理时缩放方法（如基于过程奖励模型和基于蒙特卡洛树搜索的方法）归类为"未成功尝试"。这表明，DeepSeek并未明确采用这些技术，而R1模型本身倾向于生成更长的回复 ，这种倾向可被视为一种隐式的推理时缩放方式，与V3基础模型相比尤为突出。

不过，显式的推理时缩放通常是在应用层实现的，而非直接在大语言模型内部进行，因此DeepSeek或许仍会在其应用程序中应用此类技术。

我推测，OpenAI的o1和o3模型采用了推理时缩放机制，这也解释了为何它们相较于GPT-4o等模型价格较高。除了推理时缩放之外，o1和o3很可能也采用了与DeepSeek R1类似的强化学习训练流程。有关强化学习的更多内容，请参见以下两个章节。

4.2 纯强化学习（RL）

从DeepSeek R1论文中个人最感兴趣的一点，是他们发现推理行为竟然能从纯粹的强化学习（RL）中自然涌现出来。让我们来深入探讨一下这一发现的具体含义。

如前所述，DeepSeek开发了三种不同类型的R1模型。其中第一种------DeepSeek-R1-Zero，是在DeepSeek-V3基础模型之上构建的。DeepSeek-V3是他们于2024年12月发布的一款标准预训练大型语言模型 。与典型的强化学习流程不同，在通常的强化学习流程中，会先进行监督微调（SFT），然后再开展强化学习；而DeepSeek-R1-Zero则完全基于强化学习进行训练，没有经历任何初始的监督微调阶段 ，这一点在下图中得到了重点强调。

图8：DeepSeek-R1-Zero模型的开发过程。

不过，这一强化学习过程与通常所用的RLHF方法类似，后者一般用于对大型语言模型进行偏好微调。（在另一篇文章《LLM训练：RLHF及其替代方案》中更详细地探讨过RLHF。）然而，如上所述，DeepSeek-R1-Zero的关键区别在于，他们跳过了针对指令微调的监督微调（SFT）阶段。正因如此，他们将其称为"纯"强化学习。（尽管在大型语言模型语境下的强化学习与传统强化学习存在显著差异，这又是另一个话题了。）

在奖励机制方面，他们并未采用基于人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确率奖励和格式奖励 。

其中，准确率奖励 利用LeetCode编译器验证编码答案，并通过一套确定性系统评估数学题的解答。
格式奖励则依赖于大型语言模型评判器，以确保回答符合预期的格式，例如将推理步骤置于<think>标签内。

令人惊讶的是，这种做法足以让大型语言模型习得基本的推理能力。研究人员观察到一种"恍然大悟"的时刻：尽管模型并未接受过专门训练，却开始在其回答中自动生成推理轨迹，如下面的图所示。

图9：来自DeepSeek R1技术报告（https://arxiv.org/abs/2501.12948）的一张图表，展示了"顿悟"时刻的出现。

尽管R1-Zero并非表现顶尖的推理模型，但它确实通过生成中间的"思考"步骤展现了推理能力，如上图所示。这证实了仅使用强化学习即可开发出推理模型的可能性，而DeepSeek团队正是首个实现（或至少公开发表）这一方法的团队。

4.3 监督微调与强化学习（SFT + RL）

接下来，我们来看看DeepSeek旗舰推理模型DeepSeek-R1的发展历程。该模型为构建推理模型提供了蓝图。与DeepSeek-R1-Zero相比，这一新模型通过引入额外的监督微调（SFT）和强化学习（RL），进一步提升了其推理性能。

需要注意的是，在标准的RLHF流程中，通常会在强化学习之前先进行SFT阶段，这一点其实很常见。OpenAI的o1很可能也是采用了类似的研发路径。

图10：DeepSeek-R1模型的开发过程。

如上图所示，DeepSeek团队使用DeepSeek-R1-Zero生成了他们称之为"冷启动"SFT数据 。"冷启动"这一术语指的是，这些数据是由未经过任何监督微调（SFT）数据训练的DeepSeek-R1-Zero生成的。

利用这些冷启动SFT数据，DeepSeek随后通过指令微调对模型进行了训练 ，接着又进入了一个强化学习（RL）阶段。在这一强化学习阶段，所采用的准确性和格式奖励与DeepSeek-R1-Zero的强化学习过程完全一致 。不过，他们额外引入了一项一致性奖励，以防止语言混用现象------即模型在一次回复中频繁切换多种语言的情况。

强化学习阶段之后，DeepSeek又进行了一轮SFT数据收集。在这一阶段，他们以最新的模型检查点为基础，生成了60万条思维链（CoT）SFT示例；同时，还利用DeepSeek-V3基础模型额外生成了20万条基于知识的SFT示例。

这60万+20万条SFT样本随后被用于对DeepSeek-V3基础模型进行指令微调，之后再进行最后一轮强化学习 。在这一阶段，对于数学和编程问题，他们依然采用基于规则的方法来计算准确度奖励；而对于其他类型的问题，则使用人类偏好标签作为奖励。总体而言，这一流程与常规的RLHF非常相似，唯一的区别在于SFT数据中包含了（更多）思维链示例。此外，强化学习阶段不仅采用了人类偏好奖励，还引入了可验证的奖励机制。

最终模型DeepSeek-R1相较于DeepSeek-R1-Zero，在性能上有了显著提升，这一点从下表中可见。

图11：OpenAI O1与DeepSeek R1模型的基准对比。该图摘自DeepSeek-R1技术报告（https://arxiv.org/abs/2501.12948）。

4.4 纯监督微调（SFT）与蒸馏

到目前为止，我们已探讨了构建和改进推理模型的三种关键方法：

推理时缩放，这是一种无需训练或以其他方式修改底层模型即可提升推理能力的技术。
纯强化学习（RL），如DeepSeek-R1-Zero所展示的那样，表明推理能力可在未经过监督微调的情况下作为一种习得行为自然涌现。
监督微调（SFT）与强化学习相结合，催生了DeepSeek-R1------DeepSeek的旗舰推理模型。

那么，接下来还有什么呢？那就是**"模型蒸馏"**。

令人惊讶的是，DeepSeek还发布了通过一种他们称为"蒸馏"的过程训练而成的小型模型。然而，在大语言模型的背景下，蒸馏并不一定遵循深度学习中经典的知识蒸馏方法。传统上，知识蒸馏 （正如在《机器学习问答与人工智能》一书第6章中简要介绍的那样）是指用一个较小的学生模型同时基于较大教师模型的logits以及目标数据集进行训练。

与此不同，这里的"蒸馏"指的是在由大型语言模型生成的SFT数据集上，对较小的LLM模型进行指令微调，这些小型模型包括Llama 8B、70B以及Qwen 2.5系列（从0.5B到32B不等）。具体而言，这些大型LLM正是DeepSeek-V3以及DeepSeek-R1的一个中间检查点。事实上，用于这一蒸馏过程的SFT数据集，正是前文所述用来训练DeepSeek-R1的同一数据集。

为阐明这一过程，在下图中重点标注了蒸馏部分。

图12：DeepSeek-R1-Distill模型的开发过程。

他们为何要开发这些蒸馏模型呢？在我看来，主要有两个关键原因：

较小的模型效率更高。这意味着它们运行成本更低，同时也能在低端硬件上运行，这使得这类模型对我以及许多像我一样的研究人员和爱好者而言尤其具有吸引力。
一个纯监督微调（SFT）的典型案例。这些蒸馏模型提供了一个有趣的基准，展示了纯监督微调（SFT）在没有强化学习的情况下，能够将模型推向多远的程度。

下表对比了这些蒸馏模型与其他热门模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能表现。

图13：蒸馏模型与非蒸馏模型的基准对比。摘自DeepSeek-R1技术报告（https://arxiv.org/abs/2501.12948）的注释图表。

正如我们所见，这些蒸馏模型的性能明显弱于DeepSeek-R1，但与DeepSeek-R1-Zero相比，它们却出人意料地强劲------尽管前者的规模小了几个数量级。值得注意的是，这些模型的表现与o1 mini相比也相当出色（我猜想，o1-mini本身或许也是类似蒸馏后的o1版本）。

在以结论结束本节之前，还有一项有趣的对比值得提及。DeepSeek团队测试了，在DeepSeek-R1-Zero中观察到的涌现式推理行为是否也能出现在更小的模型中。为此，他们直接将DeepSeek-R1-Zero所采用的纯强化学习方法应用于Qwen-32B。

实验结果汇总于下表中，其中QwQ-32B-Preview是以Qwen团队开发的Qwen 2.5 32B为基础构建的参考推理模型（我认为其训练细节从未公开过）。这一对比为我们进一步揭示了：仅靠纯强化学习，是否能够促使比DeepSeek-R1-Zero小得多的模型具备推理能力。

图14：在较小的32B模型上对比基准、蒸馏与强化学习。该图摘自DeepSeek-R1技术报告（https://arxiv.org/abs/2501.12948）。

有趣的是，研究结果表明，对于小型模型而言，蒸馏法的效果远胜于纯强化学习（RL） 。这与一种观点相符：仅靠强化学习可能不足以在这一规模的模型中激发强大的推理能力；而若结合高质量推理数据进行监督微调（SFT），则对小型模型而言会是一种更有效的策略。

为使内容更加完整，表中若能加入以下额外对比将更有助于理解：

使用SFT + RL训练的Qwen-32B，其训练方式与DeepSeek-R1的开发过程类似。这有助于我们了解，当强化学习与监督微调相结合时，相较于纯强化学习和纯监督微调，能够带来多大的性能提升。
使用纯监督微调训练的DeepSeek-V3，其训练方式与蒸馏模型的创建过程相似。这将提供一个直接的对比，以验证强化学习+监督微调相较于纯监督微调的效力如何。

5. 结论

在本节中，我们探讨了四种不同的策略，用于构建和改进推理模型：

推理时缩放无需额外训练，但会增加推理成本。随着用户数量或查询量的增加，大规模部署的成本也会相应提高。尽管如此，对于提升原本表现优异的模型性能而言，这种方法仍不失为一种简单有效的选择。我强烈怀疑o1就采用了推理时缩放技术，这也解释了为什么o1按每个标记计算的成本高于DeepSeek-R1。
纯强化学习在研究领域颇具吸引力，因为它能帮助我们深入理解推理作为一种涌现行为的过程 。然而，在实际模型开发中，强化学习结合监督微调（RL + SFT）才是更优的选择，因为这种组合能够打造出性能更强的推理模型。我强烈怀疑o1也是通过RL + SFT进行训练的。更确切地说，我认为o1起步时所用的基础模型比DeepSeek-R1更弱、规模更小，但通过RL + SFT以及推理时缩放技术弥补了这一不足。
如上所述，强化学习结合监督微调（RL + SFT）是打造高性能推理模型的关键方法。DeepSeek-R1正是一个绝佳的范例，展示了如何实现这一目标。
知识蒸馏是一种颇具吸引力的方法，尤其适合打造更小、更高效的模型 。不过，它的局限在于，知识蒸馏本身并不能推动创新，也无法催生下一代推理模型。例如，知识蒸馏始终依赖于一个已有的、性能更强的模型来生成监督微调（SFT）数据。

我期待看到的一个有趣趋势是：将强化学习结合监督微调（方法3）与推理时缩放技术（方法1）相结合。这很可能就是OpenAI o1所采用的方案------只不过它所基于的基础模型可能比DeepSeek-R1更弱。这也解释了为什么DeepSeek-R1在推理时表现如此出色，同时成本却相对较低。

6. 关于DeepSeek R1的思考

不少人询问了关于DeepSeek-R1模型的看法。简而言之，它们是一项了不起的成就。他们发布的详尽技术报告，这份报告深入剖析了他们的方法论。其中一个最引人入胜的发现是：纯粹的强化学习竟然能催生出推理这一行为。更令人赞叹的是，DeepSeek已将他们的模型以宽松的MIT开源许可证开放源码，其限制甚至比Meta的Llama模型还要少。

那么，1. 它与o1相比如何呢？

DeepSeek-R1是否比o1更优秀？二者大致处于同一水平。不过，值得注意的是，DeepSeek-R1在推理阶段的效率更高。这表明，DeepSeek可能在训练过程中投入了更多精力，而OpenAI或许更多地依赖于推理阶段的规模扩展来提升o1的表现。

当然，要直接比较o1和DeepSeek-R1其实颇具难度，因为OpenAI并未公开太多关于o1的信息。比如，我们并不清楚：

o1是否也是"专家混合"（MoE）模型？
o1的规模究竟有多大？
o1会不会只是GPT-4o的一个略微改进版本，仅进行了少量强化学习与监督微调，然后主要依靠大规模推理阶段的扩展来实现性能提升？

在缺乏这些关键细节的情况下，直接对比二者仍不免有些"萝卜白菜各有所爱"。

2. DeepSeek-R1的训练成本

另一个讨论焦点是DeepSeek-R1的开发成本。有人提到大约600万美元的训练费用，但他们很可能混淆了DeepSeek-V3（即去年12月发布的基础模型）与DeepSeek-R1。

这一600万美元的估算基于每GPU小时2美元的假设，以及DeepSeek-V3最终训练阶段所需的GPU小时数------这一数字最初于2024年12月便已讨论过。

然而，DeepSeek团队从未公开过R1的确切GPU小时数或开发成本，因此任何成本估算都只是纯粹的推测。

无论如何，归根结底，DeepSeek-R1是开放权重推理模型领域的一个重要里程碑，其在推理时的高效表现使其成为OpenAI o1模型的一个颇具吸引力的替代方案。

7. 在有限预算下开发推理模型

开发一个DeepSeek-R1级别的推理模型，即便从像DeepSeek-V3这样的开放权重基础模型入手，也可能需要数十万到数百万美元。对于预算有限的研究人员或工程师而言，这无疑会让人感到沮丧。

好消息是：知识蒸馏大有可为 。

幸运的是，模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek团队通过他们的R1蒸馏模型证明了这一点：尽管这些模型比DeepSeek-R1小得多，却依然实现了令人惊喜的强劲推理性能。不过，即便是这种方法，也并非完全免费。他们用于蒸馏的过程使用了80万条SFT数据，而这需要大量的计算资源。

有趣的是，在DeepSeek-R1发布前几天，有一篇关于Sky-T1的文章。这是一个引人入胜的项目，由一支小型团队仅用1.7万条SFT数据就训练出了一款开放权重的32B模型。整个项目的总成本竟然只有450美元------甚至低于大多数人工智能会议的注册费用！

这一案例表明，尽管大规模训练仍然成本高昂，但规模较小、针对性更强的微调工作，依然能够以极低的成本取得令人瞩目的成果。

图15：来自文章"Sky-T1：在450美元以内训练您自己的O1预览模型"的图表，https://novasky-ai.github.io/posts/sky-t1/

根据他们的基准测试结果，Sky-T1的表现与o1大致相当，考虑到其训练成本低廉，这一成绩着实令人印象深刻。

预算内的纯强化学习：TinyZero

尽管Sky-T1专注于模型蒸馏，但还发现了一些"纯强化学习"领域中颇具趣味的研究成果。其中一个值得关注的案例是TinyZero，这是一个参数量仅为30亿的模型，它复现了DeepSeek-R1-Zero的方法（顺便一提，它的训练成本不到30美元）。

令人惊讶的是，即使TinyZero的参数量仅有30亿，它仍展现出一些自发的自我验证能力。这进一步印证了这样一个观点：即便在小型模型中，纯粹的强化学习也能催生出推理能力。

TinyZero的仓库提到，相关研究报告目前仍在撰写中，我一定会密切关注后续的详细信息。

图16：来自TinyZero仓库（https://github.com/Jiayi-Pan/TinyZero）的一张图，展示了该模型具备自我验证的能力。（如果能同时看到基础模型的反应，那就更有意思了。）

上述两个项目表明，即使预算有限，也依然可以开展有趣的推理模型研究。尽管这两种方法都借鉴了DeepSeek-R1的思路------一种侧重于纯强化学习（TinyZero），另一种侧重于纯监督微调（Sky-T1），但探索如何进一步拓展这些理念，将是一件令人着迷的事情。

超越传统SFT：旅程式学习（Jounery learning）

有一种特别有趣的思路，相关论文名为《O1复制之旅：战略进展报告------第一部分》。尽管论文标题如此，它其实并未真正复制O1模型。相反，这篇论文提出了一种全新的方法，用于改进蒸馏（纯SFT）过程。论文的核心理念是："旅程式学习"作为一种替代"捷径式学习"的新途径。

所谓**"捷径式学习"（shortcut learning）**，指的是指令微调中的传统方法，即仅使用正确的解题路径对模型进行训练。
而"旅程式学习"则同时纳入了错误的解题路径，让模型能够从错误中汲取经验教训。

这一方法与TinyZero在纯强化学习训练中所展现的自我验证能力有一定关联，但它的重点完全在于通过SFT来提升模型性能。通过让模型接触错误的推理路径及其修正过程，旅程式学习或许还能进一步强化模型的自我纠错能力，从而有望使推理模型变得更加可靠 。

图17：与传统的捷径学习不同，旅程式学习会在SFT数据中包含错误的解题路径。摘自O1复制之旅：战略进展报告------第一部分的注释图表（https://arxiv.org/abs/2410.18982）

这或许会成为未来研究的一个令人振奋的方向，尤其对于低成本推理模型的开发而言，基于强化学习的方法在计算上可能并不切实际。

总之，目前推理模型领域正涌现出大量有趣的研究成果，在未来几个月里还将看到更多激动人心的进展！

该论文还提供了一些关于如何引导推理模型的见解：

(1) 零样本提示的表现优于少样本提示 ------他们的大量测试表明，与传统大型语言模型的最佳实践相反，少样本提示会持续降低模型性能。

(2) 直接描述问题更胜一筹 ------当用户仅简单陈述问题并明确指定输出格式时，模型的表现最佳，避免了复杂的提示模式。

(3) 语言一致性至关重要------在整个提示中使用同一种语言至关重要，因为当提示中混用多种语言时，模型在推理链中可能会出现语言混用的情况。

内容来源

Understanding Reasoning LLMs