机器学习-DeepSeekR1

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

摘要

我们推出了首代推理模型DeepSeek-R1-Zero和DeepSeek-R1。作为基础训练阶段，DeepSeek-R1-Zero通过大规模强化学习（RL）训练，无需监督微调（SFT），展现出卓越的推理能力。通过强化学习，该模型自然形成了诸多强大且引人入胜的推理行为。然而，其存在可读性差、语言混杂等挑战。为解决这些问题并进一步提升推理性能，我们推出了采用多阶段训练和冷启动数据的DeepSeek-R1。DeepSeek-R1在推理任务上的表现可与OpenAI-o1-1217相媲美。为支持学术研究，我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1提炼的六个密集模型（1.5B、7B、8B、14B、32B、70B）。

一、介绍

近年来，后训练已成为完整训练流程中的重要组成部分。研究表明，相较于预训练，后训练在推理任务中能显著提升准确率，同时与社会价值观保持一致，并能适应用户偏好，且所需计算资源相对较少。在推理能力领域，OpenAI的o1（OpenAI ，2024b）系列模型率先通过延长思维链推理过程实现了推理时长的扩展。该方法在数学、编程和科学推理等各类任务中均取得显著提升，但如何有效扩展测试时长仍是学界待解难题。既往研究已尝试多种方法，包括基于过程的奖励模型（Lightman 等，2023； Uesato 等，2022； Wang 等，2023）、强化学习（Kumar 等，2024），以及蒙特卡洛树搜索和束搜索等算法（Feng 等，2024； Trinh 等，2024； Xin 等，2024）。然而，这些方法均未能达到OpenAI o1系列模型的通用推理性能。

本文首次尝试通过纯强化学习（RL）提升语言模型的推理能力。我们的目标是探索大型语言模型（LLMs）在无监督数据条件下发展推理能力的潜力，重点关注其通过纯强化学习过程实现自我进化。具体而言，我们以DeepSeek-V3-Base作为基础模型，并采用强化学习框架 GRPO（Shao 等人，2024）来提升模型的推理性能。训练过程中，DeepSeek-R1-Zero自然涌现出诸多强大且有趣的推理行为。经过数千次强化学习迭代后，DeepSeek-R1-Zero在推理基准测试中展现出卓越表现。例如，在AIME 2024竞赛中，其pass@1得分从15.6%跃升至71.0%，通过多数投票机制后，该分数进一步提升至86.7%，与OpenAI-o1-0912的性能持平。

然而，DeepSeek-R1-Zero在可读性差和语言混杂等问题上仍存在挑战。为解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，该模型融合了少量冷启动数据和多阶段训练流程。具体而言，我们首先收集数千条冷启动数据对DeepSeek-V3-Base模型进行微调，随后采用类似DeepSeek-R1-Zero的推理导向强化学习方法。在强化学习过程接近收敛时，我们通过在RL检查点进行拒绝采样生成新 SFT 数据，并结合DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据，重新训练DeepSeek-V3-Base模型。在使用新数据完成微调后，检查点会经历额外的强化学习过程，同时整合所有场景的提示信息。经过这些步骤，我们最终获得名为DeepSeek-R1的检查点，其性能与OpenAI-o1-1217不相上下。

我们进一步探索了从DeepSeek-R1到小型密集模型的蒸馏技术。以Qwen2.5-32B（Qwen ，2024b）作为基础模型时，直接蒸馏DeepSeek-R1的表现优于在其上应用强化学习。这表明大型基础模型发现的推理模式对提升推理能力至关重要。我们开源了蒸馏后的Qwen和Llama（Dubey 等，2024）系列模型。值得注意的是，我们的蒸馏14B模型以显著优势超越了当前最先进的开源QwQ-32B-Preview（Qwen ，2024a），而蒸馏的32B和70B模型在密集模型推理基准测试中创造了新纪录。

1.1 贡献

后训练:基于基模型的大规模强化学习

我们直接将强化学习（RL）应用于基础模型，无需依赖监督微调（SFT）作为前期步骤。

这种方法使模型能够探索解决复杂问题的思维链（CoT），从而开发出DeepSeek-R1-Zero。

DeepSeek-R1-Zero展现出自我验证、反思及生成长篇思维链等能力，为研究界树立了重要里程碑。值得注意的是，这是首个公开研究验证了大型语言模型（LLMs）的推理能力完全可以通过强化学习激励获得，无需依赖 SFT 。这一突破为该领域的未来发展铺平了道路。

我们介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段，旨在发现更优的推理模式并符合人类偏好，以及两个 SFT 阶段，作为模型推理与非推理能力的种子。我们相信该流程将通过创建更优模型造福行业。

蒸馏:小模型也能大作为

我们证明，大型模型的推理模式可以被提炼为小型模型，其性能优于通过小模型强化学习（RL）发现的推理模式。开源模型DeepSeek-R1及其API将助力研究社区在未来提炼更优的小型模型。• 利用DeepSeek-R1生成的推理数据，我们对研究界广泛使用的多个密集模型进行了微调。评估结果表明，提炼后的小型密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上取得55.5%的分数，超越QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上获得72.6%的分数，在MATH-500上达到94.3%，在LiveCodeBench上取得57.2%的分数。这些结果显著超越了先前的开源模型，与o1-mini相当。我们基于Qwen2.5和Llama3系列，向社区开源了1.5B、7B、8B、14B、32B和70B的检查点。

二、方法

2.1 概念

既往研究主要依赖海量监督数据来提升模型性能。本研究证明，即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也能显著增强推理能力。更进一步，仅需少量冷启动数据即可实现性能提升。在后续章节中，我们将展示：(1)DeepSeek-R1-Zero------直接将强化学习应用于基础模型且无需任何 SFT 数据；(2)DeepSeek-R1------基于数千个长链式思维（CoT）示例微调的检查点启动强化学习；(3)将DeepSeek-R1的推理能力提炼至小型密集模型。

2.2 深度学习-R1-Zero: 基于基础模型的强化学习

强化学习在推理任务中展现出显著效果，这在我们先前的研究中已得到验证（Shao 等人，2024； Wang 等人，2023）。然而，这些研究高度依赖监督数据，而这类数据的收集往往耗时费力。本节我们将探讨大型语言模型（LLMs）在无监督数据条件下发展推理能力的潜力，重点研究其通过纯强化学习过程实现自我进化。首先简要介绍我们的强化学习算法，随后展示若干突破性成果，期待为学界提供有价值的洞见。

2.2.1强化式学习算法

Group Relative Policy Optimization：

为降低强化学习（RL）的训练成本，我们采用群体相对策略优化（GRPO）（Shao 等，2024），该方法摒弃了通常与策略模型规模相同的评估模型，转而通过群体评分估算基准线。具体而言，对于每个问题 𝑞 ， GRPO 从旧策略 𝜋𝜃𝑜𝑙𝑑 中采样一组输出{ 𝑜1 ，𝑜2 ，···，𝑜𝐺 }，然后通过最大化以下目标函数来优化策略模型 𝜋𝜃 ：

其中 𝜀 和 𝛽 是超参数， 𝐴𝑖 是优势值，通过一组奖励{ 𝑟1 ，𝑟2，... ，𝑟𝐺 }计算得出，这些奖励对应于每个组内的输出结果：

2.2.2 奖励模型

奖励是训练信号的来源，决定了强化学习（RL）的优化方向。为训练DeepSeek-R1-Zero，我们采用了一种基于规则的奖励系统，该系统主要包含两种类型的奖励：

准确性奖励机制：该机制通过评估响应是否正确来实现奖励。例如，在数学题具有确定性结果的情况下，模型需以指定格式（如方框内）呈现最终答案，从而实现基于规则的正确性验证。类似地，针对LeetCode题目，可利用编译器根据预设测试用例生成反馈。

格式奖励模型：除准确性奖励模型外，我们还采用了一种格式奖励模型，该模型强制要求模型将其思考过程置于'（思考）'和'（/思考）'标签之间。

我们在开发DeepSeek-R1-Zero时未采用结果或过程神经奖励模型，因为发现该模型在大规模强化学习过程中可能遭受奖励黑客攻击，且重新训练奖励模型需要额外的训练资源，还会使整个训练流程复杂化。

2.2.3训练模板

在训练DeepSeek-R1-Zero时，我们首先设计了一个简单的模板来引导基础模型遵循既定指令。如表1所示，该模板要求DeepSeek-R1-Zero先生成推理过程，再输出最终答案。我们特意将约束条件限定在这一结构框架内，避免引入任何特定内容的偏见------比如强制要求反思性推理或推崇特定解题策略------从而确保在强化学习过程中能准确观察到模型的自然演进过程。

2.2.4. DeepSeek-R1-Zero的性能、自我进化过程与顿悟时刻

DeepSeek-R1-Zero的自我进化历程堪称人工智能领域的典范，生动展现了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型启动强化学习，我们无需经过监督微调阶段，就能实时追踪模型的演进轨迹。这种研究方法清晰呈现了模型随时间推移的进化过程，尤其在处理复杂推理任务时展现出的显著进步。

这种改进并非源于外部调整，而是模型自身内在发展的结果。DeepSeek-R1-Zero通过利用扩展的测试时间计算，自然掌握了解决日益复杂推理任务的能力。这种计算方式涵盖从生成数百到数千个推理标记的范围，使模型能够更深入地探索和优化其思维过程。

这种自我进化最令人惊叹的特征之一，是随着测试时间计算量的增加，复杂行为模式会自发涌现。诸如模型会回溯并重新评估先前步骤的反思行为，以及探索问题解决替代方案的探索行为，都是自然形成的。这些行为并非通过明确编程实现，而是源于模型与强化学习环境的交互作用。这种自发性发展显著提升了DeepSeek-R1-Zero的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

在训练DeepSeek-R1-Zero的过程中，一个特别引人注目的现象是"顿悟时刻"的出现。如表3所示，这种现象出现在模型的中间版本阶段。在此阶段，DeepSeek-R1-Zero通过重新评估初始策略，学会了为问题分配更多思考时间。这种行为不仅证明了模型推理能力的提升，更生动展现了强化学习如何带来意想不到的复杂成果。

这一时刻不仅是模型的"顿悟时刻"，更是观察者研究者理解其行为的关键节点。它生动展现了强化学习的神奇之处：我们无需手把手教模型解决问题，只需提供恰当的激励机制，它就能自主开发出高阶的解题策略。这个"顿悟时刻"有力印证了强化学习的潜力------它能为人工智能系统解锁全新智能维度，为未来打造更自主、更适应性强的智能模型铺平道路。

DeepSeek-R1-Zero的局限性尽管DeepSeek-R1-Zero展现出强大的推理能力，并能自主开发出出人意料且强大的推理行为，但它仍存在若干问题。例如，DeepSeek-R1-Zero在可读性差和语言混杂等挑战中表现不佳。为提升推理过程的可读性并将其分享给开放社区，我们探索了DeepSeek-R1这一方法，该方法利用人类友好的冷启动数据进行强化学习（RL）。

2.3 DeepSeek-R1: 基于冷启动的强化学习

DeepSeek-R1-Zero取得的亮眼成果引发我们两个核心思考：1）能否通过少量高质量数据作为冷启动，进一步提升推理性能或加速收敛速度？2）如何训练出既生成清晰连贯的思维链（CoT），又具备强大通用能力的易用模型？为解决这些问题，我们设计了DeepSeek-R1的训练流程，该流程包含以下四个阶段。

2.3.1 冷启动

与DeepSeek-R1-Zero不同，为避免基础模型在强化学习训练初期出现不稳定冷启动现象，我们为DeepSeek-R1构建并收集了少量长CoT数据作为初始强化学习模型的微调数据。在数据收集过程中，我们尝试了多种方法：例如采用少样本提示结合长CoT的策略，直接引导模型生成包含反思与验证的详细答案，将DeepSeek-R1-Zero的输出以可读格式整理，以及通过人工标注者的后处理对结果进行优化。

本研究中，我们收集了数千条冷启动数据，用于微调DeepSeek-V3-Base作为强化学习（RL）的起始点。与DeepSeek-R1-Zero相比，冷启动数据的优势可读性：DeepSeek-R1-Zero的一个主要局限在于其内容往往难以阅读。其回复可能混用多种语言，或缺乏用于突出显示答案的Markdown格式。相比之下，在为DeepSeek-R1创建冷启动数据时，我们设计了一种可读模式，即在每个回复末尾添加摘要，并过滤掉不便于阅读的回复。在此，我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>，，其中推理过程作为查询的CoT（概念验证），摘要则用于概括推理结果。

潜力：通过精心设计带有先验知识的冷启动数据模式，我们观察到其在对抗DeepSeek-R1-Zero时表现更优。我们认为迭代训练是推理模型的更优方法。

2.3.2推理强化学习

在完成DeepSeek-V3-Base模型的冷启动数据微调后，我们沿用了DeepSeek-R1-Zero中采用的大规模强化学习训练流程。该阶段重点提升模型的推理能力，特别是在编码、数学、科学和逻辑推理等需要严谨论证的任务中，这些任务通常涉及明确问题且存在标准解决方案。训练过程中我们发现，当强化学习提示包含多种语言时，CoT（概念文本）常会出现语言混杂现象。为解决这一问题，我们在训练中引入了语言一致性奖励机制，其计算方式为CoT中目标语言词汇占比。虽然消融实验表明这种对齐方式会导致模型性能轻微下降，但该奖励机制符合人类阅读习惯，能显著提升文本可读性。最终，我们将推理任务准确率与语言一致性奖励直接相加，形成综合奖励机制。随后对微调后的模型进行强化学习训练，直至其在推理任务上达到收敛状态。

2.3.3 拒绝采样和SFT（监督微调）

在推理导向的强化学习收敛时，我们利用生成的检查点收集 SFT（监督微调）数据用于后续训练轮次。与主要聚焦推理的初始冷启动数据不同，此阶段整合了其他领域的数据，以提升模型在写作、角色扮演等通用任务中的表现。具体而言，我们按照下述方法生成数据并进行微调。

推理数据我们通过从上述强化学习训练的检查点进行拒绝采样，精心整理推理提示并生成推理轨迹。在前期阶段，我们仅纳入可基于规则奖励评估的数据。但在此阶段，我们通过整合额外数据扩展了数据集，其中部分数据采用生成式奖励模型，将真实值与模型预测输入DeepSeek-V3进行判断。此外，由于模型输出有时混乱且难以解读，我们已过滤掉包含混合语言、冗长段落和代码块的思维链。针对每个提示，我们采样多个响应并仅保留正确答案。最终共收集约60万条推理相关训练样本。

非推理数据方面，针对写作、事实问答、自我认知和翻译等非推理任务，我们采用DeepSeek-V3的处理流程，并复用其 SFT 数据集的部分内容。对于某些非推理任务，我们会通过提示调用DeepSeek-V3生成潜在的思维链来回答问题。但对于像"hello"这类简单查询，我们不会提供思维链作为回应。最终，我们共收集了约20万条与推理无关的训练样本。

我们使用上述精选的约80万样本数据集对DeepSeek-V3-Base进行两轮微调

2.3.4 强化学习在全场景中的应用

为了进一步优化模型与人类偏好的契合度，我们引入了第二阶段强化学习，旨在提升模型的有用性与无害性，同时精进其推理能力。具体而言，我们采用奖励信号与多样化提示分布相结合的方式训练模型。在推理数据方面，我们沿用DeepSeek-R1-Zero提出的方法论，通过基于规则的奖励机制引导数学、编程和逻辑推理领域的学习过程。对于通用数据，我们采用奖励模型来捕捉人类在复杂微妙场景中的偏好。我们基于DeepSeek-V3的流程架构，采用相似的偏好对分布和训练提示。在有用性评估中，我们专注于最终摘要部分，确保评价重点突出响应对用户的实用性和相关性，同时尽量减少对底层推理过程的干扰。在无害性评估中，我们对模型的完整响应进行评估，包括推理过程和摘要内容，以识别并规避生成过程中可能出现的风险、偏见或有害内容。最终，通过奖励信号与多样化数据分布的整合，我们成功训练出在推理能力上表现优异，同时兼顾有用性与无害性的模型。

2.4 蒸馏:赋予小型模型推理能力

为使更高效的微型模型具备类似DeepSeek-R1的推理能力，我们直接使用DeepSeek-R1整理的80万样本（详见第2.3.3节），对开源模型Qwen（Qwen ，2024b）和Llama（AI@Meta，2024）进行微调。研究结果表明，这种直接蒸馏方法能显著提升小型模型的推理能力。本研究采用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。选择Llama-3.3是因为其推理能力略优于Llama-3.1。

对于蒸馏模型，我们仅采用 SFT 而未加入强化学习阶段，尽管引入强化学习能大幅提升模型性能。本研究的主要目标是验证蒸馏技术的有效性，将强化学习阶段的探索留给更广泛的研究群体。

四、讨论

4.1 蒸馏与强化学习

如第3.2节所示，通过蒸馏DeepSeek-R1，该小型模型可取得显著成果。但仍有疑问：若不采用蒸馏技术，仅通过论文所述的大规模强化学习训练，该模型能否达到同等性能？

为解答该问题，我们基于数学、编程及STEM数据对Qwen-32B-Base进行大规模强化学习训练，经过超过1万步迭代后，最终获得DeepSeek-R1-Zero-Qwen-32B模型。如表6所示的实验结果表明，该32B基础模型在大规模训练后，在强化学习训练方面，DeepSeek-R1-Distill-Qwen-32B的性能与QwQ-32B-Preview旗鼓相当。然而，从DeepSeek-R1衍生的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中均显著优于DeepSeek-R1-Zero-Qwen-32B。由此我们得出两个重要结论：首先，将更强大的模型蒸馏成更小规模的模型能取得优异效果，而依赖本文所述大规模强化学习的小型模型不仅需要消耗海量计算资源，其性能甚至可能不及蒸馏模型。其次，尽管蒸馏策略兼具经济性和高效性，但要突破智能边界仍需更强大的基础模型和更大规模的强化学习体系。

4.2 未成功的尝试

在开发DeepSeek-R1的早期阶段，我们也遭遇了失败与挫折。本文分享这些失败经验以提供启示，但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型（PRM）是一种合理的方法，可引导模型采用更优的推理任务解决方案（Lightman 等，2023； Uesato 等，2022； Wang 等，2023）。然而在实际应用中，PRM存在三大主要局限性，可能阻碍其最终成功。首先，通用推理中难以明确定义细粒度步骤。其次，判断当前中间步骤是否正确是一项挑战性任务。使用模型进行自动化标注可能无法获得满意结果，而人工标注又不利于规模化扩展。第三，一旦引入基于模型的PRM，必然导致奖励黑客攻击（Gao 等，2022），且重新训练奖励模型需要额外的训练资源，使整个训练流程复杂化。综上所述，尽管PRM在模型生成的前N个响应重排序或辅助引导搜索方面表现出色（Snell 等，2024），但相较于我们在实验中发现的大规模强化学习过程中引入的额外计算开销，其优势仍显有限。

蒙特卡洛树搜索（MCTS）受AlphaGo（Silver 等人，2017b）和AlphaZero（Silver 等人，2017a）启发，我们探索了利用蒙特卡洛树搜索（MCTS）提升测试时计算可扩展性的方法。该方法通过将答案拆分为更小部分，使模型能够系统性地探索解空间。为此，我们引导模型生成多个对应搜索所需特定推理步骤的标签。在训练阶段，我们首先利用预训练的价值模型引导 MCTS ，通过收集的提示寻找答案。随后，我们利用生成的问题-答案对同时训练行为模型和价值模型，通过迭代优化流程。

然而，这种训练方法在扩大规模时面临多重挑战。首先，与国际象棋中相对明确的搜索空间不同，生成标记需要处理指数级增长的搜索空间。为解决这一问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优。其次，价值模型直接影响生成质量，因为它指导着搜索过程的每一步。训练精细的价值模型本身具有固有难度，这使得模型难以通过迭代优化提升性能。虽然AlphaGo的核心成功依赖于通过训练价值模型逐步提升表现，但由于生成标记的复杂性，这一原理在我们的设置中难以复现。总之，虽然 MCTS 在与预训练价值模型配合时能提升推理性能，但通过自搜索迭代提升模型表现仍是重大挑战。

五、总结

本研究通过强化学习提升模型推理能力的探索历程。DeepSeek-R1-Zero采用纯强化学习方法，无需冷启动数据即可在各类任务中表现优异。而DeepSeek-R1则更加强大，通过结合冷启动数据与迭代式强化学习微调，最终在多项任务上的表现与OpenAI-o1-1217不相上下。

我们进一步探索了蒸馏技术对小型密集模型推理能力的提升。以DeepSeek-R1作为教师模型生成80万训练样本，并对多个小型密集模型进行微调。实验结果令人振奋：在数学基准测试中，DeepSeek-R1-Distill-Qwen-1.5B在AIME数学测试中表现优于GPT-4o，在MATH数学测试中表现优于Claude-3.5-Sonnet，分别达到28.9%和83.9%的分数。其他密集模型同样取得亮眼成绩，其表现显著超越基于相同底层检查点的其他指令调优模型。

在未来的发展上需要关注：

通用能力：目前，DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的表现仍不及DeepSeek-V3。未来，我们将探索如何利用CoT来提升这些领域的任务表现。

语言混用：DeepSeek-R1当前仅支持中文和英文，当处理其他语言的查询时，可能会出现语言混用问题。例如，即使查询语言不是英文或中文，DeepSeek-R1仍可能使用英文进行推理和回应。我们计划在后续更新中解决这一局限性。

提示工程：在评估DeepSeek-R1时，我们发现其对提示敏感。少量提示会持续降低其性能。因此，我们建议用户直接描述问题，并使用零样本设置指定输出格式以获得最佳结果。

软件工程任务：由于评估耗时过长影响强化学习（RL）效率，大规模RL尚未在软件工程任务中得到广泛应用。因此，DeepSeek-R1在软件工程基准测试中并未展现出比DeepSeek-V3显著的性能提升。未来版本将通过在软件工程数据中实施拒绝采样，或在强化学习过程中引入异步评估机制来提升效率，从而解决这一问题。