【重磅AI论文】DeepSeek-R1：通过强化学习激励大语言模型（LLMs）的推理能力

摘要：我们推出了第一代推理模型------DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个未经监督微调（SFT）作为初步步骤，直接通过大规模强化学习（RL）训练的模型，展现出了非凡的推理能力。通过强化学习，DeepSeek-R1-Zero自然地展现出了众多强大且有趣的推理行为。然而，它也面临着可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，它在强化学习之前融入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区，我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1蒸馏出的六个密集模型（1.5B、7B、8B、14B、32B、70B）。Huggingface链接：Paper page，论文链接：2501.12948

1. 引言

1.1 大语言模型的发展

近年来，大语言模型（LLMs）经历了快速迭代和进化，逐步缩小了与通用人工智能（AGI）之间的差距。特别是在推理能力方面，OpenAI的o1系列模型首次引入了推理时扩展（inference-time scaling），通过增加链式思考（Chain-of-Thought, CoT）推理过程的长度，显著提高了在各种推理任务（如数学、编码和科学推理）上的性能。然而，如何在测试时有效地扩展模型性能仍然是一个开放性问题。

1.2 研究背景与动机

尽管先前的研究探索了多种方法，如基于过程的奖励模型、强化学习和搜索算法（如蒙特卡洛树搜索和束搜索），但这些方法均未能在推理性能上达到与OpenAI o1系列模型相当的水平。本文旨在通过纯粹的强化学习（RL）来探索LLMs发展推理能力的潜力，重点关注模型在强化学习过程中的自我进化。

2. 方法

2.1 概述

本文提出了两种推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个未经过监督微调（SFT）直接通过大规模强化学习训练的模型，展现了强大的推理能力。然而，它也面临可读性差和语言混杂等挑战。为了解决这些问题，DeepSeek-R1在强化学习之前融入了多阶段训练和冷启动数据，进一步提升了推理性能。

2.2 DeepSeek-R1-Zero：在基础模型上的强化学习

2.2.1 强化学习算法

为了节省训练成本，DeepSeek-R1-Zero采用了组相对策略优化（GRPO）算法。该算法避免了使用与策略模型大小相同的评论家模型，而是从组分数中估计基线。具体地，对于每个问题q，GRPO从旧策略πθold中采样一组输出{o1, o2, ..., oG}，然后通过最大化以下目标来优化策略模型πθ：

其中，ε和β是超参数，Ai是优势函数，通过一组奖励{r1, r2, ..., rG}计算得出。

2.2.2 奖励建模

训练DeepSeek-R1-Zero时，采用了一种基于规则的奖励系统，主要包括准确性奖励和格式奖励。准确性奖励用于评估响应的正确性，而格式奖励则强制模型在<think>和</think>标签之间放置其思考过程。

2.2.3 训练模板

为了训练DeepSeek-R1-Zero，设计了一个简单的模板，要求模型首先产生一个推理过程，然后给出最终答案。这种结构化的格式限制有助于准确观察模型在强化学习过程中的自然进展。

2.2.4 性能与自我进化过程

在强化学习训练过程中，DeepSeek-R1-Zero在AIME2024基准测试上的性能稳步提升，平均pass@1分数从初始的15.6%提高到71.0%，达到了与OpenAI-o1-0912相当的性能水平。此外，模型还展现出了自我反思和探索替代解决方案等复杂推理行为。

2.3 DeepSeek-R1：带有冷启动的强化学习

2.3.1 冷启动

为了防止强化学习训练早期的不稳定阶段，DeepSeek-R1在强化学习之前收集了大量长链式思考数据来微调DeepSeek-V3-Base模型。这些数据通过少样本提示、模型生成详细答案并进行反思和验证等方式收集，并由人类注释器进行后处理。

2.3.2 面向推理的强化学习

在冷启动数据微调后，对DeepSeek-V3-Base模型应用与DeepSeek-R1-Zero相同的强化学习训练过程。此阶段重点增强模型在推理密集型任务（如编码、数学、科学和逻辑推理）上的推理能力。

2.3.3 拒绝采样与监督微调

当面向推理的强化学习收敛时，利用该检查点收集监督微调（SFT）数据以进行后续训练。这些数据包括通过拒绝采样从强化学习检查点生成的推理轨迹以及来自DeepSeek-V3在其他领域（如写作、事实型问答和自我认知）的监督数据。然后，使用这些数据对DeepSeek-V3-Base模型进行两个周期的微调。

2.3.4 面向所有场景的强化学习

为了进一步使模型与人类偏好对齐，实施了一个次级强化学习阶段，旨在提高模型的实用性和无害性，同时细化其推理能力。此阶段使用了多种奖励信号和多样化的提示分布。

2.4 蒸馏：赋予小型模型推理能力

为了将DeepSeek-R1的推理能力赋予更高效的小型模型，我们使用DeepSeek-R1生成的800k样本对基于Qwen和Llama的开源模型进行微调。实验结果表明，这种直接的蒸馏方法显著增强了小型模型的推理能力。

3. 实验

3.1 DeepSeek-R1评估

在MMLU、MMLU-Pro、GPQA Diamond等基准测试上，DeepSeek-R1展现出了优异的性能，特别是在STEM相关问题上的准确性显著提升。此外，在编码算法任务（如LiveCodeBench和Codeforces）上，DeepSeek-R1也表现出色。

3.2 蒸馏模型评估

通过蒸馏DeepSeek-R1，我们得到了多个具有强大推理能力的小型密集模型。这些模型在AIME2024、MATH-500等基准测试上的性能显著优于非推理模型，甚至超过了某些大型模型的性能。

4. 讨论

4.1 蒸馏与强化学习的比较

实验结果表明，通过蒸馏更强大的模型到小型模型中，可以获得出色的性能。相比之下，小型模型仅依赖本文中提到的大规模强化学习训练需要巨大的计算资源，并且可能无法达到蒸馏的性能。然而，蒸馏策略虽然经济有效，但要超越智能的界限可能仍然需要更强大的基础模型和更大规模的强化学习。

4.2 不成功的尝试

在早期开发DeepSeek-R1的过程中，我们也遇到了一些失败和挫折。例如，过程奖励模型（PRM）在实践中存在难以明确定义一般推理的细粒度步骤、确定当前中间步骤的正确性具有挑战性以及容易导致奖励黑客等问题。此外，蒙特卡洛树搜索（MCTS）在扩展到大规模训练时也遇到了搜索空间过大和价值模型训练困难等挑战。

5. 结论、局限性与未来工作

5.1 结论

本文介绍了通过强化学习增强LLMs推理能力的方法，并推出了DeepSeek-R1-Zero和DeepSeek-R1两个模型。DeepSeek-R1-Zero通过纯粹的强化学习展现出了强大的推理能力，而DeepSeek-R1则通过融入多阶段训练和冷启动数据进一步提升了性能。此外，我们还通过蒸馏技术将DeepSeek-R1的推理能力赋予了小型密集模型。

5.2 局限性

尽管DeepSeek-R1在多个基准测试上表现出了优异的性能，但它仍然存在一些局限性。例如，在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力仍然不足。此外，模型目前主要针对中文和英文进行了优化，在处理其他语言查询时可能会出现语言混杂问题。

5.3 未来工作

为了克服这些局限性并进一步提升模型的性能，我们计划在未来探索如何利用长链式思考来增强模型在其他领域的能力。同时，我们还将致力于解决语言混杂问题，并优化模型的提示工程以提高其对不同提示的鲁棒性。此外，我们还将研究如何在软件工程任务中更有效地应用大规模强化学习。