【再读】2501.12948/DeepSeek-R1通过强化学习提升大型语言模型（LLMs）的推理能力

DeepSeek-R1-Zero展示了在没有监督数据的情况下，通过RL可以发展出强大的推理能力。DeepSeek-R1通过引入冷启动数据和多阶段训练，进一步提升了推理性能，达到了与OpenAI-o1-1217相当的水平。此外，通过蒸馏技术，将DeepSeek-R1的推理能力转移到更小的密集模型上，显著提高了这些模型的推理能力。

一、模型介绍

维度	DeepSeek-V3	R1-Zero	DeepSeek-R1
定位	通用基座模型	纯 RL 训练的推理实验模型	多阶段优化的商用推理模型
训练方法	预训练 + SFT	纯强化学习（GRPO 算法）	SFT → RL → SFT → RL与SFT混合训练
数据依赖	通用语料 + 标注数据	数学/代码数据（无需标注）	RL 生成数据 + 人类偏好数据
推理能力	基础问答	强推理但语言混杂	强推理 + 语言规范
可用性	通用场景	实验性（不可直接商用）	全场景适配（工作助手、编程等）

（一）DeepSeek-R1-Zero

训练算法：采用Group Relative Policy Optimization（GRPO）算法，避免使用与策略模型同样大小的批评模型，从组分数估计基线，降低训练成本。
奖励建模：使用基于规则的奖励系统，包括准确性奖励和格式奖励，避免使用可能导致奖励作弊的神经奖励模型。
训练模板：设计引导模型按特定格式输出的模板，要求先产生推理过程，再给出答案，便于观察模型在RL过程中的自然发展。
性能表现：在AIME 2024基准测试中，pass@1分数从15.6%提升到71.0%，经多数投票可提升至86.7%，与OpenAI-o1-0912相当，展现出强大的推理能力。同时，模型在训练过程中自发出现反思、探索替代方法等复杂推理行为。

（二）DeepSeek-R1

冷启动：收集数千个长思维链（CoT）数据对DeepSeek-V3-Base模型进行微调，解决DeepSeek-R1-Zero可读性差和语言混合问题，为后续RL训练提供更好起点。
推理导向的强化学习：应用与DeepSeek-R1-Zero相同的大规模RL训练过程，引入语言一致性奖励缓解语言混合问题，结合推理任务准确性和语言一致性奖励形成最终奖励，训练模型直至推理任务收敛。
拒绝采样和监督微调 ：在推理导向的RL收敛后，通过拒绝采样从RL检查点收集推理数据，结合其他领域数据（如写作、事实性问答等）对模型进行监督微调，扩展模型能力。
全场景强化学习 ：进行二次RL训练，使用奖励信号和多样的提示分布，使模型在推理能力提升的同时，更符合人类偏好，优先考虑对用户的帮助性和无害性。

（三）模型蒸馏

使用DeepSeek-R1生成的800k样本对Qwen和Llama系列开源模型进行微调，将大模型的推理模式转移到小模型。实验表明，蒸馏后的小模型在推理任务上表现出色，如DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的成绩超越QwQ-32B-Preview。

二、实验与结果

（一）实验设置

基准测试：使用MMLU、AIME 2024、LiveCodeBench等多种基准测试，涵盖推理、知识、编码等多个领域，全面评估模型性能。
评估提示：针对不同基准测试采用相应的提示设置，如MMLU使用simpleevals框架提示，MMLU-Redux采用Zero-Eval提示格式等。
基线模型：与DeepSeek-V3、Claude-Sonnet-3.5-1022等多个强大的基线模型进行对比。
评估方法：设置最大生成长度为32,768令牌，采用pass@k评估方法，使用非零温度（如采样温度0.6和top-P值0.95）生成多个响应计算pass@1分数，对AIME 2024还报告共识（多数投票）结果。

（二）实验结果

DeepSeek-R1评估：在教育知识基准测试（如MMLU、MMLU-Pro）、编码任务（如LiveCodeBench、Codeforces）和数学任务（如AIME 2024、MATH-500）中，DeepSeek-R1表现优异，与OpenAI-o1-1217相当甚至在部分任务上超越。在处理事实性查询和遵循格式指令方面也优于DeepSeek-V3，但在某些中文基准测试中因安全RL导致表现稍逊。
蒸馏模型评估：蒸馏后的小模型在推理任务上性能突出，DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越GPT-4o和Claude-3.5-Sonnet，DeepSeek-R1-Distill-Qwen-14B在所有评估指标上超越QwQ-32B-Preview。

三、技术对比与反思

（一）蒸馏与强化学习对比

实验表明，蒸馏更强大的模型到小模型能取得优异结果，而小模型直接进行大规模RL训练需要巨大计算资源，且性能不如蒸馏模型。但要突破智能边界，仍需更强大的基础模型和大规模RL训练。

（二）不成功的尝试

过程奖励模型（PRM）：PRM虽能指导模型解决推理任务，但在定义推理步骤、判断中间步骤正确性和避免奖励作弊方面存在困难，在大规模RL训练中计算成本过高。
蒙特卡洛树搜索（MCTS）：受AlphaGo启发尝试使用MCTS提升测试时间计算可扩展性，但在训练中遇到搜索空间过大、模型易陷入局部最优和价值模型训练困难等问题。

论文评价

优点与创新

纯强化学习的突破：DeepSeek-R1-Zero是第一个通过纯强化学习（RL）而不依赖监督微调（SFT）来提升语言模型推理能力的模型，标志着在这一领域迈出了重要一步。
多阶段训练管道：DeepSeek-R1引入了一个包含两个RL阶段和两个SFT阶段的多阶段训练管道，旨在发现改进的推理模式并符合人类偏好。
冷启动数据的利用：通过引入冷启动数据，DeepSeek-R1在接近RL收敛时，通过拒绝采样生成SFT数据，并结合DeepSeek-V3的监督数据进行再训练，显著提升了推理性能。
知识蒸馏：展示了从DeepSeek-R1向更小模型的知识蒸馏过程，证明了较大模型的推理模式对小模型的性能提升至关重要。
广泛的任务评估：在多个基准测试上进行了广泛的评估，包括MMLU、DROP、GPQA Diamond、SimpleQA等，展示了DeepSeek-R1在不同任务上的强大能力。
自演化过程的可视化：通过图表展示了DeepSeek-R1-Zero在AIME 2024基准上的性能轨迹，揭示了其自我演化和"顿悟"时刻。

不足与反思

可读性问题：DeepSeek-R1-Zero在可读性方面存在挑战，响应内容可能混合多种语言或缺乏Markdown格式。
语言混合问题：在处理非英语或非中文查询时，DeepSeek-R1可能会使用英语进行推理和响应，导致语言混合问题。
提示工程敏感性：DeepSeek-R1对提示非常敏感，少量提示会显著降低其性能，建议用户直接描述问题并使用零样本设置指定输出格式。
软件工程任务的挑战：由于评估时间长，影响了RL过程的效率，DeepSeek-R1在软件工程任务上未能显著超越DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在RL过程中引入异步评估来提高效率。

参考：

图片来自：https://zhuanlan.zhihu.com/p/22095237738