DeepSeek-R1 技术报告精华整理：通过强化学习提升大模型推理能力

董董灿是个攻城狮2025-02-05 15:06

DeepSeek-R1：通过强化学习提升大模型推理能力

介绍

近年来，大语言模型（LLM）快速发展，逐步缩小了与通用人工智能（AGI）之间的差距。后训练（Post-Training）已成为模型训练的重要环节，能提高推理任务的准确性，并对齐社会价值观，同时相比预训练消耗更少的计算资源。

在 DeepSeek-R1 的研究过程中，我们发现，通过强化学习（RL）训练，大模型可以自主学习推理能力，而无需传统的监督微调（SFT）作为先决条件。这一发现为 LLM 推理能力的培养提供了新的方向，同时也表明了 RL 训练可以让模型自然学习链式思维（CoT）策略，解决复杂问题。

主要贡献

大规模强化学习训练
- 直接在基础模型上应用 RL，不依赖 SFT，让模型能自主学习推理能力。
- DeepSeek-R1-Zero 具备自我验证、反思能力，并能生成长推理链，这标志着研究领域的重大突破。
- 这是首个验证"LLM 的推理能力可以完全通过 RL 训练"的开源研究。
改进的训练流程
- 训练流水线包括两个 RL 阶段和两个 SFT 阶段。
- RL 负责发现更优的推理模式并对齐人类偏好，而 SFT 作为模型推理和非推理能力的基础。
- 这一训练方式有助于打造更强的 AI 模型。
蒸馏：让小模型也具备强推理能力
- 证明了大模型的推理能力可以"蒸馏"到小模型，使其性能优于直接对小模型进行 RL 训练。
- 我们开源了多个蒸馏版本的模型（1.5B、7B、8B、14B、32B、70B），以促进研究社区发展。

训练方法

DeepSeek-R1-Zero：基础模型上的强化学习

强化学习算法
- 采用 Group Relative Policy Optimization（GRPO），减少训练成本，提高训练稳定性。
- 让模型在 RL 过程中自主学习推理能力。
奖励建模
- 准确性奖励：确保数学和编程问题的答案正确。
- 格式奖励：规范模型推理过程，使其更具可读性。
- 该方法不使用神经网络奖励模型，以避免奖励欺骗（Reward Hacking）。
训练模板
- 设计了简单的训练模板，要求模型先输出推理过程，再给出最终答案。
- 这样可以观察模型在 RL 训练中的自然演化。
自我进化过程
- 在 AIME 2024 基准测试中，DeepSeek-R1-Zero 的 Pass@1 从 15.6% 提升至 71.0%。
- 进一步采用多数投票（majority voting）后，准确率可达 86.7%，达到 OpenAI-o1-0912 级别。

DeepSeek-R1：结合冷启动数据的强化学习

冷启动（Cold-Start）
- DeepSeek-R1-Zero 存在可读性差、语言混杂的问题。
- 因此，我们收集了大量高质量的长 CoT 数据，在 RL 之前进行初步微调，以增强推理能力。
推理导向的强化学习
- 训练过程中，引入语言一致性奖励，减少多语言混杂问题。
- 通过强化学习优化模型的数学、编程、科学推理能力。
拒绝采样和监督微调（SFT）
- 在 RL 训练收敛后，我们使用拒绝采样方法生成新的 SFT 数据。
- 新数据涵盖推理、写作、事实问答、角色扮演等任务。
- 最终，我们基于 80 万条训练样本进行微调。
全场景强化学习
- 进一步应用强化学习，使模型在推理、人类偏好对齐方面更强大。
- 结合规则奖励和人类反馈奖励，确保模型既强大又安全。

蒸馏：小模型也能强大

基于 DeepSeek-R1 训练小模型
- 直接对 Qwen 和 Llama 进行微调，显著提升小模型的推理能力。
- 训练数据来自 DeepSeek-R1 生成的 80 万条推理数据。
评测结果
- DeepSeek-R1-Distill-Qwen-32B 在多个基准测试上表现优于 OpenAI-o1-mini。
- 结果表明，蒸馏方法比直接对小模型应用 RL 更有效。

未来工作展望

提升泛化能力
- 改进函数调用、多轮对话、JSON 输出等任务。
- 提升模型对复杂推理任务的适应性。
优化语言混杂问题
- 进一步减少非中英文场景下的语言混用问题。
优化提示工程
- 研究更有效的 Few-Shot 提示方式，以提高推理能力。
提升软件工程任务能力
- 扩大代码 RL 训练数据，提高编程任务表现。

DeepSeek-R1 通过强化学习和蒸馏方法，在推理、数学、编程等领域达到了新的高度，同时也为研究社区提供了丰富的开源资源，推动了大模型推理能力的发展。

我创建了一个《小而精的AI学习圈子》的知识星球，星球上会有非常多高质量的技术专栏分享，同时你也可以在星球向我提问。在星球你还可以学到很多关于 CV 、大模型以及 AIGC 相关的技术，看到别的同学都在如何学习。不要犹豫，戳下面的链接加入吧，这可能是你学习AI 的道路上非常重要的一次点击呀。点击这里，我们星球见！

上一篇：C# List 列表综合运用实例⁓Hypak原始数据处理编程小结

下一篇：51单片机 01 LED

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05Linux下V2Ray安装配置指南 06【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 07在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）08本地部署阿里最新开源的Z-Image 09Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽 1046个Nano-banana 精选提示词，持续更新中