DeepSeek-R1 技术报告精华整理:通过强化学习提升大模型推理能力

DeepSeek-R1:通过强化学习提升大模型推理能力

介绍

近年来,大语言模型(LLM)快速发展,逐步缩小了与通用人工智能(AGI)之间的差距。后训练(Post-Training)已成为模型训练的重要环节,能提高推理任务的准确性,并对齐社会价值观,同时相比预训练消耗更少的计算资源。

在 DeepSeek-R1 的研究过程中,我们发现,通过强化学习(RL)训练,大模型可以自主学习推理能力,而无需传统的监督微调(SFT)作为先决条件。这一发现为 LLM 推理能力的培养提供了新的方向,同时也表明了 RL 训练可以让模型自然学习链式思维(CoT)策略,解决复杂问题。

主要贡献

  1. 大规模强化学习训练

    • 直接在基础模型上应用 RL,不依赖 SFT,让模型能自主学习推理能力。
    • DeepSeek-R1-Zero 具备自我验证、反思能力,并能生成长推理链,这标志着研究领域的重大突破。
    • 这是首个验证"LLM 的推理能力可以完全通过 RL 训练"的开源研究。
  2. 改进的训练流程

    • 训练流水线包括两个 RL 阶段和两个 SFT 阶段。
    • RL 负责发现更优的推理模式并对齐人类偏好,而 SFT 作为模型推理和非推理能力的基础。
    • 这一训练方式有助于打造更强的 AI 模型。
  3. 蒸馏:让小模型也具备强推理能力

    • 证明了大模型的推理能力可以"蒸馏"到小模型,使其性能优于直接对小模型进行 RL 训练。
    • 我们开源了多个蒸馏版本的模型(1.5B、7B、8B、14B、32B、70B),以促进研究社区发展。

训练方法

DeepSeek-R1-Zero:基础模型上的强化学习

  1. 强化学习算法

    • 采用 Group Relative Policy Optimization(GRPO),减少训练成本,提高训练稳定性。
    • 让模型在 RL 过程中自主学习推理能力。
  2. 奖励建模

    • 准确性奖励:确保数学和编程问题的答案正确。
    • 格式奖励:规范模型推理过程,使其更具可读性。
    • 该方法不使用神经网络奖励模型,以避免奖励欺骗(Reward Hacking)。
  3. 训练模板

    • 设计了简单的训练模板,要求模型先输出推理过程,再给出最终答案。
    • 这样可以观察模型在 RL 训练中的自然演化。
  4. 自我进化过程

    • 在 AIME 2024 基准测试中,DeepSeek-R1-Zero 的 Pass@1 从 15.6% 提升至 71.0%。
    • 进一步采用多数投票(majority voting)后,准确率可达 86.7%,达到 OpenAI-o1-0912 级别。

DeepSeek-R1:结合冷启动数据的强化学习

  1. 冷启动(Cold-Start)

    • DeepSeek-R1-Zero 存在可读性差、语言混杂的问题。
    • 因此,我们收集了大量高质量的长 CoT 数据,在 RL 之前进行初步微调,以增强推理能力。
  2. 推理导向的强化学习

    • 训练过程中,引入语言一致性奖励,减少多语言混杂问题。
    • 通过强化学习优化模型的数学、编程、科学推理能力。
  3. 拒绝采样和监督微调(SFT)

    • 在 RL 训练收敛后,我们使用拒绝采样方法生成新的 SFT 数据。
    • 新数据涵盖推理、写作、事实问答、角色扮演等任务。
    • 最终,我们基于 80 万条训练样本进行微调。
  4. 全场景强化学习

    • 进一步应用强化学习,使模型在推理、人类偏好对齐方面更强大。
    • 结合规则奖励和人类反馈奖励,确保模型既强大又安全。

蒸馏:小模型也能强大

  1. 基于 DeepSeek-R1 训练小模型

    • 直接对 Qwen 和 Llama 进行微调,显著提升小模型的推理能力。
    • 训练数据来自 DeepSeek-R1 生成的 80 万条推理数据。
  2. 评测结果

    • DeepSeek-R1-Distill-Qwen-32B 在多个基准测试上表现优于 OpenAI-o1-mini。
    • 结果表明,蒸馏方法比直接对小模型应用 RL 更有效。

未来工作展望

  1. 提升泛化能力

    • 改进函数调用、多轮对话、JSON 输出等任务。
    • 提升模型对复杂推理任务的适应性。
  2. 优化语言混杂问题

    • 进一步减少非中英文场景下的语言混用问题。
  3. 优化提示工程

    • 研究更有效的 Few-Shot 提示方式,以提高推理能力。
  4. 提升软件工程任务能力

    • 扩大代码 RL 训练数据,提高编程任务表现。

DeepSeek-R1 通过强化学习和蒸馏方法,在推理、数学、编程等领域达到了新的高度,同时也为研究社区提供了丰富的开源资源,推动了大模型推理能力的发展。

我创建了一个《小而精的AI学习圈子》的知识星球,星球上会有非常多高质量的技术专栏分享,同时你也可以在星球向我提问。 在星球你还可以学到很多关于 CV 、大模型以及 AIGC 相关的技术,看到别的同学都在如何学习。不要犹豫,戳下面的链接加入吧,这可能是你学习AI 的道路上非常重要的一次点击呀。 点击这里,我们星球见!

相关推荐
Ning_.2 小时前
LeetCode 151. 反转字符串中的单词
算法·leetcode·职场和发展
tt5555555555552 小时前
每日一题——滑动窗口的最大值
c语言·数据结构·算法·leetcode·八股文
眼镜哥(with glasses)2 小时前
蓝桥杯python基础算法(2-2)——基础算法(D)——进制转换*
算法
和风化雨3 小时前
排序算法--选择排序
c语言·c++·算法·排序算法
和风化雨3 小时前
排序算法--桶排序
c语言·数据结构·c++·算法·排序算法
小姚也要变强4 小时前
sort排序 计数排序 map set C++ 蓝桥杯
开发语言·c++·算法·蓝桥杯
WBluuue4 小时前
大一计算机的自学总结:数据结构设计相关题
数据结构·c++·算法·leetcode·链表
白白糖4 小时前
Day 28 卡玛笔记
python·算法·力扣
JNU freshman4 小时前
蓝桥杯思维训练营(四)
算法·蓝桥杯