DeepSeek-R1 技术报告精华整理:通过强化学习提升大模型推理能力

DeepSeek-R1:通过强化学习提升大模型推理能力

介绍

近年来,大语言模型(LLM)快速发展,逐步缩小了与通用人工智能(AGI)之间的差距。后训练(Post-Training)已成为模型训练的重要环节,能提高推理任务的准确性,并对齐社会价值观,同时相比预训练消耗更少的计算资源。

在 DeepSeek-R1 的研究过程中,我们发现,通过强化学习(RL)训练,大模型可以自主学习推理能力,而无需传统的监督微调(SFT)作为先决条件。这一发现为 LLM 推理能力的培养提供了新的方向,同时也表明了 RL 训练可以让模型自然学习链式思维(CoT)策略,解决复杂问题。

主要贡献

  1. 大规模强化学习训练

    • 直接在基础模型上应用 RL,不依赖 SFT,让模型能自主学习推理能力。
    • DeepSeek-R1-Zero 具备自我验证、反思能力,并能生成长推理链,这标志着研究领域的重大突破。
    • 这是首个验证"LLM 的推理能力可以完全通过 RL 训练"的开源研究。
  2. 改进的训练流程

    • 训练流水线包括两个 RL 阶段和两个 SFT 阶段。
    • RL 负责发现更优的推理模式并对齐人类偏好,而 SFT 作为模型推理和非推理能力的基础。
    • 这一训练方式有助于打造更强的 AI 模型。
  3. 蒸馏:让小模型也具备强推理能力

    • 证明了大模型的推理能力可以"蒸馏"到小模型,使其性能优于直接对小模型进行 RL 训练。
    • 我们开源了多个蒸馏版本的模型(1.5B、7B、8B、14B、32B、70B),以促进研究社区发展。

训练方法

DeepSeek-R1-Zero:基础模型上的强化学习

  1. 强化学习算法

    • 采用 Group Relative Policy Optimization(GRPO),减少训练成本,提高训练稳定性。
    • 让模型在 RL 过程中自主学习推理能力。
  2. 奖励建模

    • 准确性奖励:确保数学和编程问题的答案正确。
    • 格式奖励:规范模型推理过程,使其更具可读性。
    • 该方法不使用神经网络奖励模型,以避免奖励欺骗(Reward Hacking)。
  3. 训练模板

    • 设计了简单的训练模板,要求模型先输出推理过程,再给出最终答案。
    • 这样可以观察模型在 RL 训练中的自然演化。
  4. 自我进化过程

    • 在 AIME 2024 基准测试中,DeepSeek-R1-Zero 的 Pass@1 从 15.6% 提升至 71.0%。
    • 进一步采用多数投票(majority voting)后,准确率可达 86.7%,达到 OpenAI-o1-0912 级别。

DeepSeek-R1:结合冷启动数据的强化学习

  1. 冷启动(Cold-Start)

    • DeepSeek-R1-Zero 存在可读性差、语言混杂的问题。
    • 因此,我们收集了大量高质量的长 CoT 数据,在 RL 之前进行初步微调,以增强推理能力。
  2. 推理导向的强化学习

    • 训练过程中,引入语言一致性奖励,减少多语言混杂问题。
    • 通过强化学习优化模型的数学、编程、科学推理能力。
  3. 拒绝采样和监督微调(SFT)

    • 在 RL 训练收敛后,我们使用拒绝采样方法生成新的 SFT 数据。
    • 新数据涵盖推理、写作、事实问答、角色扮演等任务。
    • 最终,我们基于 80 万条训练样本进行微调。
  4. 全场景强化学习

    • 进一步应用强化学习,使模型在推理、人类偏好对齐方面更强大。
    • 结合规则奖励和人类反馈奖励,确保模型既强大又安全。

蒸馏:小模型也能强大

  1. 基于 DeepSeek-R1 训练小模型

    • 直接对 Qwen 和 Llama 进行微调,显著提升小模型的推理能力。
    • 训练数据来自 DeepSeek-R1 生成的 80 万条推理数据。
  2. 评测结果

    • DeepSeek-R1-Distill-Qwen-32B 在多个基准测试上表现优于 OpenAI-o1-mini。
    • 结果表明,蒸馏方法比直接对小模型应用 RL 更有效。

未来工作展望

  1. 提升泛化能力

    • 改进函数调用、多轮对话、JSON 输出等任务。
    • 提升模型对复杂推理任务的适应性。
  2. 优化语言混杂问题

    • 进一步减少非中英文场景下的语言混用问题。
  3. 优化提示工程

    • 研究更有效的 Few-Shot 提示方式,以提高推理能力。
  4. 提升软件工程任务能力

    • 扩大代码 RL 训练数据,提高编程任务表现。

DeepSeek-R1 通过强化学习和蒸馏方法,在推理、数学、编程等领域达到了新的高度,同时也为研究社区提供了丰富的开源资源,推动了大模型推理能力的发展。

我创建了一个《小而精的AI学习圈子》的知识星球,星球上会有非常多高质量的技术专栏分享,同时你也可以在星球向我提问。 在星球你还可以学到很多关于 CV 、大模型以及 AIGC 相关的技术,看到别的同学都在如何学习。不要犹豫,戳下面的链接加入吧,这可能是你学习AI 的道路上非常重要的一次点击呀。 点击这里,我们星球见!

相关推荐
QQ12971579409 分钟前
51单片机 矩阵
单片机·嵌入式硬件·深度学习·算法·硬件工程·集成学习
<但凡.12 分钟前
题海拾贝:P9241 [蓝桥杯 2023 省 B] 飞机降落
数据结构·算法·蓝桥杯
被AI抢饭碗的人16 分钟前
算法题(90):队列安排
算法
Spring小子18 分钟前
蓝桥杯[每日两题] 真题:好数 神奇闹钟 (java版)
java·数据结构·算法·蓝桥杯
记得早睡~36 分钟前
leetcode654-最大二叉树
javascript·数据结构·算法·leetcode
旧厂街小江41 分钟前
LeetCode 第63题:不同路径 II
算法·程序员·架构
写代码的橘子n1 小时前
unordered_set 的常用函数
数据结构·算法·哈希算法
EnigmaCoder1 小时前
蓝桥杯刷题周计划(第二周)
学习·算法·蓝桥杯
黑金IT1 小时前
深入理解人脸特征向量及图片转换方法与开发架构
算法·架构
HP-Patience1 小时前
决策树 vs 神经网络:何时使用?
神经网络·算法·决策树