DeepSeek-R1:将强化学习用于激励大型语言模型的推理能力

目录

引言

一、DeepSeek-R1的贡献

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero:基础模型上的强化学习

2.2、DeepSeek-R1:冷启动强化学习

2.3、蒸馏:赋予小模型推理能力

三、DeepSeek-R1实验结果

3.1、模型优点

3.2、模型缺点

四、讨论与未来工作

五、结论


引言

大型语言模型(LLMs)在近年来取得了长足的进步,在各种应用中展示出令人印象深刻的性能。然而,LLMs在复杂推理任务上仍面临挑战。为了进一步提升LLMs的推理能力,DeepSeek团队提出了DeepSeek-R1,这是一个通过强化学习(RL)来增强LLMs推理能力的模型。

关于强化学习的作用博主在之前的早期博文中已经有所提及。

一、DeepSeek-R1的贡献

  1. DeepSeek-R1-Zero:直接在基础模型上应用强化学习,不依赖任何监督微调(SFT)数据,证明了LLMs可以通过纯强化学习发展出强大的推理能力。

  2. DeepSeek-R1:结合少量高质量冷启动数据和迭代RL训练,进一步提升了模型的推理性能,并产生更加清晰、连贯的思维链。

  3. 蒸馏:将DeepSeek-R1的推理能力成功蒸馏到更小、更高效的密集模型中,如Qwen和Llama系列,极大地提升了这些小模型在推理任务上的表现。

二、DeepSeek-R1的方法

2.1、DeepSeek-R1-Zero:基础模型上的强化学习

DeepSeek-R1-Zero直接在DeepSeek-V3-Base上应用大规模强化学习,不使用任何SFT数据。训练过程采用群体相对策略优化(GRPO)算法,并设计了基于规则的奖励系统,主要包括准确性奖励和格式化奖励。

奖励格式
奖励是训练信号的来源,它决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero ,采用
了一种基于规则的奖励系统,主要包括两种类型的奖励:

  1. 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中 模型需要以指定格式(例如,在方框内)提供最终答案,从而实现基于规则的可靠正确 性验证。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
  1. 格式化奖励:除了准确性奖励模型外,我们还采用了一种格式化奖励模型,该模型强制模型将其思考过程放在'<思考>'和'</思考>'标签之间。
    通过结构化输出约束,确保模型生成可解析、逻辑清晰的思维链,同时提升训练稳定性和任务适配性。

顿悟时刻

我们是怎么看出模型在这种非常"原始"的方法下,是真的学会了"思考"的呢?

论文记录了一个引人注目的案例:在处理一个涉及复杂数学表达式 √a - √(a + x) = x 的问题时,模型突然停下来说"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。
"顿悟时刻"有力地提醒了强化学习在解锁人工智能系统新智能水平方面的潜力,为未来更加自主和自适应的模型铺平了道路。

2.2、DeepSeek-R1:冷启动强化学习

在机器学习与模型训练中,冷启动(Cold Start) 指系统或模型在缺乏足够历史数据或预训练知识的情况下,通过引入少量高质量标注数据来初始化模型的过程。在DeepSeek-R1的上下文中,冷启动阶段是模型训练的起点,旨在为后续强化学习(RL)提供可靠的初始策略。

  1. 冷启动:收集数千条长链思维(CoT)数据来微调DeepSeek-V3-Base,作为初始强化学习演员。
  2. 面向推理的强化学习:采用与DeepSeek-R1-Zero相同的大规模RL训练过程,重点提升模型在推理密集型任务中的表现。
  3. 拒绝采样与监督微调:利用强化学习收敛后(就是再训练模型的效率很难提升)的检查点收集新的SFT数据,并重新训练DeepSeek-V3-Base模型,以增强模型在写作、角色扮演等通用任务中的能力。
  4. 全场景强化学习:进行次级强化学习阶段,结合奖励信号和多样化提示分布,进一步提高模型的有用性和无害性,同时精炼其推理能力。

2.3、蒸馏:赋予小模型推理能力

为了让更高效的小型模型具备类似DeepSeek-R1的推理能力,研究团队直接使用DeepSeek-R1整理的80万样本对Qwen和Llama系列模型进行了蒸馏。实验结果表明,将更强大的模型蒸馏为较小的模型能产生出色的结果,而依赖大规模RL的较小模型可能无法达到蒸馏的性能。

三、DeepSeek-R1实验结果

3.1、模型优点

DeepSeek-R1在各种推理相关的基准测试中取得了优异的成绩,包括:

  • AIME 2024:79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217

  • MATH-500:97.3% 的分数,与 OpenAI-o1-1217 表现相当

  • Codeforces:2,029 的 Elo 评分,超过了 96.3% 的人类参赛者(这个是全球顶级算法比赛含金量非常高)

  • MMLU:90.8% 的得分

  • MMLU-Pro:84.0% 的得分

  • GPQA Diamond:71.5% 的得分

-中国国家高中数学奥林匹克(CNMO 2024):78.8%的得分

-美国数学邀请赛2024(AIME 2024):79.8%的得分

此外,DeepSeek-R1在知识、创意写作、通用问答、编辑、摘要等任务中也表现出色。

蒸馏后的小型模型同样展现了优异的性能:

  • DeepSeek-R1-7B全面超越非推理模型如GPT-4o-0513

  • DeepSeek-R1-14B在所有评估指标上均超过了QwQ-32B-Preview

  • DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越了OpenAI-o1-mini

3.2、模型缺点

只擅长数学,代码,逻辑类的问题。对文学,长文本总结方面的能力不足。
DeepSeek-R1目前并不擅长长文本规律总结

尽管R1-Zero展现出了惊人的推理能力,但研究者们很快发现了一个严重的问题:它的思维过程往往难以被人类理解。

论文坦诚地指出,这个纯强化学习训练出来的模型存在"poor readability"(可读性差)和"language mixing"(语言混杂)的问题。

这个现象其实很好理解:R1-Zero完全通过奖惩信号来优化其行为,没有任何人类示范的"标准答案"作为参考。就像一个天才儿童自创了一套解题方法,虽然屡试不爽,但向别人解释时却语无伦次。它在解题过程中可能同时使用多种语言,或者发展出了某种特殊的表达方式,这些都让其推理过程难以被追踪和理解。

四、讨论与未来工作

AlphaGo(Silver等,2017b)和AlphaZero的蒙特卡洛树搜索(MCTS)算法是一种通过模拟与回溯动态构建搜索树的算法,其核心在于平衡探索与利用,逐步逼近最优决策路径。它在游戏 AI、复杂问题求解等领域展现了强大的能力,但需要大量模拟次数才能收敛到高质量策略,实时性受限。奖励函数的设计直接影响搜索方向,不合理的奖励可能导致次优解。

未来,DeepSeek团队计划在以下方向为DeepSeek-R1进行投资研究:

  1. 提升通用能力,如函数调用、多轮对话、复杂角色扮演和json输出等任务
  2. 解决语言混合问题,优化非英文、非中文查询的处理
  3. 改进提示工程,提高模型在少样本或零样本设置下的性能
  4. 提升在软件工程任务中的表现

五、结论

DeepSeek-R1通过大规模强化学习提升语言模型推理能力,无需监督数据。结合少量高质量冷启动数据后性能与OpenAI o1模型匹敌。将推理能力成功蒸馏至小模型,大幅跑赢同尺寸开源模型。擅长STEM推理任务,局限于可读性、语言混合等。未来将提升通用能力,改进提示工程和软件工程任务表现。

相关推荐
NAGNIP9 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab10 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab10 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP14 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年14 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼14 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS14 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区15 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈16 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang16 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx