【再读】2501.12948/DeepSeek-R1通过强化学习提升大型语言模型(LLMs)的推理能力

DeepSeek-R1-Zero展示了在没有监督数据的情况下,通过RL可以发展出强大的推理能力。DeepSeek-R1通过引入冷启动数据和多阶段训练,进一步提升了推理性能,达到了与OpenAI-o1-1217相当的水平。此外,通过蒸馏技术,将DeepSeek-R1的推理能力转移到更小的密集模型上,显著提高了这些模型的推理能力。

一、模型介绍

维度 DeepSeek-V3 R1-Zero DeepSeek-R1
定位 通用基座模型 纯 RL 训练的推理实验模型 多阶段优化的商用推理模型
训练方法 预训练 + SFT 纯强化学习(GRPO 算法) SFT → RL → SFT → RL与SFT混合训练
数据依赖 通用语料 + 标注数据 数学/代码数据(无需标注) RL 生成数据 + 人类偏好数据
推理能力 基础问答 强推理但语言混杂 强推理 + 语言规范
可用性 通用场景 实验性(不可直接商用) 全场景适配(工作助手、编程等)

(一)DeepSeek-R1-Zero

  1. 训练算法:采用Group Relative Policy Optimization(GRPO)算法,避免使用与策略模型同样大小的批评模型,从组分数估计基线,降低训练成本。
  2. 奖励建模:使用基于规则的奖励系统,包括准确性奖励和格式奖励,避免使用可能导致奖励作弊的神经奖励模型。
  3. 训练模板:设计引导模型按特定格式输出的模板,要求先产生推理过程,再给出答案,便于观察模型在RL过程中的自然发展。
  4. 性能表现:在AIME 2024基准测试中,pass@1分数从15.6%提升到71.0%,经多数投票可提升至86.7%,与OpenAI-o1-0912相当,展现出强大的推理能力。同时,模型在训练过程中自发出现反思、探索替代方法等复杂推理行为。

(二)DeepSeek-R1

  1. 冷启动:收集数千个长思维链(CoT)数据对DeepSeek-V3-Base模型进行微调,解决DeepSeek-R1-Zero可读性差和语言混合问题,为后续RL训练提供更好起点。

  2. 推理导向的强化学习:应用与DeepSeek-R1-Zero相同的大规模RL训练过程,引入语言一致性奖励缓解语言混合问题,结合推理任务准确性和语言一致性奖励形成最终奖励,训练模型直至推理任务收敛。

  3. 拒绝采样和监督微调 :在推理导向的RL收敛后,通过拒绝采样从RL检查点收集推理数据,结合其他领域数据(如写作、事实性问答等)对模型进行监督微调,扩展模型能力。

  4. 全场景强化学习 :进行二次RL训练,使用奖励信号和多样的提示分布,使模型在推理能力提升的同时,更符合人类偏好,优先考虑对用户的帮助性和无害性。

(三)模型蒸馏

使用DeepSeek-R1生成的800k样本对Qwen和Llama系列开源模型进行微调,将大模型的推理模式转移到小模型。实验表明,蒸馏后的小模型在推理任务上表现出色,如DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的成绩超越QwQ-32B-Preview。

二、实验与结果

(一)实验设置

  1. 基准测试:使用MMLU、AIME 2024、LiveCodeBench等多种基准测试,涵盖推理、知识、编码等多个领域,全面评估模型性能。
  2. 评估提示:针对不同基准测试采用相应的提示设置,如MMLU使用simpleevals框架提示,MMLU-Redux采用Zero-Eval提示格式等。
  3. 基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022等多个强大的基线模型进行对比。
  4. 评估方法:设置最大生成长度为32,768令牌,采用pass@k评估方法,使用非零温度(如采样温度0.6和top-P值0.95)生成多个响应计算pass@1分数,对AIME 2024还报告共识(多数投票)结果。

(二)实验结果

  1. DeepSeek-R1评估:在教育知识基准测试(如MMLU、MMLU-Pro)、编码任务(如LiveCodeBench、Codeforces)和数学任务(如AIME 2024、MATH-500)中,DeepSeek-R1表现优异,与OpenAI-o1-1217相当甚至在部分任务上超越。在处理事实性查询和遵循格式指令方面也优于DeepSeek-V3,但在某些中文基准测试中因安全RL导致表现稍逊。
  2. 蒸馏模型评估:蒸馏后的小模型在推理任务上性能突出,DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越GPT-4o和Claude-3.5-Sonnet,DeepSeek-R1-Distill-Qwen-14B在所有评估指标上超越QwQ-32B-Preview。

三、技术对比与反思

(一)蒸馏与强化学习对比

实验表明,蒸馏更强大的模型到小模型能取得优异结果,而小模型直接进行大规模RL训练需要巨大计算资源,且性能不如蒸馏模型。但要突破智能边界,仍需更强大的基础模型和大规模RL训练。

(二)不成功的尝试

  1. 过程奖励模型(PRM):PRM虽能指导模型解决推理任务,但在定义推理步骤、判断中间步骤正确性和避免奖励作弊方面存在困难,在大规模RL训练中计算成本过高。
  2. 蒙特卡洛树搜索(MCTS):受AlphaGo启发尝试使用MCTS提升测试时间计算可扩展性,但在训练中遇到搜索空间过大、模型易陷入局部最优和价值模型训练困难等问题。

论文评价

优点与创新

  1. 纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。
  2. 多阶段训练管道:DeepSeek-R1引入了一个包含两个RL阶段和两个SFT阶段的多阶段训练管道,旨在发现改进的推理模式并符合人类偏好。
  3. 冷启动数据的利用:通过引入冷启动数据,DeepSeek-R1在接近RL收敛时,通过拒绝采样生成SFT数据,并结合DeepSeek-V3的监督数据进行再训练,显著提升了推理性能。
  4. 知识蒸馏:展示了从DeepSeek-R1向更小模型的知识蒸馏过程,证明了较大模型的推理模式对小模型的性能提升至关重要。
  5. 广泛的任务评估:在多个基准测试上进行了广泛的评估,包括MMLU、DROP、GPQA Diamond、SimpleQA等,展示了DeepSeek-R1在不同任务上的强大能力。
  6. 自演化过程的可视化:通过图表展示了DeepSeek-R1-Zero在AIME 2024基准上的性能轨迹,揭示了其自我演化和"顿悟"时刻。

不足与反思

  1. 可读性问题:DeepSeek-R1-Zero在可读性方面存在挑战,响应内容可能混合多种语言或缺乏Markdown格式。
  2. 语言混合问题:在处理非英语或非中文查询时,DeepSeek-R1可能会使用英语进行推理和响应,导致语言混合问题。
  3. 提示工程敏感性:DeepSeek-R1对提示非常敏感,少量提示会显著降低其性能,建议用户直接描述问题并使用零样本设置指定输出格式。
  4. 软件工程任务的挑战:由于评估时间长,影响了RL过程的效率,DeepSeek-R1在软件工程任务上未能显著超越DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在RL过程中引入异步评估来提高效率。

参考:

图片来自:https://zhuanlan.zhihu.com/p/22095237738

相关推荐
深蓝易网5 分钟前
为什么制造企业需要用MES管理系统升级改造车间
大数据·运维·人工智能·制造·devops
xiangzhihong813 分钟前
Amodal3R ,南洋理工推出的 3D 生成模型
人工智能·深度学习·计算机视觉
狂奔solar26 分钟前
diffusion-vas 提升遮挡区域的分割精度
人工智能·深度学习
资源大全免费分享40 分钟前
MacOS 的 AI Agent 新星,本地沙盒驱动,解锁 macOS 操作新体验!
人工智能·macos·策略模式
跳跳糖炒酸奶1 小时前
第四章、Isaacsim在GUI中构建机器人(2):组装一个简单的机器人
人工智能·python·算法·ubuntu·机器人
AI.NET 极客圈1 小时前
AI与.NET技术实操系列(四):使用 Semantic Kernel 和 DeepSeek 构建AI应用
人工智能·.net
Debroon1 小时前
应华为 AI 医疗军团之战,各方动态和反应
人工智能·华为
俊哥V1 小时前
阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B
人工智能·ai
果冻人工智能1 小时前
每一条广告都只为你而生: 用 人工智能 颠覆广告行业的下一步
人工智能
掘金安东尼1 小时前
GPT-4.5 被 73% 的人误认为人类,“坏了?!我成替身了!”
人工智能·程序员