微软提出 Logic-RL:基于规则的强化学习释放大语言模型推理能力

更多 LLM 架构文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
1. AI 智能体,颠覆还是赋能?一文读懂!
2. 1W8000 字 解锁 AI 高效运作密码:工作流与智能体如何协同?
3. 万字深度剖析 AI 代理:类型、应用及优势与局限全解析
4. 1W5000 字 深度剖析大模型 Agent 框架
5. Agent 系列 1W 字用 Python 从零搭建 AI 智能体

在大推理模型中,基于规则的强化学习(RL)潜力几何?今天咱们就来深入探讨一篇与之相关的研究。研究人员选用合成逻辑谜题作为训练数据,这是因为其复杂度可控,答案验证也简单直接。

研究发现,参数量 70 亿的模型在训练后,发展出了反思、验证和总结等先进推理技能,而这些技能在原始逻辑语料库中是不存在的。令人惊喜的是,仅在 5000 道逻辑题上训练后,该模型就在具有挑战性的数学基准测试 AIME 和 AMC 中展现出了泛化能力。

下面,就为大家详细解读这项研究中的有趣发现。

  1. 更长的回复不一定意味着更好的推理:回复长度并不能作为衡量训练效果的有效指标,最有效的推理往往来自最短路径。
  2. 语言混合会阻碍推理:这一现象表明,在奖励建模中需要引入语言一致性惩罚机制。
  3. 增加 "思考" 标记有帮助:强化学习训练会自然提高与反思相关词汇的出现频率,这显示出某些标记的频率与模型表现之间存在关联。
  4. 监督微调(SFT)靠记忆,强化学习能泛化:监督微调严重依赖记忆,常导致表面的捷径学习;而强化学习能自我进化,对数据集结构的依赖极小。
  5. 冷启动是加分项,但不是必需的:无论从基础模型还是指令模型开始训练,训练动态都惊人地相似,不过指令模型表现稍好。
  6. 课程学习仍然重要:在固定的数据整理比例下,精心设计的课程学习方法总是优于随机打乱数据的方式。

数据合成

"骑士与无赖(K&K)" 谜题是通过算法生成的推理数据集。在这些谜题中,角色要么是骑士(总是说真话),要么是无赖(总是说谎)。玩家需要根据角色的陈述来判断每个角色的身份。这个数据集有以下几个显著特点:

  1. 程序生成:谜题由逻辑模板系统生成,既保证了一致性,又具有无限的可变性。而且,这些谜题对原始模型来说是全新的数据,非常适合测试模型的泛化能力。
  2. 可控的难度级别:谜题难度可以精确调整,便于设计课程学习策略。通过改变角色数量(2 - 8 个)和逻辑运算的复杂度(1 - 4 种布尔运算符组合)来调节难度。更复杂的谜题还能作为分布外测试,检验在简单谜题上训练的模型的泛化能力。
  3. 易于验证:每个谜题都有唯一确定的正确答案,生成算法保证了答案的正确性。解题需要严格的演绎推理,能准确评估模型的回答,降低奖励作弊的风险。

基于规则的奖励建模

在监测模型输出的作弊行为过程中,研究人员不断迭代优化奖励设计,最终形成了两种类型的奖励。

  1. 格式奖励 :利用正则表达式提取,强制模型采用结构化的回复格式。模型需要将推理过程放在 <think></think>标签内,最终结论放在 <answer></answer>标签内。在提示末尾直接加上 <think>标签,能显著降低基础模型遵循指令的难度。

在早期不完善的规则设计下,出现了一系列问题: - 跳过<think></think>过程直接回答。 - 在<answer></answer>标签内进行推理。 - 反复猜测答案,没有合理推理。 - 除了给出答案,还包含不相关的内容。 - 以错误的方式组织正确答案,导致无法提取。 - 由于推理不充分,在输出<answer>后又回到思考阶段。 - 重复原始问题或使用 "思考过程在此" 之类的短语来避免真正的推理。

针对这些问题,研究人员不断改进规则设计。例如,每个标签只能出现一次且顺序正确,思考过程必须包含真正的推理,结论要以可提取且易读的方式呈现。通过这些约束,模型的不同行为会根据对格式的遵守程度获得相应奖励。

  1. 答案奖励:在格式验证通过后,检查模型的答案是否与正确答案匹配。

实验设置

实验最初选用 Qwen2.5 系列的多个模型作为潜在基线候选。比如,Qwen2.5 - Math - 7B 模型生成 Python 代码块的倾向很强,这常常与严格的格式要求冲突。尽管研究人员尝试通过去除系统提示和惩罚特定的 Markdown 样式来缓解这一问题,但仍难以完全解决。

随后,对 Qwen2.5--7B-Base 和 Qwen2.5--7B-Instruct 模型进行测试。令人惊讶的是,在强化学习训练过程中,基础模型和指令模型的训练指标几乎相同,包括验证准确率、回复长度增长曲线和奖励曲线。不过,指令模型的测试准确率略高,因此成为更优选择。

评估

  1. 不同模型在 K&K 逻辑谜题上的表现:研究人员对比了推理模型和通用模型在不同难度的 K&K 逻辑谜题上的表现。尽管训练数据集仅包含不到 5000 个 3 - 7 人 K&K 逻辑谜题的合成样本,但模型在分布外(OOD)场景(如 8 人谜题)中展现出了惊人的泛化能力。
  2. 回复长度的变化:在强化学习训练 1000 步后,模型输出的平均长度从最初的 500 个标记几乎线性稳定增长到 2000 个标记,增长了 4 倍。随着回复长度增加,模型开始表现出更复杂的行为,如反思和探索其他解决方案。
  3. 研究问题相关评估
    • RQ 1:GRPO 与其他强化学习算法相比如何?:在训练速度、准确率和奖励增益方面(通过滑动窗口 = 50 取平均值)进行比较,近端策略优化算法(PPO)达到了最高的准确率和奖励,但训练速度比 REINFORCE++慢 138%。REINFORCE++在稳定性、性能提升和训练效率方面均优于广义策略优化算法(GRPO),在几乎所有指标上都超过了 GRPO,而 GRPO 在这三种算法中表现最差。
    • RQ 2:特定的思考标记和语言混合现象会提高推理能力吗?:语言混合会显著降低推理能力。像"wait""verify""yet""re - evaluate"等词汇能显著提升推理能力,但并非所有复杂思考标记都有此效果,例如"recheck"。"recheck"会明显降低推理能力,可能是因为它表明模型对自己的答案不确定。"re - evaluate"和"reevaluate"也有明显差异,前者能带来更高的答案得分,而后者会降低得分。从原始回复来看,"reevaluate"几乎从未出现,"re - evaluate"则频繁出现,这可能意味着模型对在预训练语料库中出现频率更高的词汇更适应。
    • RQ 3:训练过程中会出现 "顿悟时刻" 吗?:通过跟踪前 1800 个训练步骤中词汇的频率发现,复杂推理行为(自我反思、探索、验证、总结)在训练过程中逐渐出现,早在第 10 步就已显现,并没有出现某个突然的 "顿悟时刻" 使这些行为突然出现。
    • RQ 4:模型能泛化到分布外(OOD)任务吗?:研究人员在 AIME 2021 - 2024 和 AMC 2022 - 2023 数据集上测试模型性能,这些数据集因其具有挑战性和问题的多样性被视为 "超级分布外" 测试。模型展现出了强大的超级分布外泛化能力,在 AIME 数据集上性能提升了 125%,在 AMC 数据集上提升了 38%。强化学习过程不仅提高了模型在分布内的性能,还促进了强大且可迁移的推理策略的发展,模型的推理技能能够超越训练数据的特定模式,凸显了强化学习在更广泛泛化方面的潜力。
    • RQ 5:监督微调(SFT)和强化学习(RL)哪个泛化能力更好?:研究人员在原始训练数据和略有扰动的数据上评估模型性能,使用了两种扰动类型:改变陈述的布尔逻辑和重新排列陈述顺序。结果表明,监督微调(以 RFT 为代表)具有更高的记忆得分,对扰动更敏感,说明它只是表面上适应训练数据格式;而强化学习的记忆得分较低,但对未见过的测试数据泛化能力更好,意味着它具有更强的推理能力,对表面模式的依赖更少,更鼓励独立探索,从而实现更好的泛化。
    • RQ 6:课程学习在强化学习中仍然必要吗?:对比课程学习和混合难度训练的测试分数发现,在训练中期,课程学习的测试分数略高,但随着时间推移,这种优势逐渐减弱,几乎可以忽略不计。在训练早期,两者的性能差异在统计上可以忽略不计,对初始收敛影响不大。虽然课程学习在样本效率上可能有微弱的理论优势,但由于在实际应用中性能差异极小,且分阶段训练增加了复杂性,其实际必要性值得商榷。
    • RQ 7:更长的回复长度能保证更好的推理吗?:研究人员对比了两个使用相同算法和基础模型,但超参数和数据集难度不同的模型:正例模型(蓝色,回复长度随时间减少)和负例模型(红色,回复长度随时间增加)。正例模型尽管回复长度减少,但验证准确率和奖励都有所提高,推理和泛化能力更好;负例模型回复长度增加,验证准确率和奖励却没有提升,这表明回复长度本身并不能提升推理能力。回复长度的变化更可能是训练动态(如强化学习动态)的副产品,而非推理能力提升的直接原因。从统计数据来看,没有显著证据表明回复长度的增加幅度与推理性能的提升成正比。更长的回复不一定意味着更好的推理,虽然推理能力的提升可能会导致更详细、更长的解释,但人为增加回复长度并不一定能提高性能。

论文链接:Logic - RL: Unleashing LLM Reasoning with Rule - Based Reinforcement Learning 2502.14768[1]

推荐阅读

1. DeepSeek-R1 的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解 GRPO 和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
Reference [1]

Logic - RL: Unleashing LLM Reasoning with Rule - Based Reinforcement Learning 2502.14768: https://arxiv.org/abs/2502.14768

本文由mdnice多平台发布

相关推荐
程序猿chen4 小时前
第二重·纵横篇:Kubernetes御剑术与云原生护体罡气
java·git·后端·程序人生·云原生·容器·kubernetes
博睿谷IT99_13 小时前
华为HCIE网络工程师培训选机构攻略
网络·程序人生·华为·云原生·容器·hcie
Blasit2 天前
GD32 ISP下载程序(串口烧录)
c语言·驱动开发·单片机·嵌入式硬件·程序人生
珊瑚里的鱼4 天前
第三讲 | C/C++内存管理完全手册
c语言·c++·笔记·程序人生·visualstudio·visual studio
DBWYX6 天前
SZU软件工程大学生涯 2022~2026
程序人生
心灵星图7 天前
视频剪辑中的变速与变焦:让画面活起来
程序人生
心灵星图7 天前
视频剪辑全流程解析:从素材到成片
程序人生