❝
更多 LLM 架构文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
1. AI 智能体,颠覆还是赋能?一文读懂!
2. 1W8000 字 解锁 AI 高效运作密码:工作流与智能体如何协同?
3. 万字深度剖析 AI 代理:类型、应用及优势与局限全解析
4. 1W5000 字 深度剖析大模型 Agent 框架
5. Agent 系列 1W 字用 Python 从零搭建 AI 智能体
在大推理模型中,基于规则的强化学习(RL)潜力几何?今天咱们就来深入探讨一篇与之相关的研究。研究人员选用合成逻辑谜题作为训练数据,这是因为其复杂度可控,答案验证也简单直接。
研究发现,参数量 70 亿的模型在训练后,发展出了反思、验证和总结等先进推理技能,而这些技能在原始逻辑语料库中是不存在的。令人惊喜的是,仅在 5000 道逻辑题上训练后,该模型就在具有挑战性的数学基准测试 AIME 和 AMC 中展现出了泛化能力。
下面,就为大家详细解读这项研究中的有趣发现。
- 更长的回复不一定意味着更好的推理:回复长度并不能作为衡量训练效果的有效指标,最有效的推理往往来自最短路径。
- 语言混合会阻碍推理:这一现象表明,在奖励建模中需要引入语言一致性惩罚机制。
- 增加 "思考" 标记有帮助:强化学习训练会自然提高与反思相关词汇的出现频率,这显示出某些标记的频率与模型表现之间存在关联。
- 监督微调(SFT)靠记忆,强化学习能泛化:监督微调严重依赖记忆,常导致表面的捷径学习;而强化学习能自我进化,对数据集结构的依赖极小。
- 冷启动是加分项,但不是必需的:无论从基础模型还是指令模型开始训练,训练动态都惊人地相似,不过指令模型表现稍好。
- 课程学习仍然重要:在固定的数据整理比例下,精心设计的课程学习方法总是优于随机打乱数据的方式。
数据合成
"骑士与无赖(K&K)" 谜题是通过算法生成的推理数据集。在这些谜题中,角色要么是骑士(总是说真话),要么是无赖(总是说谎)。玩家需要根据角色的陈述来判断每个角色的身份。这个数据集有以下几个显著特点:
- 程序生成:谜题由逻辑模板系统生成,既保证了一致性,又具有无限的可变性。而且,这些谜题对原始模型来说是全新的数据,非常适合测试模型的泛化能力。
- 可控的难度级别:谜题难度可以精确调整,便于设计课程学习策略。通过改变角色数量(2 - 8 个)和逻辑运算的复杂度(1 - 4 种布尔运算符组合)来调节难度。更复杂的谜题还能作为分布外测试,检验在简单谜题上训练的模型的泛化能力。
- 易于验证:每个谜题都有唯一确定的正确答案,生成算法保证了答案的正确性。解题需要严格的演绎推理,能准确评估模型的回答,降低奖励作弊的风险。
基于规则的奖励建模
在监测模型输出的作弊行为过程中,研究人员不断迭代优化奖励设计,最终形成了两种类型的奖励。
- 格式奖励 :利用正则表达式提取,强制模型采用结构化的回复格式。模型需要将推理过程放在
<think></think>
标签内,最终结论放在<answer></answer>
标签内。在提示末尾直接加上<think>
标签,能显著降低基础模型遵循指令的难度。
在早期不完善的规则设计下,出现了一系列问题: - 跳过<think></think>
过程直接回答。 - 在<answer></answer>
标签内进行推理。 - 反复猜测答案,没有合理推理。 - 除了给出答案,还包含不相关的内容。 - 以错误的方式组织正确答案,导致无法提取。 - 由于推理不充分,在输出<answer>
后又回到思考阶段。 - 重复原始问题或使用 "思考过程在此" 之类的短语来避免真正的推理。
针对这些问题,研究人员不断改进规则设计。例如,每个标签只能出现一次且顺序正确,思考过程必须包含真正的推理,结论要以可提取且易读的方式呈现。通过这些约束,模型的不同行为会根据对格式的遵守程度获得相应奖励。
- 答案奖励:在格式验证通过后,检查模型的答案是否与正确答案匹配。
实验设置
实验最初选用 Qwen2.5 系列的多个模型作为潜在基线候选。比如,Qwen2.5 - Math - 7B 模型生成 Python 代码块的倾向很强,这常常与严格的格式要求冲突。尽管研究人员尝试通过去除系统提示和惩罚特定的 Markdown 样式来缓解这一问题,但仍难以完全解决。
随后,对 Qwen2.5--7B-Base 和 Qwen2.5--7B-Instruct 模型进行测试。令人惊讶的是,在强化学习训练过程中,基础模型和指令模型的训练指标几乎相同,包括验证准确率、回复长度增长曲线和奖励曲线。不过,指令模型的测试准确率略高,因此成为更优选择。
评估
- 不同模型在 K&K 逻辑谜题上的表现:研究人员对比了推理模型和通用模型在不同难度的 K&K 逻辑谜题上的表现。尽管训练数据集仅包含不到 5000 个 3 - 7 人 K&K 逻辑谜题的合成样本,但模型在分布外(OOD)场景(如 8 人谜题)中展现出了惊人的泛化能力。
- 回复长度的变化:在强化学习训练 1000 步后,模型输出的平均长度从最初的 500 个标记几乎线性稳定增长到 2000 个标记,增长了 4 倍。随着回复长度增加,模型开始表现出更复杂的行为,如反思和探索其他解决方案。
- 研究问题相关评估
- RQ 1:GRPO 与其他强化学习算法相比如何?:在训练速度、准确率和奖励增益方面(通过滑动窗口 = 50 取平均值)进行比较,近端策略优化算法(PPO)达到了最高的准确率和奖励,但训练速度比 REINFORCE++慢 138%。REINFORCE++在稳定性、性能提升和训练效率方面均优于广义策略优化算法(GRPO),在几乎所有指标上都超过了 GRPO,而 GRPO 在这三种算法中表现最差。
- RQ 2:特定的思考标记和语言混合现象会提高推理能力吗?:语言混合会显著降低推理能力。像"wait""verify""yet""re - evaluate"等词汇能显著提升推理能力,但并非所有复杂思考标记都有此效果,例如"recheck"。"recheck"会明显降低推理能力,可能是因为它表明模型对自己的答案不确定。"re - evaluate"和"reevaluate"也有明显差异,前者能带来更高的答案得分,而后者会降低得分。从原始回复来看,"reevaluate"几乎从未出现,"re - evaluate"则频繁出现,这可能意味着模型对在预训练语料库中出现频率更高的词汇更适应。
- RQ 3:训练过程中会出现 "顿悟时刻" 吗?:通过跟踪前 1800 个训练步骤中词汇的频率发现,复杂推理行为(自我反思、探索、验证、总结)在训练过程中逐渐出现,早在第 10 步就已显现,并没有出现某个突然的 "顿悟时刻" 使这些行为突然出现。
- RQ 4:模型能泛化到分布外(OOD)任务吗?:研究人员在 AIME 2021 - 2024 和 AMC 2022 - 2023 数据集上测试模型性能,这些数据集因其具有挑战性和问题的多样性被视为 "超级分布外" 测试。模型展现出了强大的超级分布外泛化能力,在 AIME 数据集上性能提升了 125%,在 AMC 数据集上提升了 38%。强化学习过程不仅提高了模型在分布内的性能,还促进了强大且可迁移的推理策略的发展,模型的推理技能能够超越训练数据的特定模式,凸显了强化学习在更广泛泛化方面的潜力。
- RQ 5:监督微调(SFT)和强化学习(RL)哪个泛化能力更好?:研究人员在原始训练数据和略有扰动的数据上评估模型性能,使用了两种扰动类型:改变陈述的布尔逻辑和重新排列陈述顺序。结果表明,监督微调(以 RFT 为代表)具有更高的记忆得分,对扰动更敏感,说明它只是表面上适应训练数据格式;而强化学习的记忆得分较低,但对未见过的测试数据泛化能力更好,意味着它具有更强的推理能力,对表面模式的依赖更少,更鼓励独立探索,从而实现更好的泛化。
- RQ 6:课程学习在强化学习中仍然必要吗?:对比课程学习和混合难度训练的测试分数发现,在训练中期,课程学习的测试分数略高,但随着时间推移,这种优势逐渐减弱,几乎可以忽略不计。在训练早期,两者的性能差异在统计上可以忽略不计,对初始收敛影响不大。虽然课程学习在样本效率上可能有微弱的理论优势,但由于在实际应用中性能差异极小,且分阶段训练增加了复杂性,其实际必要性值得商榷。
- RQ 7:更长的回复长度能保证更好的推理吗?:研究人员对比了两个使用相同算法和基础模型,但超参数和数据集难度不同的模型:正例模型(蓝色,回复长度随时间减少)和负例模型(红色,回复长度随时间增加)。正例模型尽管回复长度减少,但验证准确率和奖励都有所提高,推理和泛化能力更好;负例模型回复长度增加,验证准确率和奖励却没有提升,这表明回复长度本身并不能提升推理能力。回复长度的变化更可能是训练动态(如强化学习动态)的副产品,而非推理能力提升的直接原因。从统计数据来看,没有显著证据表明回复长度的增加幅度与推理性能的提升成正比。更长的回复不一定意味着更好的推理,虽然推理能力的提升可能会导致更详细、更长的解释,但人为增加回复长度并不一定能提高性能。
论文链接:Logic - RL: Unleashing LLM Reasoning with Rule - Based Reinforcement Learning 2502.14768[1]
推荐阅读
1. DeepSeek-R1 的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解 GRPO 和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
Reference [1]
Logic - RL: Unleashing LLM Reasoning with Rule - Based Reinforcement Learning 2502.14768: https://arxiv.org/abs/2502.14768
本文由mdnice多平台发布