论文名称:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
论文作者:Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov
Github地址:https://nvlabs.github.io/GDPO/
论文链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm
_source=csdn_gdpo&id=f3d3479947404fb7a1cef6eb2da48287
论文简介
论文聚焦多奖励强化学习中的优化方法问题,指出现有 GRPO 算法在多奖励场景下会导致奖励信号坍缩、训练信号丢失,进而引发收敛次优或训练失败。为此,提出 GDPO 算法,通过对单个奖励分别进行组归一化并结合批次优势归一化,保留跨奖励差异并维持数值稳定性。在工具调用、数学推理、代码推理三大任务的实验验证中,GDPO 在正确性、约束遵守度等指标上均持续优于 GRPO 及其实验变体,同时提供了通过奖励权重调整与条件化奖励函数应对目标难度差异的优先级建模方案,为语言模型契合多样化人类偏好提供了更稳定、高效的优化框架。
AI导读:# 论文核心内容总结
1. 研究背景
- 领域现状:随着语言模型能力提升,用户期望模型不仅提供准确响应,还需契合多样化人类偏好(如效率、安全性、逻辑连贯性等),多奖励强化学习(RL)已成为实现该目标的主流训练框架。
- 关键问题:现有研究多直接采用组相对策略优化(GRPO)进行多奖励优化,但GRPO在处理异构奖励组合时,会导致不同奖励组合坍缩为相同优势值,损失训练信号分辨率,引发收敛次优甚至训练早期失败,且未被充分验证其适用性。
2. 研究目的
- 解决GRPO在多奖励强化学习中存在的奖励信号坍缩问题,消除不同奖励维度的区分度损失;
- 提出一种适用于多奖励优化的稳定、高效策略优化方法,提升模型在多目标任务中的收敛性能与偏好对齐度;
- 系统探索奖励权重调整与奖励函数修改在处理目标难度差异时的有效方式,实现更精准的偏好优先级建模。
3. 本文核心贡献
- 揭示GRPO缺陷:证实GRPO在多奖励场景下会压缩奖励信号,导致优势估计信息丢失,明确其核心局限性;
- 提出新方法GDPO:设计组奖励解耦归一化策略优化(GDPO),通过对单个奖励分别进行组归一化,保留跨奖励差异,结合批次优势归一化维持数值稳定性;
- 提供优先级建模方案:系统阐述如何通过调整奖励权重、修改奖励函数(如条件化奖励)应对目标难度差异,实现偏好优先级的有效融入;
- 多场景验证:在工具调用、数学推理、代码推理三大任务中验证GDPO的有效性与泛化性,覆盖不同奖励数量与模型规模。
4. 研究方法
- 核心方法论:对比实验法,以GRPO及GRPO变体(去除标准差归一化)为基线,验证GDPO的性能;
- 技术路线:GDPO先对每个奖励单独执行组内归一化,再聚合归一化后的优势值,最后通过批次归一化稳定数值范围;
- 实验设计:
- 任务设置:工具调用(优化正确性与格式合规性)、数学推理(优化准确性与长度约束)、代码推理(优化通过率、长度约束与bug率);
- 模型与数据:采用Qwen、DeepSeek系列模型,基于ToolACE、DeepScaleR-Preview、Eurus-2-RL等数据集训练;
- 评估指标:正确性(准确率、通过率)、约束遵守度(格式合规率、长度超标率)、代码质量(bug率)等;
- 数据处理:采用HF-TRL、verl、Nemo-RL框架实现,统一超参数设置,多次实验取平均值与四分位距保证可靠性。
5. 研究结果
- GDPO在所有任务中均优于GRPO:工具调用任务中准确率与格式合规率显著提升,数学推理任务中实现准确率与长度约束的更优平衡(如AIME数据集准确率最高提升6.3%),代码推理任务中在多奖励设置下保持通过率的同时降低长度超标率与bug率;
- GRPO变体效果有限:去除标准差归一化的GRPO虽略微增加优势组数量,但导致训练不稳定(如工具调用格式合规率为0%),无法改善核心性能;
- 条件化奖励有效:针对目标难度差异,条件化奖励函数比单纯调整权重更能实现偏好优先级对齐,GDPO结合该函数可进一步提升优先级目标性能。
6. 总结与展望
- 核心结论:GDPO通过解耦奖励归一化,解决了GRPO在多奖励优化中的信号坍缩问题,在稳定性、收敛速度与偏好对齐度上均优于GRPO,是多奖励强化学习的更优选择;
- 局限性:未深入探索更多奖励数量(超过3个)场景下的性能表现,对奖励权重与条件化函数的自适应调整研究不足;
- 未来方向:拓展至更多奖励维度与复杂任务场景,研究奖励优先级的自适应建模方法,探索GDPO与其他RL算法(如PPO变体)的结合潜力。