多目标强化学习-英伟达:GDPO随着语言模型能力的不断提升,用户不仅期望模型能够给出准确的回答,还希望其行为能够在各种场景中契合不同的人类偏好。为实现这一目标,强化学习(RL)流程开始引入多种奖励,每种奖励代表一种不同的偏好,用于引导模型产生更符合预期的行为。然而,近期的相关工作在多奖励场景下,往往直接采用了Group Relative Policy Optimization(GRPO,组相对策略优化)方法,而没有对其适用性进行充分的检验。本文指出,直接将GRPO应用于不同奖励组合的归一化,会导致所有奖励信号在归一化后变得完全一致,从而