多目标强化学习-英伟达:GDPO

文章目录

  • 摘要
  • [1. 引言](#1. 引言)
  • [2. GRPO 在多奖励强化学习中奖励信号塌缩的倾向](#2. GRPO 在多奖励强化学习中奖励信号塌缩的倾向)
  • [3. 方法](#3. 方法)
    • [3.1. 组奖励解耦归一化策略优化(Group reward-Decoupled normalization Policy Optimization,GDPO)](#3.1. 组奖励解耦归一化策略优化(Group reward-Decoupled normalization Policy Optimization,GDPO))
        • [3.2. 有效整合优先级变动](#3.2. 有效整合优先级变动)
  • [4. 实验](#4. 实验)
      • [4.1 工具调用任务](#4.1 工具调用任务)
      • [4.2 数学推理任务](#4.2 数学推理任务)
      • [4.2.1 不同奖励优先级设置的影响分析](#4.2.1 不同奖励优先级设置的影响分析)
      • [4.3 代码推理任务](#4.3 代码推理任务)
  • [5. 相关工作](#5. 相关工作)
  • [6. 结论](#6. 结论)

摘要

随着语言模型能力的不断提升,用户不仅期望模型能够给出准确的回答,还希望其行为能够在各种场景中契合不同的人类偏好。为实现这一目标,强化学习(RL)流程开始引入多种奖励,每种奖励代表一种不同的偏好,用于引导模型产生更符合预期的行为。然而,近期的相关工作在多奖励场景下,往往直接采用了Group Relative Policy Optimization(GRPO,组相对策略优化)方法,而没有对其适用性进行充分的检验。本文指出,直接将GRPO应用于不同奖励组合的归一化,会导致所有奖励信号在归一化后变得完全一致,从而降低了训练信号的分辨率,最终导致模型收敛效果欠佳,甚至在某些情况下出现训练提前失败的现象。

针对上述问题,本文提出了一种新的策略优化方法------Group reward-Decoupled Normalization Policy Optimization(GDPO,组奖励-解耦归一化策略优化)。GDPO通过对每个奖励的归一化过程进行解耦,更好地保留了各奖励之间的相对差异,使模型能够更准确地优化多奖励目标,并显著提升了训练的稳定性。我们在工具调用、数学推理和代码推理三项任务中,对GDPO和GRPO进行了对比实验,分别评测了准确率、Bug率等正确性指标,以及格式、长度等约束性指标。实验结果显示,在所有任务和场景下,GDPO的表现均优于GRPO,证明了GDPO在多奖励强化学习优化中的有效性和通用性。

1. 引言

随着语言模型能力的不断提升,人们对其行为的期望也随之增加。用户不仅希望模型能提供准确的回答,还希望模型在各种不同场景中表现出符合广泛人类偏好的行为。这些偏好涵盖了效率[1, 2, 3]、安全性[4]、响应的连贯性与逻辑性[5, 6]、性别偏见[7]等多个方面。在单一模型中满足如此多样化的需求是一项极具挑战性的任务。

强化学习(RL)已成为调整大型语言模型以满足多样人类偏好的事实标准训练流程。尤其是,近年来基于RL的方法开始引入多重奖励,每个奖励用于捕捉不同的人类偏好,并共同引导模型朝向人类期望的行为方向。尽管多奖励强化学习备受关注,近期工作[1,3,5]主要聚焦于奖励设计本身,且往往直接采用Group Relative Policy Optimization(GRPO)方法进行多奖励RL优化,却很少对GRPO是否适合优化异质奖励组合进行深入探讨。

本文重新审视了GRPO在多奖励场景下的适用性,发现直接应用GRPO对不同回合奖励组合进行归一化,会导致它们归一化后的优势值出现"坍缩"现象(如图2所示),即不同奖励信号被压缩成了相同的优势值。这种坍缩降低了训练信号的分辨率,消除了奖励维度之间的重要差异,导致策略更新不准确,奖励收敛效果欠佳,甚至在很多情况下造成训练提前失败。

为解决上述问题,我们提出了Group reward-Decoupled Normalization Policy Optimization(GDPO,组奖励解耦归一化策略优化)。GDPO通过对每个奖励分别进行组内归一化(如图1a所示),更好地保留不同奖励组合之间的差异,更准确地反映模型响应的相对差距,从而实现更精确的多奖励优化和显著提升的训练收敛性。在完成解耦归一化后,我们还对优势值进行批量归一化,以防止随着奖励数量增多,优势幅度无节制增加。

我们在工具调用、数学推理和代码推理三个任务中对GDPO与GRPO进行了比较。这些任务涵盖了包括工具调用的准确性和格式正确性、数学推理的准确率及推理长度约束、代码通过率及缺陷率等多个目标。在所有任务中,GDPO均表现出更好的收敛性。例如,如图1b所示,使用GDPO训练的Qwen2.5-1.5B-Instruct在工具调用任务中在准确性和格式合规性方面均优于GRPO。在挑战性更高的数学任务中,GDPO也持续超越GRPO,比如在AIME数据集上,GDPO训练的DeepSeek-R1-1.5B和Qwen3-4B-Instruct分别比GRPO高出6.3%和2.3%的准确率,同时还能保持更多回答的简洁性。

综上所述,这些结果证明了GDPO的有效性和泛化能力,表明它是多奖励强化学习优化中优于GRPO的更佳选择。

我们主要贡献包括:

  • GRPO奖励坍缩分析:展示了在多奖励强化学习中,直接使用GRPO可能导致不同回合奖励组合的优势值坍缩为相同,降低学习信号的分辨率。

  • GRPO奖励坍缩的解决方案:提出GDPO,对每个奖励单独进行组内归一化,更好地保留跨奖励的差异,实现更准确的多奖励优化。

  • 奖励函数和权重调整系统化指导:除GDPO外,我们还系统性地介绍了如何修改奖励函数和调整奖励权重,以更真实地符合不同优先级的偏好。

  • 广泛的实验验证:在工具调用、数学推理和代码推理三个任务上,评估了GDPO在准确率、格式正确性、长度约束及代码质量等多种奖励上的优化效果,结果显示GDPO在全部场景中均优于GRPO,带来更优的训练收敛和更符合多样偏好的下游表现。】

以下是你提供英文段落的中文翻译重点版,保持专业表达,并忠实于原文含义:


2. GRPO 在多奖励强化学习中奖励信号塌缩的倾向

近来的研究如Group Relative Policy Optimization(GRPO)及其变种(如DAPO和Reinforce+±Baseline),因其效率和简洁性,已成为广泛采用的强化学习算法。与PPO不同,GRPO通过组相对优势估计进行策略更新,从而无需值函数模型。目前,GRPO主要用于单一目标奖励的优化,通常关注准确率。随着模型能力提升,近期工作越来越多地尝试同时优化多个奖励,比如对回复长度、格式质量等进行约束,以更好地贴合人类偏好。现有多奖励RL方法大多采用简单相加各奖励分量并直接应用GRPO的方式。

形式化地说,对于每个问答对(𝑞𝑖, 𝑜𝑗 ),行为策略𝜋𝜃old从中采样一组G个回复,假设有n个目标,则第j个回复的总奖励为:
r s u m ( i , j ) = r 1 ( i , j ) + ⋯ + r n ( i , j ) r^{(i,j)}_{sum} = r^{(i,j)}_1 + \cdots + r^{(i,j)}_n rsum(i,j)=r1(i,j)+⋯+rn(i,j)

组内相对优势计算方式为:
A s u m ( i , j ) = r s u m ( i , j ) − mean { r s u m ( i , 1 ) , . . . , r s u m ( i , G ) } std { r s u m ( i , 1 ) , . . . , r s u m ( i , G ) } A^{(i,j)}{sum} = \frac{r^{(i,j)}{sum} - \text{mean}\{r^{(i,1)}{sum},...,r^{(i,G)}{sum}\}}{\text{std}\{r^{(i,1)}{sum},...,r^{(i,G)}{sum}\}} Asum(i,j)=std{rsum(i,1),...,rsum(i,G)}rsum(i,j)−mean{rsum(i,1),...,rsum(i,G)}

对应的多奖励GRPO优化目标为:
J G R P O ( θ ) = E ( q i , o j ) ∼ D , { o j } 1 G ∼ π θ o l d ( ⋅ ∣ q ) [ 1 G ∑ j = 1 G 1 ∣ o j ∣ ∑ t = 1 ∣ o j ∣ min ⁡ ( s i , t ( θ ) A s u m ( i , j ) , clip ( s i , t ( θ ) , 1 − ϵ , 1 + ϵ ) A s u m ( i , j ) ) ] J_{GRPO}(\theta) = \mathbb{E}{(q_i,o_j)\sim D, \{o_j\}1^G\sim\pi{\theta{old}}(\cdot|q)}\left[ \frac{1}{G}\sum_{j=1}^G \frac{1}{|o_j|}\sum_{t=1}^{|o_j|} \min \left( s_{i,t}(\theta)A^{(i,j)}{sum}, \text{clip}(s{i,t}(\theta), 1-\epsilon, 1+\epsilon)A^{(i,j)}_{sum} \right) \right] JGRPO(θ)=E(qi,oj)∼D,{oj}1G∼πθold(⋅∣q) G1j=1∑G∣oj∣1t=1∑∣oj∣min(si,t(θ)Asum(i,j),clip(si,t(θ),1−ϵ,1+ϵ)Asum(i,j))

其中,(s_{i,t}(\theta)=\frac{\pi_\theta(o_{t_j}|q, o_{<t_j})}{\pi_{\theta_{old}}(o_{t_j}|q, o_{<t_j})}),(\epsilon)为clip阈值。为简洁起见,公式中省略了KL散度损失项。

我们首先回顾了将GRPO直接应用于多奖励RL优化的常见做法,指出了以往被忽略的问题:GRPO本质上压缩了奖励信号,导致优势估计信息丢失。举例来说,假设每个问题生成两个rollout用于计算组内相对优势,且任务有两个二值奖励( r_1, r_2 \in {0,1} ),那么每个rollout的总奖励可取值{0,1,2}。

如图2所示,枚举所有组内可能的rollout奖励组合及其归一化后的优势。尽管去重后有6种奖励组合,应用组内归一化后,实际上只剩下两类优势组:(0,1)、(0,2)、(1,2)都变为同样的标准化优势(−0.7071, 0.7071 ),而(0,0)、(1,1)、(2,2)都变为(0, 0)。这说明GRPO在多奖励优化中的组内优势计算存在根本性限制,过度压缩了丰富的奖励信号。直观上,(0,2)应比(0,1)提供更强的学习信号,因为总奖励2表示同时达到两个目标,而1只满足一个目标。因此,当另一个rollout奖励为0时,(0,2)本应获得更大的相对优势。但由于这种限制,可能造成训练不稳定,带来估计偏差。如图5所示,使用GRPO训练时,正确性分数在约400步后开始下降,出现部分训练崩溃现象。

最近,Dr.GRPO和DeepSeek-v3.2采用了GRPO的变体,将优势归一化中的标准差项去除,即
A s u m ( i , j ) = r s u m ( i , j ) − mean { r s u m ( i , 1 ) , . . . , r s u m ( i , G ) } A^{(i,j)}{sum} = r^{(i,j)}{sum} - \text{mean}\{r^{(i,1)}{sum},...,r^{(i,G)}{sum}\} Asum(i,j)=rsum(i,j)−mean{rsum(i,1),...,rsum(i,G)}

这些工作最初是为缓解题目难度偏差,但这种修改看似也能区分(0,1)和(0,2)变为(−0.5, 0.5)和(−1.0, 1.0)。但当组内rollout数增加(奖励数不变)时,实际仅带来有限的优势组增多。同样,在rollout数固定为4、奖励数增加的设定下,优势组数量提升也不明显。我们在4.1.1节也做了实证,去除标准差项并未带来更好的收敛或下游性能。



3. 方法

3.1. 组奖励解耦归一化策略优化(Group reward-Decoupled normalization Policy Optimization,GDPO)

为了解决上述挑战,我们提出了组奖励解耦归一化策略优化(GDPO),该方法旨在更好地保持不同奖励组合之间的区分度,更准确地捕捉它们在最终优势中的相对差异。与直接对奖励总和做组内归一化的GRPO不同,GDPO对每个奖励分别做组内归一化,然后再聚合。

具体来说,不是先将 n n n个奖励相加(如公式(1)),再做组内归一化得到 A sum A_{\text{sum}} Asum(公式(2)),GDPO对第 i i i个问题的第 j j j个rollout的每个奖励分别计算归一化优势:

A 1 ( i , j ) = r 1 ( i , j ) − m e a n { r 1 ( i , 1 ) , ... , r 1 ( i , G ) } s t d { r 1 ( i , 1 ) , ... , r 1 ( i , G ) } , ... , A n ( i , j ) = r n ( i , j ) − m e a n { r n ( i , 1 ) , ... , r n ( i , G ) } s t d { r n ( i , 1 ) , ... , r n ( i , G ) } A^{(i,j)}_1 = \frac{r^{(i,j)}_1 - \mathrm{mean}\{r^{(i,1)}_1, \ldots, r^{(i,G)}_1\}}{\mathrm{std}\{r^{(i,1)}_1, \ldots, r^{(i,G)}_1\}}, \quad \ldots, \quad A^{(i,j)}_n = \frac{r^{(i,j)}_n - \mathrm{mean}\{r^{(i,1)}_n, \ldots, r^{(i,G)}_n\}}{\mathrm{std}\{r^{(i,1)}_n, \ldots, r^{(i,G)}_n\}} A1(i,j)=std{r1(i,1),...,r1(i,G)}r1(i,j)−mean{r1(i,1),...,r1(i,G)},...,An(i,j)=std{rn(i,1),...,rn(i,G)}rn(i,j)−mean{rn(i,1),...,rn(i,G)}

(公式4)

最终用于策略更新的优势通过将所有目标的归一化优势相加得到:

A sum ( i , j ) = A 1 ( i , j ) + ⋯ + A n ( i , j ) A^{(i,j)}_{\text{sum}} = A^{(i,j)}_1 + \cdots + A^{(i,j)}_n Asum(i,j)=A1(i,j)+⋯+An(i,j)

(公式5)

接着,对整个批次 D Batch D_{\text{Batch}} DBatch中的优势做批量归一化,确保最终优势的数值尺度稳定,不会随奖励数量增加而膨胀:

A ^ sum ( i , j ) = A sum ( i , j ) − m e a n { A sum ( i ′ , j ′ ) ∣ i ′ ∈ D Batch , j ′ = 1 , ... , G } s t d { A sum ( i ′ , j ′ ) ∣ i ′ ∈ D Batch , j ′ = 1 , ... , G } + ϵ \hat{A}^{(i,j)}{\text{sum}} = \frac{A^{(i,j)}{\text{sum}} - \mathrm{mean}\{A^{(i',j')}{\text{sum}} \mid i' \in D{\text{Batch}}, j'=1,\ldots,G\}}{\mathrm{std}\{A^{(i',j')}{\text{sum}} \mid i' \in D{\text{Batch}}, j'=1,\ldots,G\} + \epsilon} A^sum(i,j)=std{Asum(i′,j′)∣i′∈DBatch,j′=1,...,G}+ϵAsum(i,j)−mean{Asum(i′,j′)∣i′∈DBatch,j′=1,...,G}

(公式6)

经验上,我们发现这一步批量归一化有助于提升训练稳定性(详见附录A)。若去除该步,训练有时会失败。

通过对每个奖励单独归一化,GDPO缓解了GRPO在优势估计中存在的信息丢失问题(如图2所示)。图中可以看到,GRPO将如(0,2)和(0,1)等不同奖励组合映射为相同的归一化优势,模糊了它们之间的细微差别。相比之下,GDPO对这些组合赋予了不同优势值,例如GDPO归一化后,(0,1)变为 ( − 0.7071 , 0.7071 ) (-0.7071, 0.7071) (−0.7071,0.7071),而(0,2)变为 ( − 1.4142 , 1.4142 ) (-1.4142, 1.4142) (−1.4142,1.4142),更合理反映了(0,2)应比(0,1)产生更强学习信号。

类似地,将rollout数扩展至3时,GRPO会将(1,1,1)的优势估计为 ( 0 , 0 , 0 ) (0,0,0) (0,0,0),但该组合可能由不同奖励分布组成,如 r 1 = ( 1 , 1 , 0 ) r_1 = (1,1,0) r1=(1,1,0)或 r 2 = ( 0 , 0 , 1 ) r_2 = (0,0,1) r2=(0,0,1),而GDPO会为这些情况生成非零优势,保留了奖励维度间的有意义差异。

我们进一步通过比较GDPO、GRPO及去除标准差项的GRPO在两种实验设置下不同优势组数量来量化GDPO的效果(见图3)。在两个奖励且rollout数变化的场景中,GDPO始终生成更多不同的优势组,且随着rollout数增加,差距扩大。固定rollout数为4,增加奖励数时,也呈现类似趋势,GDPO优势粒度随目标数增大而提高。证明解耦归一化提升了所有RL设置下优势组的数量,实现了更精确的优势估计。

除此之外,GDPO带来更稳定的训练曲线和更好的收敛性能。例如在工具调用任务中,GDPO在格式奖励和正确性奖励上均表现出更优收敛(见图4);在数学推理任务中,GDPO消除了GRPO出现的训练崩溃问题(见图5),训练过程中正确性奖励持续提升。更多实验证据详见第4节,展示GDPO在多种下游任务中实现了更强的目标偏好对齐。


3.2. 有效整合优先级变动

到目前为止,我们假设所有目标权重相等,但现实应用中并非总是如此。这里系统介绍如何调整不同目标奖励的权重,或改变奖励函数以强调更重要的目标。同时讨论在奖励难度差异显著时,这两种设计的不同表现。

通常做法是为各奖励赋予不同权重,表达优先级:

r sum = w 1 r 1 + ⋯ + w n r n r_{\text{sum}} = w_1 r_1 + \cdots + w_n r_n rsum=w1r1+⋯+wnrn

从而控制每个奖励对最终用于策略更新优势的贡献。GDPO则在归一化优势上应用权重:

A sum ( i , j ) = w 1 A 1 ( i , j ) + ⋯ + w n A n ( i , j ) A^{(i,j)}_{\text{sum}} = w_1 A^{(i,j)}_1 + \cdots + w_n A^{(i,j)}_n Asum(i,j)=w1A1(i,j)+⋯+wnAn(i,j)

(公式7)

但我们发现,当各目标难度差异大时,简单调整权重未必达预期效果。如果某一目标远比其他目标容易,模型往往会优先最大化该奖励,忽略权重分配。为了让模型更多关注难度较大的奖励,权重差异必须足够大以抵消难度差异。但即使如此,模型仍可能偏向优化较容易的奖励,而非用户优先的目标,实验证明见第4.2.1节。

因此,部分最新工作通过对简单奖励条件化复杂奖励来应对此类"奖励劫持"。具体地,对于两个奖励 r k r_k rk和 r l r_l rl,将 r k r_k rk条件化于 r l r_l rl可定义为:

r k = { r k , 如果 r l ≥ t 0 , 否则 r_k = \begin{cases} r_k, & \text{如果 } r_l \geq t \\ 0, & \text{否则} \end{cases} rk={rk,0,如果 rl≥t否则

(公式8)

即只有当奖赏 r l r_l rl达到预设阈值 t t t时,模型才会获得 r k r_k rk奖励。这样设计迫使模型优先最大化用户优先的复杂奖励,完全消除上述问题。

第4.2.1节的实验证明了该策略的有效性:采用条件奖励函数的模型在优先目标上表现明显优于仅通过加大权重调节的模型。同时,我们还观察到,解决了容易奖励主导问题后,赋予不同奖励权重以做细粒度优先级调整,也更能忠实反映在最终模型行为中。


以下是你提供的实验章节内容的中文翻译,保留了原文的准确性与专业性,公式部分以LaTeX格式呈现:


4. 实验

我们首先在工具调用任务(第4.1节)上评估GDPO相较于GRPO的有效性,该任务涉及两个奖励的优化:工具调用正确性和格式符合性。接着进行消融实验,考察GRPO在有无标准差归一化情况下的训练收敛性及下游性能。随后,我们在数学推理任务(第4.2节)上比较GDPO与GRPO,该任务优化两个隐含竞争的奖励:准确率和长度约束。我们进一步深入分析不同奖励权重设置及奖励函数修改对优先级体现的影响,尤其是在奖励难度差异较大时。最后,将优化奖励数扩展到三个,在代码推理任务(第4.3节)中比较GRPO和GDPO,联合优化代码生成准确率、长度约束和错误率,进一步验证GDPO在三目标设置下的泛化能力。


4.1 工具调用任务

我们参照ToolRL的设置[12]比较GDPO与GRPO。在该任务中,模型学习如何在推理过程中调用外部工具解决用户任务,输出格式要求详见附录B,推理步骤需用<think></think>包裹,工具调用置于<tool_call></tool_call>,最终答案放在<response></response>。训练集与ToolRL一致,包含来自ToolACE[15]的2000条样本,Hammar[16]和xLAM[17]各1000条,每条包含问题及对应的真实工具调用。

训练涉及两种奖励:

  • 格式奖励 R format ∈ { 0 , 1 } \mathcal{R}_{\text{format}} \in \{0,1\} Rformat∈{0,1}:检查模型输出是否符合所需结构,且包含所有必要字段且顺序正确。
  • 正确性奖励 R correct ∈ [ − 3 , 3 ] \mathcal{R}_{\text{correct}} \in [-3,3] Rcorrect∈[−3,3]:通过工具名匹配、参数名匹配和参数内容匹配三个指标,评估生成的工具调用与真实调用的一致性。具体奖励设计详见附录C。

我们使用Qwen-2.5-Instruct(1.5B及3B版本)[18],采用verl训练框架[19],训练100步,超参遵循ToolRL中GRPO的设置。每问题采样4个rollout,批大小512,最大响应长度1024。超参数详情见附录D。

在Berkeley Function Call Leaderboard (BFCL-v3) [20]上评估模型,BFCL-v3包含单步推理、多步工具使用、实时执行、无关工具拒绝、多工具同时选择和多工具执行等多种挑战。我们进行了5次重复训练,报告平均准确率和格式正确率,结果汇总于表1,并绘制了训练曲线中位数及四分位区间(见图4)。

训练曲线显示,GDPO在所有重复中均稳定收敛至更高的格式和正确性奖励值。尽管GDPO在格式奖励收敛步数上方差较大,但最终格式正确率优于GRPO。正确性奖励方面,GDPO在早期提升更快,后期达到更高分数,表明GDPO的优势估计更准确,优化效果更好。

表1中的BFCL-v3评测结果显示,GDPO在工具调用准确率和格式正确率上均优于GRPO。Qwen2.5-Instruct-1.5B模型在Live/non-Live任务上分别提升近5%和3%,整体准确率提升约2.7%,格式正确率提升超过4%。3B模型也表现类似,GDPO在所有子任务中均优于GRPO,最高提升约2%准确率及更好格式合规性。

回顾图3,去除GRPO中的标准差归一化(记为GRPO w/o std)稍微增加了不同优势组数。本节实证考察该修改效果。我们重复运行5次GRPO w/o std并报告BFCL-v3上的平均准确率和格式正确率。

奖励训练曲线(图1b)表明,GRPO w/o std在正确性奖励上收敛至与GDPO接近且高于标准GRPO,但完全未能提升格式奖励,BFCL-v3上的格式正确率为0%(见表2),表明模型未学会所需输出格式。这也说明单纯去除标准差归一化以增加优势多样性会引入训练不稳定性,最终可能导致多奖励强化学习失败收敛。


4.2 数学推理任务

该任务优化两个隐含竞争奖励:准确率和长度约束。目标是提升模型在高难度数学问题上的表现,同时保持输出在预定长度内,促进高效解题。

我们在DeepScaleR-Preview数据集[22]上训练DeepSeek-R1-1.5B、DeepSeek-R1-7B[8]和Qwen3-4B-Instruct[21],训练500步,数据包含4万道竞赛级数学题。使用verl训练框架[19],遵循DeepSeek-R1提示格式[8]。结合DLER设置[14],引入动态采样、更高裁剪阈值及DAPO的token-mean损失[9],采样16个rollout,批大小512,最大响应长度8000。完整超参详见附录E。

奖励如下:

  • 长度奖励 R length ∈ { 0 , 1 } \mathcal{R}_{\text{length}} \in \{0,1\} Rlength∈{0,1},判断输出长度是否在阈值 l l l以内(本系列实验均设 l = 4000 l=4000 l=4000):

R length = { 1 , 若响应长度 ≤ l 0 , 否则 \mathcal{R}_{\text{length}} = \begin{cases} 1, & \text{若响应长度} \leq l \\ 0, & \text{否则} \end{cases} Rlength={1,0,若响应长度≤l否则

  • 正确性奖励 R correct ∈ { 0 , 1 } \mathcal{R}_{\text{correct}} \in \{0,1\} Rcorrect∈{0,1},判定模型最终答案是否与真值匹配。

我们在AIME-24[23]、AMC(2022及2023)[24]、MATH[25]、Minerva[26]及Olympiad Bench[27]上评估,均使用vLLM推理后端,采样温度0.6,top-p=0.95,最大响应长度32k。每题生成16个样本,报告平均pass@1分数及长度超限比例(Exceed)。

如图5所示,训练曲线反映模型倾向于优先最大化较易奖励(长度奖励),两种方法均在约100步内达到几乎满分长度奖励。长度奖励快速提升同时伴随正确性奖励早期下降,表明两奖励存在竞争。在训练早期,模型优先满足长度约束,牺牲了更难的正确性目标。正确性奖励轨迹显示,GDPO较GRPO更有效恢复正确性,且在相似训练步数下达到更高正确性分数。GRPO在400步后正确性奖励趋于不稳定并下降,而GDPO持续提升。

此外,虽然两者训练中均保持接近满分长度奖励,但记录训练批次最大响应长度发现,GRPO在400步后最大长度迅速增长,GDPO则持续下降。附录中DeepSeek-R1-7B和Qwen3-4B-Instruct的训练曲线(图9、图10)也证实了GDPO更好地约束长度限制。这进一步凸显了GDPO在多奖励优化上的优势。

表3的基准测试结果表明,GDPO训练的模型在提升推理效率(如AIME中长度超限率降低80%)的同时,大多数任务准确率也有显著提升。GDPO通常在准确率和长度约束上均优于GRPO。DeepSeek-R1-1.5B上,GDPO在MATH、AIME和Olympiad任务的准确率分别提升2.6%、6.7%和2.3%,长度超限率均有所下降。DeepSeek-R1-7B和Qwen3-4B-Instruct表现类似,实现了更优准确率与效率的权衡。特别是在较难的AIME任务中,GDPO准确率提升近3%,长度超限率降至0.2%和0.1%,而GRPO分别为2.1%和2.5%。结果表明,GDPO不仅提升了数学任务推理准确性,还更有效地满足长度约束,体现了其在多奖励优化上的优势。


4.2.1 不同奖励优先级设置的影响分析

如图5所示,即使两个目标赋予相同权重,模型仍倾向最大化较易目标,牺牲更难目标。我们探讨调整奖励权重是否能引导模型优先最大化正确性奖励,特别是在两目标难度显著不同的情况下。

实验中,我们固定正确性奖励权重 w correct = 1 w_{\text{correct}}=1 wcorrect=1,调整长度奖励权重 w length ∈ { 0.25 , 0.5 , 0.75 , 1.0 } w_{\text{length}} \in \{0.25,0.5,0.75,1.0\} wlength∈{0.25,0.5,0.75,1.0},观察降低长度权重是否促使模型优先提升更难的正确性奖励。实验在DeepSeek-R1-7B上进行,评测MATH和AIME任务的平均准确率和长度超限率,完整结果见附录G。

结果显示,将 w length w_{\text{length}} wlength降至0.75或0.5对平均长度超限率影响甚微,GRPO在AIME上的变动仅0.4%和0.2%,GDPO为1.3%和0.6%;且降低权重并未必放宽长度约束,例如从0.75降至0.5未在AIME或MATH上持续提升长度超限率。说明单纯调整权重难以驱动模型实现预期优先级,仅当 w length w_{\text{length}} wlength降至0.25,足够弥补目标难度差异时,才在AIME(GRPO和GDPO)和MATH(GDPO)上观察到明显长度超限率上升。

接着,我们尝试将较易的长度奖励条件化于较难的正确性奖励(参见第3.2节),将长度奖励替换为:

R ~ length = { 1 , 若响应长度 ≤ l 且 R correct = 1 0 , 否则 \tilde{\mathcal{R}}{\text{length}} = \begin{cases} 1, & \text{若响应长度} \leq l \text{ 且 } \mathcal{R}{\text{correct}} = 1 \\ 0, & \text{否则} \end{cases} R~length={1,0,若响应长度≤l 且 Rcorrect=1否则

此设计使模型仅在回答正确时才能获得长度奖励。

观察发现,使用 R ~ length \tilde{\mathcal{R}}_{\text{length}} R~length后,训练初期模型不会过度追求长度奖励,从而避免正确性奖励大幅下降(见图7),正确性奖励在训练早期仅小幅下跌,随后逐步恢复。

表4显示,采用条件长度奖励 R ~ length \tilde{\mathcal{R}}{\text{length}} R~length相比仅调整权重 w length w{\text{length}} wlength,无论GRPO还是GDPO均带来较大长度超限率提升,显示更有效放宽长度约束。GRPO虽放宽长度限制但无法带来准确率提升,GDPO则更有效优先正确性奖励,训练中准确率提升更稳定,同时长度违规增幅更小。例如,GDPO+条件长度奖励在AIME上准确率提升4.4%,长度超限率降低16.9%;AMC上准确率增3%,长度违规减4.8%,均优于对应GRPO组合。

随后,我们固定正确性奖励权重,调整条件长度奖励权重 w ~ length ∈ { 0.25 , 0.5 , 0.75 , 1.0 } \tilde{w}{\text{length}} \in \{0.25,0.5,0.75,1.0\} w~length∈{0.25,0.5,0.75,1.0},观察细粒度优先级调整的反映。结果(图6)显示,采用条件奖励训练的模型行为更稳定且可预测,如将 w ~ length \tilde{w}{\text{length}} w~length从1.0降低到0.25,GRPO和GDPO在MATH和AIME的长度超限率稳步增加,对比原始长度奖励权重调整时表现出不稳定。

综上,无论奖励形式还是权重设置,GDPO均持续优于GRPO,提供了更优准确率与效率的权衡。


4.3 代码推理任务

任务配置 通过率( R pass \mathcal{R}_{\text{pass}} Rpass) 长度超限率 Bug率 ( R bug \mathcal{R}_{\text{bug}} Rbug)
R pass + R ~ length \mathcal{R}{\text{pass}} + \tilde{\mathcal{R}}{\text{length}} Rpass+R~length 优化通过率与条件长度奖励
R pass + R ~ length + R bug \mathcal{R}{\text{pass}} + \tilde{\mathcal{R}}{\text{length}} + \mathcal{R}_{\text{bug}} Rpass+R~length+Rbug 优化通过率、条件长度奖励和Bug奖励

我们考察在三个奖励的优化任务中,GDPO是否仍优于GRPO。类似数学推理设置,目标是提升模型编码性能,同时限制输出长度,并引入第三个奖励鼓励生成无Bug代码。我们在Eurus-2-RL数据集[28]上训练DeepSeek-R1-7B,包含24k编程题目,每题多个测试用例。训练400步,超参与数学推理任务一致,使用verl训练框架。

奖励定义如下:

  • 通过率奖励 R pass ∈ [ 0 , 1 ] \mathcal{R}_{\text{pass}} \in [0,1] Rpass∈[0,1],衡量生成代码通过测试用例比例:

R pass = 通过测试用例数 总测试用例数 \mathcal{R}_{\text{pass}} = \frac{\text{通过测试用例数}}{\text{总测试用例数}} Rpass=总测试用例数通过测试用例数

  • 条件长度奖励 R ~ length ∈ { 0 , 1 } \tilde{\mathcal{R}}_{\text{length}} \in \{0,1\} R~length∈{0,1},判断生成代码是否在长度限制内且通过测试:

R ~ length = { 1 , 若响应长度 ≤ l 且 R pass = 1 0 , 否则 \tilde{\mathcal{R}}{\text{length}} = \begin{cases} 1, & \text{若响应长度} \leq l \text{ 且 } \mathcal{R}{\text{pass}} = 1 \\ 0, & \text{否则} \end{cases} R~length={1,0,若响应长度≤l 且 Rpass=1否则

  • Bug奖励 R bug ∈ { 0 , 1 } \mathcal{R}_{\text{bug}} \in \{0,1\} Rbug∈{0,1},指示生成代码是否无运行时或编译错误。

在PRIME验证集上评估,包含Apps[29]、CodeContests[30]、Codeforces及Taco[31]等子集。推理设置同数学推理,采样温度0.6,top-p=0.95,最大响应长度32k。每题生成16个rollout,报告测试用例通过率、长度超限率及Bug率(生成代码出现运行或编译错误的比例)。

我们比较两种配置下的GDPO和GRPO:(1)两奖励配置: R pass + R ~ length \mathcal{R}{\text{pass}} + \tilde{\mathcal{R}}{\text{length}} Rpass+R~length,记为GRPO2-obj与GDPO2-obj;(2)三奖励配置: R pass + R ~ length + R bug \mathcal{R}{\text{pass}} + \tilde{\mathcal{R}}{\text{length}} + \mathcal{R}_{\text{bug}} Rpass+R~length+Rbug,记为GRPO3-obj与GDPO3-obj。

表5展示,GDPO2-obj在所有任务中均提升通过率,长度超限率变化甚微。例如在CodeContests任务中,GDPO2-obj通过率提升2.6%,长度超限率仅升0.1%;在Taco任务中提升3.3%通过率且长度违规减少1%。三奖励配置下,GDPO3-obj在三目标上取得更均衡表现,通过率与GRPO3-obj相近,但长度超限率和Bug率显著降低。

整体结果表明,随着奖励信号数增加,GDPO依然表现出色。在两奖励和三奖励配置中,GDPO均实现了比GRPO更优的目标权衡。


5. 相关工作

GRPO 变体

针对组相对策略优化(GRPO)[32],已有多种扩展方法被提出,以提升该框架的稳定性、效果和效率。这些方法在保持GRPO核心思想的基础上,探索了不同的组内归一化或策略更新方式。例如,为了提高稳定性,组序列策略优化(GSPO)[33]基于序列的整体似然比而非逐token比率,进行序列级别的截断、奖励和优化。为提升强化学习性能,解耦截断与动态采样策略优化(DAPO)[34]引入了四项关键技术:Clip-Higher、动态采样、token级策略梯度损失及超长奖励塑造。为促进推理效率,组过滤策略优化(GFPO)[35]通过在训练时为每个问题采样更大的组并基于长度及每token奖励比过滤回应,解决了长度爆炸问题。沿此思路,"正确的长度惩罚方法"(DLER)[36]提出结合批量奖励归一化、更高截断阈值、动态采样和简单截断长度惩罚的训练配方,实现了最先进的准确率-效率权衡。

多奖励强化学习

越来越多研究关注如何引入多奖励信号的强化学习方法。一大应用是建模多样化的人类偏好。例如,"基于人类反馈的安全强化学习"[37]将人类对有用性与无害性的偏好解耦,在微调过程中动态调整两目标的平衡。类似地,"个性化人类反馈强化学习"(RLPHF)[38]通过分别训练针对不同偏好的策略模型,并在推理时合并它们,优化具有多个(有时冲突的)偏好的大型语言模型。ALARM(通过分层奖励对语言模型进行对齐)[39]引入了一种层级奖励结构,联合捕获响应质量、风格、公平性和连贯性等维度。

近期大型语言模型的发展也融合了多奖励优化以应对复杂任务。例如,DeepSeek V3.2[40]结合基于规则的结果奖励、长度惩罚和语言一致性奖励,提升推理和智能代理能力。另一重要应用是改善推理模型的效率同时保持任务性能,主要通过引入基于长度的奖励函数与结果奖励共同优化。例如,O1-Pruner[41]和[42]应用归一化长度惩罚以确保压缩比例合理;[43]通过惩罚偏离组内最短正确回复的行为促进简洁性;L1[44]提出长度控制策略优化(LCPO),在保证准确率的同时控制回复长度;最后,[45]提出自适应奖励塑造方法,根据模型表现动态调整准确率和响应长度之间的权衡。


6. 结论

与以往主要关注设计多奖励强化学习新奖励函数且默认采用GRPO优化的研究不同,本研究重新审视了一个基础但常被忽视的问题:GRPO是否真正适合多奖励优化。我们的分析表明,直接将GRPO应用于奖励总和时,不同的奖励组合可能会塌缩为相同的优势值。这种塌缩会丢失奖励维度之间的重要区分,导致策略更新不准确,优化性能减弱,且在许多情况下会造成训练早期失败。

为解决这一局限,我们提出了组奖励解耦策略优化(GDPO),这是一种针对多奖励强化学习的简单且高效的GRPO改进方法。GDPO对每个奖励分别归一化,保持跨奖励的差异,同时引入批量优势归一化,确保随着奖励数量增加最终优势的数值范围稳定。这些改动带来了更优的收敛行为及更忠实反映目标偏好的模型。

我们还系统性探讨了如何在训练中融入人类偏好优先级,并说明当目标间难度差异较大时,应如何调整奖励函数。通过广泛的工具调用、数学推理和代码推理实验,验证了GDPO持续优于GRPO。其优势在不同奖励数量、不同模型和不同奖励函数设置下均能体现。

总体而言,我们的研究确立了GDPO作为一种比GRPO更稳定、更准确、更符合偏好对齐需求的多奖励强化学习优化方法,为实际环境中将语言模型与多样化人类偏好对齐提供了坚实基础。


相关推荐
systeminof2 小时前
亚马逊转向自研路线,AI生态控制权之争升温
人工智能
Ray Liang2 小时前
EvoMap 硬刚 OpenClaw!从基因胶囊到仿生大脑,AI 的尽头果然是生物学
人工智能·ai助手·openclaw·mindx
说实话起个名字真难啊2 小时前
彻底解决openclaw的tokens焦虑
人工智能·ai·openclaw
新缸中之脑2 小时前
从零实现AI代理的长期记忆
数据库·人工智能
摸鱼仙人~2 小时前
0-1背包与完全背包:遍历顺序背后的秘密
人工智能·算法
AC赳赳老秦2 小时前
文旅AI趋势:DeepSeek赋能客流数据,驱动2026智慧文旅规模化跃迁
人工智能·python·mysql·安全·架构·prometheus·deepseek
systeminof2 小时前
AI作曲进入一句话时代:谷歌Gemini推出音乐模型
人工智能
量子-Alex2 小时前
【大模型思维链】RAP-MCTS算法详解
人工智能
技术宅学长3 小时前
什么是FFN层(Feed-Forward Network,前馈神经网络层)
人工智能·深度学习·神经网络