GRPO 算法演进——奖励设计篇

文章目录

  • 一、引言
  • 二、奖励设计篇
    • [2.1 S-GRPO](#2.1 S-GRPO)
    • [2.2 SEED-GRPO](#2.2 SEED-GRPO)
    • [2.3 GRPO-λ 1 ^1 1](#2.3 GRPO-λ 1 ^1 1)
    • [2.4 EDGE-GRPO](#2.4 EDGE-GRPO)
    • [2.5 CAPO](#2.5 CAPO)
    • [2.6 COPO](#2.6 COPO)
    • [2.7 GTPO 2 ^2 2](#2.7 GTPO 2 ^2 2)
    • [2.8 MAPO](#2.8 MAPO)
    • [2.9 NGRPO](#2.9 NGRPO)
    • [2.10 GRPO-λ 2 ^2 2](#2.10 GRPO-λ 2 ^2 2)
    • [2.11 λ-GRPO](#2.11 λ-GRPO)
    • [2.12 FAPO](#2.12 FAPO)
    • [2.13 SAPO](#2.13 SAPO)
  • 三、相关文章

一、引言

Group Relative Policy Optimization(GRPO)凭借其无需价值网络、组内相对估计的优势,成为大语言模型强化学习的主流范式。然而,随着研究的深入,GRPO 在奖励稀疏性、样本效率、探索-利用平衡等方面的问题逐渐显现。

研究者们从奖励设计 这一核心维度出发,提出了一系列创新性改进方案。从 S-GRPO 的序列化早退奖励到 SEED-GRPO 的语义熵感知调节,从 EDGE-GRPO 的熵驱动优势修正到 CAPO 的细粒度过程奖励,再到 FAPO 的缺陷感知阶段转换------这些工作共同勾勒出 GRPO 奖励策略的大致演进图景:从二元结果奖励到多维度过程奖励,从静态固定奖励到动态自适应奖励,从粗粒度组级奖励到细粒度 token 级奖励

本文系统梳理 13 项代表性工作(S-GRPO, SEED-GRPO, GRPO-λ 1 ^1 1, EDGE-GRPO, CAPO, COPO, GTPO 2 ^2 2, MAPO, NGRPO, GRPO-λ 2 ^2 2, λ-GRPO, FAPO, SAPO),深入剖析其设计思想与数学机制。

算法名称 发布时间 算法完整名称 论文链接
S-GRPO 2025.05 Serial-Group Decaying-Reward Policy Optimization https://arxiv.org/abs/2505.07686
SEED-GRPO 2025.05 Semantic Entropy EnhanceD Group Relative Policy Optimization https://arxiv.org/abs/2505.12346
GRPO-λ 1 ^1 1 2025.05 Group Relative Policy Optimization with dynamic λ-threshold switching https://arxiv.org/abs/2505.18086
EDGE-GRPO 2025.07 Entropy-Driven Group Relative Policy Optimization with Guided Error Correction https://arxiv.org/abs/2507.21848
CAPO 2025.08 Credit Assignment Policy Optimization https://arxiv.org/abs/2508.02298
COPO 2025.08 Consistency-Aware Policy Optimization https://arxiv.org/abs/2508.04138
GTPO 2 ^2 2 2025.08 Group Token Policy Optimization https://arxiv.org/abs/2508.04349
MAPO 2025.09 Mixed Advantage Policy Optimization https://arxiv.org/abs/2509.18849
NGRPO 2025.09 Negative-enhanced Group Relative Policy Optimization https://arxiv.org/abs/2509.18851
GRPO-λ 2 ^2 2 2025.10 Group Relative Policy Optimization with λ-return eligibility traces https://arxiv.org/abs/2510.00194
λ-GRPO 2025.10 Unified Group Relative Policy Optimization with learnable λ https://arxiv.org/abs/2510.06870
FAPO 2025.10 Flawed-Aware Policy Optimization https://arxiv.org/abs/2510.22543
SAPO 2025.11 Soft Adaptive Policy Optimization https://arxiv.org/abs/2511.20347

二、奖励设计篇

2.1 S-GRPO

核心思想:在单条推理路径上设置多个早退检查点形成"序列组",并对越早产生的正确答案给予指数级更高奖励,使模型学会在推理充分时及时终止思考,缩短推理长度。

  • 序列组生成

    • 阶段一:Full Thought Rollout

      • 生成完整推理路径: O 0 = { T 1 , T 2 , ... , T n , < / t h i n k > , C 0 } O^0 = \{T_1, T_2, \ldots, T_n, </think>, C_0\} O0={T1,T2,...,Tn,</think>,C0}
      • 随机选择 m m m 个截断位置 P i ∼ Uniform ( 1 , n ) P_i \sim \text{Uniform}(1,n) Pi∼Uniform(1,n)
    • 阶段二:Early-exit Thought Rollout

      • 在每个截断位置 P i P_i Pi 插入提示词:"Time is limited, stop thinking and start answering.\n〈/think〉\n\n"
      • 生成中间答案 C 1 , C 2 , ... , C m C_1, C_2, \ldots, C_m C1,C2,...,Cm,形成序列组 { O 1 , O 2 , ... , O m , O 0 } \{O^1, O^2, \ldots, O^m, O^0\} {O1,O2,...,Om,O0}
  • 指数衰减奖励策略

    r i = { 1 2 N right − 1 , if C i is correct 0 , if C i is incorrect r^i = \begin{cases} \frac{1}{2^{N_{\text{right}}-1}}, & \text{if } C^i \text{ is correct} \\ 0, & \text{if } C^i \text{ is incorrect} \end{cases} ri={2Nright−11,0,if Ci is correctif Ci is incorrect

    其中 N right N_{\text{right}} Nright 表示当前位置为止累计的正确答案数量。越早退出且正确,奖励越高(1, 1/2, 1/4, 1/8...),错误答案一律得0。

目标函数
J S-GRPO ( θ ) = E q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ old ( O ∣ q ) [ 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ min ⁡ [ π θ i , t π θ old i , t A ^ i , t , clip ( π θ i , t π θ old i , t , 1 − ϵ , 1 + ϵ ) A ^ i , t ] ] \mathcal{J}{\text{S-GRPO}}(\theta) = \mathbb{E}{q \sim P(Q), \{o_i\}{i=1}^G \sim \pi{\theta_{\text{old}}}(O|q)} \left[ \frac{1}{G}\sum_{i=1}^{G} \frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \min\left[\frac{\pi_\theta^{i,t}}{\pi_{\theta_{\text{old}}}^{i,t}}\hat{A}{i,t}, \text{clip}\left(\frac{\pi\theta^{i,t}}{\pi_{\theta_{\text{old}}}^{i,t}}, 1-\epsilon, 1+\epsilon\right)\hat{A}_{i,t}\right] \right] JS-GRPO(θ)=Eq∼P(Q),{oi}i=1G∼πθold(O∣q) G1i=1∑G∣oi∣1t=1∑∣oi∣min[πθoldi,tπθi,tA^i,t,clip(πθoldi,tπθi,t,1−ϵ,1+ϵ)A^i,t]

A ^ i = r i − mean ( r i ) \hat{A}_i = r_i - \text{mean}(r_i) A^i=ri−mean(ri)


2.2 SEED-GRPO

核心思想:引入"语义熵"量化模型对输入提示的不确定性,让策略更精准地匹配模型对任务难度的感知,对于模型表现出高不确定性的问题,模型更新应该更加保守。

核心流程

  • 第一步:语义聚类

    将 G G G 个采样响应 { o 1 , o 2 , ... , o G } \{o_1, o_2, \ldots, o_G\} {o1,o2,...,oG} 按语义含义分组:

    • 形成 K K K 个语义簇 C = { C 1 , C 2 , ... , C K } \mathcal{C} = \{C_1, C_2, \ldots, C_K\} C={C1,C2,...,CK}
    • 每个簇 C k = { o i : meaning ( o i ) = k } C_k = \{o_i : \text{meaning}(o_i) = k\} Ck={oi:meaning(oi)=k},包含语义相同但表述可能不同的响应
  • 第二步:计算语义熵(Semantic Entropy)

    衡量模型对提示词 q q q 的不确定性:

    SE ( q ) ≈ − 1 K ∑ k = 1 K log ⁡ p ( C k ∣ q ) \text{SE}(q) \approx -\frac{1}{K}\sum_{k=1}^{K}\log p(C_k \mid q) SE(q)≈−K1k=1∑Klogp(Ck∣q)

    其中:

    • p ( C k ∣ q ) = ∑ o i ∈ C k π θ old ( o i ∣ q ) p(C_k \mid q) = \sum_{o_i \in C_k} \pi_{\theta_{\text{old}}}(o_i \mid q) p(Ck∣q)=∑oi∈Ckπθold(oi∣q) 是第 k k k 个簇的总概率质量

    熵的边界:

    情况 簇数量 语义熵值 含义
    完全确定 K = 1 K=1 K=1(所有响应同义) SE ( q ) = 0 \text{SE}(q) = 0 SE(q)=0 模型完全确定
    极端不确定 K = G K=G K=G(每个响应都不同) SE max ⁡ = log ⁡ G \text{SE}_{\max} = \log G SEmax=logG 模型极度不确定
  • 第三步:不确定性感知优势调节

    根据语义熵动态调整优势(advantage),实现保守更新:

    A ^ i = A i ⋅ f ( α ⋅ SE ( q ) SE max ⁡ ( q ) ) \hat{A}i = A_i \cdot f\left(\alpha \cdot \frac{\text{SE}(q)}{\text{SE}{\max}(q)}\right) A^i=Ai⋅f(α⋅SEmax(q)SE(q))

    其中:

    • A i A_i Ai:原始优势值
    • α \alpha α:敏感性超参数
    • f ( ⋅ ) f(\cdot) f(⋅):调节函数(可选线性、指数、聚焦等形式)

    核心机制:

    • 高熵 (高不确定性)→ f ( ⋅ ) f(\cdot) f(⋅) 输出小 → 优势被压缩 → 更新更保守
    • 低熵 (高确定性)→ f ( ⋅ ) f(\cdot) f(⋅) 输出大 → 优势保留 → 正常更新

2.3 GRPO-λ 1 ^1 1

核心思想:通过动态调整奖励策略,平衡效率与准确率。在模型推理能力不足时,优先提升准确性,而在模型已经具备较强推理能力时,优化推理效率(应用长度惩罚奖励)。

核心流程

  • 第一步:查询采样组生成

    对每个训练查询 Q k Q_k Qk,模型生成 m m m 个候选回答 { O k 1 , O k 2 , ... , O k m } \{O_k^1, O_k^2, \ldots, O_k^m\} {Ok1,Ok2,...,Okm}。每个 O k i O_k^i Oki 包含:长度 L k i L_k^i Lki 和 结果奖励 r k i ∈ { 0 , 1 } r_k^i \in \{0, 1\} rki∈{0,1}

  • 第二步:批次级 Top-λ 选择
    目标:区分"已足够准确"和"仍需提升准确"的组

    • 评估批次内每个查询-补全组的正确率
    • 按正确率对组进行排序
    • 选择 Top-λ 比例 (如前20%)→ 效率优先优化
    • 剩余组 → 准确率优先优化
  • 第三步:动态奖励策略调整

    根据 Top-λ 选择结果,应用两种不同奖励策略:

    • 效率优先优化(带长度惩罚)------ 针对 Top-λ 组

    r k i = { 1 − α ⋅ σ ( L k i − mean ( L k ) correct std ( L k ) correct ) if O k i is correct 0 if O k i is wrong r_k^i = \begin{cases} 1 - \alpha \cdot \sigma\left(\frac{L_k^i - \text{mean}(L_k){\text{correct}}}{\text{std}(L_k){\text{correct}}}\right) & \text{if } O_k^i \text{ is correct} \\ 0 & \text{if } O_k^i \text{ is wrong} \end{cases} rki={1−α⋅σ(std(Lk)correctLki−mean(Lk)correct)0if Oki is correctif Oki is wrong

    • 准确率优先优化(0/1 结果奖励)------ 针对非 Top-λ 组

    r k i = { 1 if O k i is correct 0 if O k i is wrong r_k^i = \begin{cases} 1 & \text{if } O_k^i \text{ is correct} \\ 0 & \text{if } O_k^i \text{ is wrong} \end{cases} rki={10if Oki is correctif Oki is wrong


2.4 EDGE-GRPO

核心思想:通过外部引导修正错误响应(GEC)和基于策略熵精细调整优势(EDA),实现"奖励自信正确、惩罚固执错误"的自适应训练,有效缓解优势坍塌。

引导式错误修正(GEC)

针对错误响应,按概率执行三种操作,从根本上增强响应多样性。

操作 概率 描述
Prompt and Regenerate P = 0.5 提供反思提示,要求模型重新生成答案
Direct Answer Injection P = 0.25 反思提示 + 直接提供正确答案
Reference Solution Replacement P = 0.25 完全替换为外部参考解决方案

熵驱动优势(EDA)

  • 策略熵计算

P = − 1 T ∑ t = 1 T ∑ j = 1 V P t , j ⋅ log ⁡ P t , j P = -\frac{1}{T}\sum_{t=1}^{T}\sum_{j=1}^{V} P_{t,j} \cdot \log P_{t,j} P=−T1t=1∑Tj=1∑VPt,j⋅logPt,j

P t , j = π θ ( j ∈ V ∣ q , o < t ) = Softmax ( logits t T ) P_{t,j} = \pi_\theta(j \in V | q, o_{<t}) = \text{Softmax}\left(\frac{\text{logits}_t}{T}\right) Pt,j=πθ(j∈V∣q,o<t)=Softmax(Tlogitst)

其中 T T T 表示 response 的 tokens 的个数, V V V 表示词表大小, P t , j P_{t,j} Pt,j 表示 LLM 在第 t t t 个 token 的位置输出词 j j j 的概率。

  • 优势计算

    P ^ i = P i mean ( { P 1 , P 2 , ⋯   , P G } ) \hat{P}_i = \frac{P_i}{\text{mean}(\{P_1, P_2, \cdots, P_G\})} P^i=mean({P1,P2,⋯,PG})Pi
    A ^ i = A i P ^ i \hat{A}_i = \frac{A_i}{\hat{P}_i} A^i=P^iAi

    • 给正确且置信度高(低熵)的响应更高的优势,错误且置信度高的响应施加更严厉的惩罚。

2.5 CAPO

核心思想:针对 GRPO 粗粒度反馈的困境,利用现成LLM作为生成式过程奖励模型生成步骤级批判,并采用非对称的层次化奖励结构实现细粒度奖励分配。

  • 通过LLM-as-GenPRM生成过程评分

    1. 从旧策略模型采样n个响应: { y i } i = 1 n ∼ π θ old ( ⋅ ∣ q ) \{y_i\}{i=1}^n \sim \pi{\theta_{\text{old}}}(\cdot|q) {yi}i=1n∼πθold(⋅∣q)
    2. 使用LLM-as-GenPRM生成k个批判: { c j } j = 1 k ∼ π LLM-as-GenPRM ( ⋅ ∣ I , q , y i ) \{c_j\}{j=1}^k \sim \pi{\text{LLM-as-GenPRM}}(\cdot|I, q, y_i) {cj}j=1k∼πLLM-as-GenPRM(⋅∣I,q,yi)
    3. 提取错误步骤索引: S i , j = ExtractIndices ( c j ) \mathcal{S}_{i,j} = \text{ExtractIndices}(c_j) Si,j=ExtractIndices(cj)
    4. 投票机制聚合结果: S i ∗ = ⋂ j = 1 k S i , j \mathcal{S}i^* = \bigcap{j=1}^k \mathcal{S}_{i,j} Si∗=⋂j=1kSi,j
  • Token级奖励公式(核心)

    R t i = r v ⋅ W whole − I ( t ∈ T err i ) ⋅ W process R_t^i = r_v \cdot W_{\text{whole}} - \mathbb{I}(t \in \mathcal{T}{\text{err}}^i) \cdot W{\text{process}} Rti=rv⋅Wwhole−I(t∈Terri)⋅Wprocess

    其中:

    • r v r_v rv:规则验证器的二元奖励(正确=1,错误=0)
    • I ( t ∈ T err i ) \mathbb{I}(t \in \mathcal{T}_{\text{err}}^i) I(t∈Terri):指示函数,token是否属于错误步骤
    • 非对称奖励结构: W whole W_{\text{whole}} Wwhole (整体结果奖励权重) > W process W_{\text{process}} Wprocess (过程惩罚权重)
  • 组相对Token级归一化:
    A ^ t i = R t i − mean ( { R t ′ j } ) std ( { R t ′ j } ) \hat{A}t^i = \frac{R_t^i - \text{mean}(\{R{t'}^j\})}{\text{std}(\{R_{t'}^j\})} A^ti=std({Rt′j})Rti−mean({Rt′j})

J CAPO ( θ ) = E q ∼ Q , { y i } ∼ π θ old [ 1 n ∑ i = 1 n 1 L i ∑ t = 1 L i min ⁡ { π θ ( o i , t ∣ q , o i , < t ) π θ old ( o i , t ∣ q , o i , < t ) A ^ t i , clip ( ⋅ , 1 − ϵ , 1 + ϵ ) A ^ t i } ] − β D K L [ π θ ∥ π ref ] J_{\text{CAPO}}(\theta) = \mathbb{E}{q \sim Q, \{y_i\} \sim \pi{\theta_{\text{old}}}} \left[ \frac{1}{n}\sum_{i=1}^n \frac{1}{L_i}\sum_{t=1}^{L_i} \min\left\{ \frac{\pi_\theta(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t}|q,o_{i,<t})}\hat{A}t^i, \text{clip}(\cdot, 1-\epsilon, 1+\epsilon)\hat{A}t^i \right\} \right] - \beta D{KL}[\pi\theta \| \pi_{\text{ref}}] JCAPO(θ)=Eq∼Q,{yi}∼πθold[n1i=1∑nLi1t=1∑Limin{πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)A^ti,clip(⋅,1−ϵ,1+ϵ)A^ti}]−βDKL[πθ∥πref]


2.6 COPO

核心思想:引入基于结果一致性的全局奖励机制和基于熵的软混合机制,动态平衡局部优势估计与全局优化。

组内局部优化 (针对同一提示词 q q q 下的 G G G 个响应):局部优势计算和局部优化目标同GRPO,记作 A ^ o i local \hat{A}{o_i}^{\text{local}} A^oilocal、 J local ( θ ) J{\text{local}}(\theta) Jlocal(θ)

组间全局优化(跨不同提示词的一致性学习)

  • 提示词级奖励与优势

    R ^ ( q ) = 1 G ∑ i = 1 G r i \hat{R}(q) = \frac{1}{G} \sum_{i=1}^G r_i R^(q)=G1i=1∑Gri

    A ^ q global = R ^ ( q j ) − mean ( { R ^ ( q j ) } j = 1 B ) std ( { R ^ ( q j ) } j = 1 B ) , ∀ o i ∈ O q \hat{A}q^{\text{global}} = \frac{\hat{R}(q_j) - \text{mean}(\{\hat{R}(q_j)\}{j=1}^B)}{\text{std}(\{\hat{R}(q_j)\}_{j=1}^B)}, \quad \forall o_i \in \mathcal{O}_q A^qglobal=std({R^(qj)}j=1B)R^(qj)−mean({R^(qj)}j=1B),∀oi∈Oq

    其中, B B B 表示改批次中提示词数量。

  • 全局优化目标

    J global ( θ ) = E q , { o i } ∼ π θ old [ 1 ∑ i = 1 G ∣ o i ∣ ∑ i = 1 G ∑ t = 1 ∣ o i ∣ min ⁡ ( π θ ( o i , t ∣ q , o i , < t ) π θ old ( o i , t ∣ q , o i , < t ) A ^ q global , clip ( ⋅ ) A ^ q global ) ] J_{\text{global}}(\theta) = \mathbb{E}{q,\{o_i\} \sim \pi{\theta_{\text{old}}}} \left[ \frac{1}{\sum_{i=1}^G |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min\left( \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid q, o_{i,<t})} \hat{A}_q^{\text{global}}, \text{clip}(\cdot) \hat{A}_q^{\text{global}} \right) \right] Jglobal(θ)=Eq,{oi}∼πθold ∑i=1G∣oi∣1i=1∑Gt=1∑∣oi∣min(πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)A^qglobal,clip(⋅)A^qglobal)

熵基软混合机制

  • 一致性熵计算

    给定提示词 q q q 的 G G G 个响应,提取唯一结果集合 T q = { τ 1 , τ 2 , ... , τ k } T_q = \{\tau_1, \tau_2, \ldots, \tau_k\} Tq={τ1,τ2,...,τk}:

    H ( q ) = − ∑ τ ∈ T q p ( τ ) ⋅ log ⁡ p ( τ ) , p ( τ ) = count ( τ ) G H(q) = -\sum_{\tau \in T_q} p(\tau) \cdot \log p(\tau), \quad p(\tau) = \frac{\text{count}(\tau)}{G} H(q)=−τ∈Tq∑p(τ)⋅logp(τ),p(τ)=Gcount(τ)

    • H ( q ) H(q) H(q) 高 → 响应多样性高(模型不确定)
    • H ( q ) H(q) H(q) 低 → 响应一致性高(全对或全错)
  • 自适应权重函数

w local ( H ) = σ ( γ ( H − ρ ) ) , w global ( H ) = 1 − w local ( H ) w_{\text{local}}(H) = \sigma(\gamma(H - \rho)), \quad w_{\text{global}}(H) = 1 - w_{\text{local}}(H) wlocal(H)=σ(γ(H−ρ)),wglobal(H)=1−wlocal(H)

  • 混合损失

    L q = w local ( H ( q ) ) ⋅ L local ( q ) + w global ( H ( q ) ) ⋅ L global ( q ) \mathcal{L}q = w{\text{local}}(H(q)) \cdot \mathcal{L}{\text{local}}(q) + w{\text{global}}(H(q)) \cdot \mathcal{L}_{\text{global}}(q) Lq=wlocal(H(q))⋅Llocal(q)+wglobal(H(q))⋅Lglobal(q)

    • 当一致性熵较高时,表示响应多样性高,局部优化占主导地位,鼓励模型区分并加强组内更高质量的响应。
    • 当一致性熵较低时,表示响应一致性高,全局优化占主导地位,推动模型在提示间保持正确性和一致性。

2.7 GTPO 2 ^2 2

核心思想:重塑奖励函数,直接为每个 token 加入基于熵的奖励,让 token 奖励根据熵动态调整,从而准确识别并奖励关键的、高不确定性的决策点。

核心流程

  • 第一步:序列分类

    将生成的序列分为两类:

    • 成功序列 o i ∈ O + o_i \in O^+ oi∈O+:最终答案正确
    • 失败序列 o j ∈ O − o_j \in O^- oj∈O−:最终答案错误
  • 第二步:Token级奖励塑造

    1. 成功序列的Token奖励

      对于成功序列 o i ∈ O + o_i \in O^+ oi∈O+ 中的任意token o i , t o_{i,t} oi,t:

      r ~ i , t + = α 1 r i + α 2 H i , t ∑ k = 1 n H k , t ⋅ d t and r ~ j , t + = 0 \tilde{r}{i,t}^+ = \alpha_1 r_i + \alpha_2 \frac{H{i,t}}{\sum_{k=1}^{n} H_{k,t}} \cdot d_t \quad \text{and} \quad \tilde{r}_{j,t}^+ = 0 r~i,t+=α1ri+α2∑k=1nHk,tHi,t⋅dtandr~j,t+=0

      其中, r i = 1 r_i = 1 ri=1, H i , t = − ∑ v ∈ V π θ old ( v ∣ q , o i , < t ) log ⁡ π θ old ( v ∣ q , o i , < t ) H_{i,t} = -\sum_{v \in \mathcal{V}} \pi_{\theta_{\text{old}}}(v \mid q, o_{i,<t}) \log \pi_{\theta_{\text{old}}}(v \mid q, o_{i,<t}) Hi,t=−∑v∈Vπθold(v∣q,oi,<t)logπθold(v∣q,oi,<t) 表示 token生成熵; d t d_t dt 表示长度≥ t t t的成功序列数量(动态缩放因子)

    2. 失败序列的Token奖励

      对于失败序列 o j ∈ O − o_j \in O^- oj∈O− 中的任意token o j , t o_{j,t} oj,t:

      r ~ j , t − = α 1 ⋅ ( − 1 ) + α 2 1 / H j , t ∑ k = 1 m ( 1 / H k , t ) ⋅ h t ⋅ ( − 1 ) and r ~ i , t − = 0 \tilde{r}{j,t}^- = \alpha_1 \cdot (-1) + \alpha_2 \frac{1/H{j,t}}{\sum_{k=1}^{m} (1/H_{k,t})} \cdot h_t \cdot (-1) \quad \text{and} \quad \tilde{r}_{i,t}^- = 0 r~j,t−=α1⋅(−1)+α2∑k=1m(1/Hk,t)1/Hj,t⋅ht⋅(−1)andr~i,t−=0

      其中, h t h_t ht 表示长度≥ t t t的失败序列数量。 1 / H j , t 1/H_{j,t} 1/Hj,t 表示逆熵,使用逆熵加权,对低熵(高置信度)的错误token施加更大惩罚,鼓励模型在错误时保持不确定性。

  • 第三步:计算Token级优势

    基于塑造后的奖励,分别计算正负序列的优势:

    A ~ i , t + = r ~ i , t + − mean ( R ~ + ) std ( R ~ + ) and A ~ j , t − = r ~ j , t − − mean ( R ~ − ) std ( R ~ − ) \tilde{A}{i,t}^+ = \frac{\tilde{r}{i,t}^+ - \text{mean}(\tilde{R}^+)}{\text{std}(\tilde{R}^+)} \quad \text{and} \quad \tilde{A}{j,t}^- = \frac{\tilde{r}{j,t}^- - \text{mean}(\tilde{R}^-)}{\text{std}(\tilde{R}^-)} A~i,t+=std(R~+)r~i,t+−mean(R~+)andA~j,t−=std(R~−)r~j,t−−mean(R~−)

    • R ~ + \tilde{R}^+ R~+:批次中所有正序列的token奖励集合
    • R ~ − \tilde{R}^- R~−:批次中所有负序列的token奖励集合

目标函数:
J GTPO ( θ ) = E [ 1 ∑ k = 1 G ∣ o k ∣ ( ∑ i = 1 n ∑ t = 1 ∣ o i ∣ min ⁡ ( w i , t ( θ ) A ~ i , t + , clip ( w i , t ( θ ) , 1 − ϵ , 1 + ϵ ) A ~ i , t + ) \mathcal{J}{\text{GTPO}}(\theta) = \mathbb{E}\left[ \frac{1}{\sum{k=1}^{G} |o_k|} \left( \sum_{i=1}^{n} \sum_{t=1}^{|o_i|} \min\left( w_{i,t}(\theta)\tilde{A}{i,t}^+, \text{clip}(w{i,t}(\theta), 1-\epsilon, 1+\epsilon)\tilde{A}_{i,t}^+ \right) \right. \right. JGTPO(θ)=E ∑k=1G∣ok∣1 i=1∑nt=1∑∣oi∣min(wi,t(θ)A~i,t+,clip(wi,t(θ),1−ϵ,1+ϵ)A~i,t+)

  • ∑ j = n + 1 G ∑ t = 1 ∣ o j ∣ min ⁡ ( w j , t ( θ ) A ~ j , t − , clip ( w j , t ( θ ) , 1 − ϵ , 1 + ϵ ) A ~ j , t − ) ) ] \left. \left. + \sum_{j=n+1}^{G} \sum_{t=1}^{|o_j|} \min\left( w_{j,t}(\theta)\tilde{A}{j,t}^-, \text{clip}(w{j,t}(\theta), 1-\epsilon, 1+\epsilon)\tilde{A}_{j,t}^- \right) \right) \right] +j=n+1∑Gt=1∑∣oj∣min(wj,t(θ)A~j,t−,clip(wj,t(θ),1−ϵ,1+ϵ)A~j,t−)

其中重要性采样权重 w i , t ( θ ) = π θ ( o i , t ∣ q , o i , < t ) π θ old ( o i , t ∣ q , o i , < t ) w_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid q, o_{i,<t})} wi,t(θ)=πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)。


2.8 MAPO

核心思想:为不同确定性的样本设计并应用不同的优势函数。

为解决 z-score 在标准差 A ^ i = r i − μ σ \hat{A}_i = \frac{r_i - \mu}{\sigma} A^i=σri−μ 异常小时的不稳定问题,提出优势百分比偏差(Advantage Percent Deviation, APD)

A ^ i A P D = r i − μ μ \hat{A}_i^{APD} = \frac{r_i - \mu}{\mu} A^iAPD=μri−μ

定义轨迹确定性程度函数:

λ ( p ) = 1 − 4 p ( 1 − p ) ∈ [ 0 , 1 ] ( p ∈ [ 0 , 1 ] ) \lambda(p) = 1 - 4p(1-p) \in [0,1] \quad (p \in [0,1]) λ(p)=1−4p(1−p)∈[0,1](p∈[0,1])

  • 当 p = 0.5 p = 0.5 p=0.5(不确定性最大): λ ( 0.5 ) = 0 \lambda(0.5) = 0 λ(0.5)=0
  • 当 p = 0 p = 0 p=0 或 p = 1 p = 1 p=1(确定性最高): λ = 1 \lambda = 1 λ=1

根据轨迹确定性 p p p 动态插值两种优势形式:

A ^ i ∗ = ( 1 − λ ( p ) ) ⋅ r i − μ σ ⏟ Deviation-based + λ ( p ) ⋅ r i − μ μ ⏟ Mean-based \hat{A}i^* = \underbrace{(1-\lambda(p)) \cdot \frac{r_i - \mu}{\sigma}}{\text{Deviation-based}} + \underbrace{\lambda(p) \cdot \frac{r_i - \mu}{\mu}}_{\text{Mean-based}} A^i∗=Deviation-based (1−λ(p))⋅σri−μ+Mean-based λ(p)⋅μri−μ


2.9 NGRPO

核心思想:引入虚拟最大奖励样本,改变群体内奖励的均值和方差,从而为同质化错误样本赋予非零优势,使模型能够从失败中学习并增强探索能力。

原始奖励集合:
R = { r 1 , ... , r G } \mathcal{R} = \{r_1, \ldots, r_G\} R={r1,...,rG}

增强后的奖励集合(加入虚拟最大奖励样本):
R ′ = R ∪ { r max ⁡ } \mathcal{R}' = \mathcal{R} \cup \{r_{\max}\} R′=R∪{rmax}

优势函数、均值、标准差:

A i ′ = r i − μ R ′ σ R ′ + ϵ std , μ R ′ = 1 G + 1 ( ( ∑ j = 1 G r j ) + r max ⁡ ) , σ R ′ = 1 G + 1 ∑ r ∈ R ′ ( r − μ R ′ ) 2 A'i = \frac{r_i - \mu'{\mathcal{R}}}{\sigma'{\mathcal{R}} + \epsilon{\text{std}}}, \quad \mu'{\mathcal{R}} = \frac{1}{G+1}\left(\left(\sum{j=1}^{G} r_j\right) + r_{\max}\right), \quad \sigma'{\mathcal{R}} = \sqrt{\frac{1}{G+1}\sum{r \in \mathcal{R}'}(r - \mu'_{\mathcal{R}})^2} Ai′=σR′+ϵstdri−μR′,μR′=G+11((j=1∑Grj)+rmax),σR′=G+11r∈R′∑(r−μR′)2

目标函数:

J N G R P O ( θ ) = E q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ o l d ( o ∣ q ) { 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ { min ⁡ [ π θ ( o i , t ∣ q , o i , < t ) π θ o l d ( o i , t ∣ q , o i , < t ) A i ′ , clip ( π θ ( o i , t ∣ q , o i , < t ) π θ o l d ( o i , t ∣ q , o i , < t ) , 1 − ϵ , 1 + ϵ ) A i ′ ] } } \mathcal{J}{NGRPO}(\theta) = \mathbb{E}{q \sim P(Q), \{o_i\}{i=1}^{G} \sim \pi{\theta_{old}}(o|q)} \left\{ \frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \left\{ \min\left[ \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t} \mid q, o_{i,<t})} A'i, \quad \text{clip}\left(\frac{\pi\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{old}}(o_{i,t} \mid q, o_{i,<t})}, 1-\epsilon, 1+\epsilon\right) A'_i \right] \right\} \right\} JNGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πθold(o∣q)⎩ ⎨ ⎧G1i=1∑G∣oi∣1t=1∑∣oi∣{min[πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)Ai′,clip(πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t),1−ϵ,1+ϵ)Ai′]}⎭ ⎬ ⎫


2.10 GRPO-λ 2 ^2 2

核心思想:将 GAE(广义优势估计)的 λ 加权机制引入无 Critic 的 GRPO 框架,通过重新参数化策略梯度,实现偏差与方差的灵活权衡,从而加速奖励信号在长序列中的传播。

  • 策略梯度重新参数化:将 GAE 从"TD残差之和"转化为"加权累积动作对数概率",消除对 Critic 网络的依赖。

g ^ = ∑ t = 0 ∞ A GAE ( s t ) ∇ θ log ⁡ π θ ( a t ∣ s t ) = ∑ t = 0 ∞ δ t ∑ l = 0 t ( γ λ ) l ∇ θ log ⁡ π θ ( a t − l ∣ s t − l ) \hat{g} = \sum_{t=0}^{\infty} A_{\text{GAE}}(s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) = \sum_{t=0}^{\infty} \delta_t \sum_{l=0}^{t} (\gamma\lambda)^l \nabla_\theta \log \pi_\theta(a_{t-l}|s_{t-l}) g^=t=0∑∞AGAE(st)∇θlogπθ(at∣st)=t=0∑∞δtl=0∑t(γλ)l∇θlogπθ(at−l∣st−l)

  • GAE 加权的重要性采样比率

    π ratio GAE ( s t ) = exp ⁡ ( ∑ l = 0 t ( γ λ ) l log ⁡ π θ ( a t − l ∣ s t − l ) − ∑ l = 0 t ( γ λ ) l log ⁡ π θ old ( a t − l ∣ s t − l ) ) \pi^{\text{GAE}}{\text{ratio}}(s_t) = \exp\left(\sum{l=0}^{t} (\gamma\lambda)^l \log \pi_\theta(a_{t-l}|s_{t-l}) - \sum_{l=0}^{t} (\gamma\lambda)^l \log \pi_{\theta_{\text{old}}}(a_{t-l}|s_{t-l})\right) πratioGAE(st)=exp(l=0∑t(γλ)llogπθ(at−l∣st−l)−l=0∑t(γλ)llogπθold(at−l∣st−l))

    • ( γ λ ) l (\gamma\lambda)^l (γλ)l 为历史动作赋予指数衰减权重,控制信用分配的时域范围。
  • TD 误差的近似:由于无 Critic 网络,用 GRPO 的组回报估计。
    δ t = A NAE = r i − mean ( r ) std ( r ) \delta_t = A_{\text{NAE}} = \frac{r_i - \text{mean}(r)}{\text{std}(r)} δt=ANAE=std(r)ri−mean(r)

  • 目标函数

ℓ π = min ⁡ ( π ratio GAE ( s t ) δ t , clip ( π ratio GAE ( s t ) , 1 − ϵ , 1 + ϵ ) δ t ) \ell_\pi = \min\left(\pi^{\text{GAE}}{\text{ratio}}(s_t)\delta_t,\ \text{clip}\left(\pi^{\text{GAE}}{\text{ratio}}(s_t),\ 1-\epsilon,\ 1+\epsilon\right)\delta_t\right) ℓπ=min(πratioGAE(st)δt, clip(πratioGAE(st), 1−ϵ, 1+ϵ)δt)


2.11 λ-GRPO

核心思想:通过引入可学习参数 λ \lambda λ,将GRPO、DAPO和Dr.GRPO统一为token偏好优化框架,使模型能够根据响应长度分布自适应地学习长/短偏好,而非依赖人工设计的启发式规则。

  • 统一框架
    J ( θ ) = 1 ∑ i = 1 G ∣ o i ∣ ∑ i = 1 G f ( o i ) ∑ t = 1 ∣ o i ∣ min ⁡ ( r i , t ( θ ) A ^ i , t , clip ( r i , t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ i , t ) \mathcal{J}(\theta) = \frac{1}{\sum_{i=1}^{G}|o_i|}\sum_{i=1}^{G}f(o_i)\sum_{t=1}^{|o_i|}\min\left(r_{i,t}(\theta)\hat{A}{i,t}, \text{clip}(r{i,t}(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_{i,t}\right) J(θ)=∑i=1G∣oi∣1i=1∑Gf(oi)t=1∑∣oi∣min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ϵ,1+ϵ)A^i,t)

    • μ = 1 G ∑ i = 1 G ∣ o i ∣ \mu = \frac{1}{G}\sum_{i=1}^{G}|o_i| μ=G1∑i=1G∣oi∣ 为平均响应长度。则 f GRPO ( o i ) = μ ∣ o i ∣ f_{\text{GRPO}}(o_i)=\frac{\mu}{|o_i|} fGRPO(oi)=∣oi∣μ、 f DAPO ( o i ) = 1 f_{\text{DAPO}}(o_i) = 1 fDAPO(oi)=1、 f Dr.GRPO ( o i ) = μ f_{\text{Dr.GRPO}}(o_i) = \mu fDr.GRPO(oi)=μ
  • 引入可学习权重
    h i = 1 + r ⋅ ∣ o i ∣ − μ σ , g i = h i λ , f λ-GRPO ( o i ) = softmax ( g ) × G h_i = 1 + r\cdot\frac{|o_i|-\mu}{\sigma}, \quad g_i = h_i^{\lambda}, \quad f_{\text{λ-GRPO}}(o_i) = \text{softmax}(g) \times G hi=1+r⋅σ∣oi∣−μ,gi=hiλ,fλ-GRPO(oi)=softmax(g)×G

    • λ \lambda λ 控制偏好方向: λ < 0 \lambda < 0 λ<0:偏好短响应; λ = 0 \lambda = 0 λ=0:长度中性(等价于DAPO); λ > 0 \lambda > 0 λ>0:偏好长响应

2.12 FAPO

核心思想:以生成式奖励模型检测flawed positives,通过无参数惩罚机制实现"早期利用-后期抑制"的自适应阶段转换,兼顾训练效率与推理可靠性。

  • 生成式奖励模型(GenRM)训练

    Flawed Positive(缺陷正样本,即答案正确但推理有缺陷)的双重效应:早期作为"垫脚石"加速能力提升;后期固化不可靠推理模式,限制性能上限。为准确检测flawed positives,训练一个生成式奖励模型,采用步骤级RL奖励:

    R F A P O - G e n R M = R O u t c o m e ∗ R P r o c e s s R_{FAPO\text{-}GenRM} = R_{Outcome} * R_{Process} RFAPO-GenRM=ROutcome∗RProcess

    R O u t c o m e = { 1 , if y ^ θ = y ∗ − 1 , otherwise , R P r o c e s s = { − ∣ t ^ θ − t ∗ ∣ n , if y ^ θ = y ∗ = F P 0 , otherwise R_{Outcome} = \begin{cases} 1, & \text{if } \hat{y}\theta = y^* \\ -1, & \text{otherwise} \end{cases}, \quad R{Process} = \begin{cases} -\frac{|\hat{t}\theta - t^*|}{n}, & \text{if } \hat{y}\theta = y^* = FP \\ 0, & \text{otherwise} \end{cases} ROutcome={1,−1,if y^θ=y∗otherwise,RProcess={−n∣t^θ−t∗∣,0,if y^θ=y∗=FPotherwise

    • t ^ θ , t ∗ \hat{t}_\theta, t^* t^θ,t∗:预测与真实错误位置索引
    • n n n:总步骤数,确保 R P r o c e s s ∈ [ − 1 , 0 ] R_{Process} \in [-1, 0] RProcess∈[−1,0]
    • 距离敏感惩罚:预测错误位置越接近真实位置,惩罚越轻。
  • 缺陷感知奖励惩罚机制

    将训练好的GenRM集成到GRPO中,对flawed positives施加无参数惩罚

    R F A P O ( o , a ∗ ∣ θ ) = R R L V R ( o , a ∗ ) + R Δ ( o , a ∗ ∣ θ ) R_{FAPO}(o, a^*|\theta) = R_{RLVR}(o, a^*) + R_\Delta(o, a^*|\theta) RFAPO(o,a∗∣θ)=RRLVR(o,a∗)+RΔ(o,a∗∣θ)

    其中惩罚项:
    R Δ ( o , a ∗ ∣ θ ) = { − λ , if I ( o , a ∗ ) and y ^ θ ( o , a ∗ ) = F P 0 , otherwise R_\Delta(o, a^*|\theta) = \begin{cases} -\lambda, & \text{if } \mathcal{I}(o, a^*) \text{ and } \hat{y}_\theta(o, a^*) = FP \\ 0, & \text{otherwise} \end{cases} RΔ(o,a∗∣θ)={−λ,0,if I(o,a∗) and y^θ(o,a∗)=FPotherwise

    自适应阶段转换 :设当前rollout中完全正确样本比例为 α \alpha α,负样本比例为 β \beta β,定义学习进度 ρ = α / β \rho = \alpha/\beta ρ=α/β。采用多数引导策略 :取 λ = 1 \lambda = 1 λ=1(默认),当 α > β \alpha > \beta α>β 时自然触发阶段转换(Warn-up -> Refinement)。


2.13 SAPO

核心思想:用平滑的衰减替代硬性的截断,用自适应的权重平衡探索与利用。

  • 软门控机制(Soft Gating):利用以温度系数控制的 Sigmoid 函数替代传统的硬截断,构建连续的信任区域,在偏离策略时平滑衰减梯度而非直接置零。
  • 非对称温度控制(Asymmetric Temperatures):针对正负优势(Advantage)样本对训练稳定性的不同影响,对负样本采用更高的温度系数使其梯度衰减更快,从而抑制大词表下的噪声扩散。

目标函数:
J S A P O ( θ ) = E q ∼ D , { y i } i = 1 G ∼ π θ old ( ⋅ ∣ q ) [ 1 G ∑ i = 1 G 1 ∣ y i ∣ ∑ t = 1 ∣ y i ∣ f i , t ( r i , t ( θ ) ) A ^ i , t ] \mathcal{J}{SAPO}(\theta) = \mathbb{E}{q \sim \mathcal{D}, \{y_i\}{i=1}^G \sim \pi{\theta_{\text{old}}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} f_{i,t}(r_{i,t}(\theta)) \hat{A}_{i,t} \right] JSAPO(θ)=Eq∼D,{yi}i=1G∼πθold(⋅∣q) G1i=1∑G∣yi∣1t=1∑∣yi∣fi,t(ri,t(θ))A^i,t

  • 软门控函数:

f i , t ( x ) = σ ( τ i , t ( x − 1 ) ) ⋅ 4 τ i , t f_{i,t}(x) = \sigma(\tau_{i,t}(x-1)) \cdot \frac{4}{\tau_{i,t}} fi,t(x)=σ(τi,t(x−1))⋅τi,t4

  • 温度参数(非对称设计):
    τ i , t = { τ pos , if A ^ i , t > 0 τ neg , otherwise , τ neg > τ pos \tau_{i,t} = \begin{cases} \tau_{\text{pos}}, & \text{if } \hat{A}{i,t} > 0 \\ \tau{\text{neg}}, & \text{otherwise} \end{cases}, \quad \tau_{\text{neg}} > \tau_{\text{pos}} τi,t={τpos,τneg,if A^i,t>0otherwise,τneg>τpos

三、相关文章

相关推荐
ScilogyHunter2 小时前
CW方程的向量形式与解析形式
算法·矩阵·控制
sin_hielo2 小时前
leetcode 3013
数据结构·算法·leetcode
qyr67892 小时前
废物转化为能源全球市场分析报告
大数据·人工智能·能源·市场分析·市场报告·废物转化为能源·废物能源
我材不敲代码2 小时前
深度学习的准备工作:CUDA安装配置、pytorch库、torchvision库、torchaudio库安装
人工智能·pytorch·深度学习
格林威2 小时前
Baumer相机系统延迟测量与补偿:保障实时控制同步性的 5 个核心方法,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·算法·计算机视觉·视觉检测·工业相机
老鼠只爱大米2 小时前
LeetCode经典算法面试题 #105:从前序与中序遍历序列构造二叉树(分治递归法、栈辅助迭代法等五种实现方案详细解析)
算法·leetcode·二叉树·分治算法·前序遍历·迭代法·二叉树构造
喜欢吃豆2 小时前
Ralph 架构深度解析报告:自主代理循环与软件工程的确定性重构
人工智能·重构·架构·大模型·软件工程
喜欢吃豆2 小时前
构建下一代语境感知型 AI Agent:AGENTS.md 与 SKILL.md 发现系统的深度工程架构报告
人工智能·架构
uesowys2 小时前
Apache Spark算法开发指导-Gradient-boosted tree classifier
人工智能·算法·spark