GRPO 算法演进:2025 年 RL4LLM 领域 40+ 项改进工作全景解析

文章目录

  • [一、GRPO 算法演进概览](#一、GRPO 算法演进概览)
  • [二、GRPO 局限性剖析](#二、GRPO 局限性剖析)
    • [2.1 梯度消失与训练停滞](#2.1 梯度消失与训练停滞)
    • [2.2 熵值塌陷与策略崩塌](#2.2 熵值塌陷与策略崩塌)
    • [2.3 信号稀疏与长度通胀](#2.3 信号稀疏与长度通胀)
  • 三、改进工作分类解析
  • 四、小结

一、GRPO 算法演进概览

在强化学习(RL)领域中,GRPO(Group Relative Policy Optimization)是一个具有重要意义的优化算法。它通过组内相对比较和去价值网络设计,显著降低了传统 PPO 的计算开销。在近年来的研究中,GRPO 算法经历了多个版本的迭代与优化。以下是我搜集到的 GRPO 算法在 RL4LLM 场景下的一系列改进工作(按照时间排序,欢迎补充),之后进行逐一解析。

算法名称 发布时间 算法完整名称 论文链接
DAPO 2025.03 Decoupled Clip and Dynamic sAmpling Policy Optimization https://arxiv.org/abs/2503.14476
AGPO 2025.03 Adaptive Group Policy Optimization https://arxiv.org/abs/2503.15952
Dr.GRPO 2025.03 Group Relative Policy Optimization Done Right https://arxiv.org/abs/2503.20783
CPPO 2025.03 Completion Pruning Policy Optimization https://arxiv.org/abs/2503.22342
PODS 2025.04 Policy Optimization with Down-Sampling https://arxiv.org/abs/2504.13818
S-GRPO 2025.05 Serial-Group Decaying-Reward Policy Optimization https://arxiv.org/abs/2505.07686
SEED-GRPO 2025.05 Semantic Entropy EnhanceD Group Relative Policy Optimization https://arxiv.org/abs/2505.12346
TAPO 2025.05 Thought-Augmented Policy Optimization https://arxiv.org/abs/2505.15692
GRPO-λ 1 ^1 1 2025.05 Group Relative Policy Optimization with dynamic λ-threshold switching https://arxiv.org/abs/2505.18086
SPO 2025.05 Segment Policy Optimization https://arxiv.org/abs/2505.23564
GRESO 2025.06 Group Relative Policy Optimization with Efficient Selective Rollout https://arxiv.org/abs/2506.02177
MGRPO 2025.06 Multi-layer Group Relative Policy Optimization https://arxiv.org/abs/2506.04746
RePO 2025.06 Replay-Enhanced Policy Optimization https://arxiv.org/abs/2506.09340
GSPO 2025.07 Group Sequence Policy Optimization https://arxiv.org/abs/2507.18071
GMPO 2025.07 Geometric-Mean Policy Optimization https://arxiv.org/abs/2507.20673
EDGE-GRPO 2025.07 Entropy-Driven Group Relative Policy Optimization with Guided Error Correction https://arxiv.org/abs/2507.21848
CAPO 2025.08 Credit Assignment Policy Optimization https://arxiv.org/abs/2508.02298
GTPO 1 ^1 1 2025.08 Group-relative Trajectory-based Policy Optimization https://arxiv.org/abs/2508.03772
COPO 2025.08 Consistency-Aware Policy Optimization https://arxiv.org/abs/2508.04138
GTPO 2 ^2 2 2025.08 Group Token Policy Optimization https://arxiv.org/abs/2508.04349
GFPO 2025.08 Group Filtered Policy Optimization https://arxiv.org/abs/2508.09726
GEPO 2025.08 Group Expectation Policy Optimization https://arxiv.org/abs/2508.17850
DCPO 2025.09 Dynamic Clipping Policy Optimization https://arxiv.org/abs/2509.02333
MAPO 2025.09 Mixed Advantage Policy Optimization https://arxiv.org/abs/2509.18849
NGRPO 2025.09 Negative-enhanced Group Relative Policy Optimization https://arxiv.org/abs/2509.18851
GRPO-MA 2025.09 Group Relative Policy Optimization with Multi-Answer https://arxiv.org/abs/2509.24494
GRPO-λ 2 ^2 2 2025.10 Group Relative Policy Optimization with λ-return eligibility traces https://arxiv.org/abs/2510.00194
LSPO 2025.10 Length-aware dynamic Sampling for Policy Optimization https://arxiv.org/abs/2510.01459
EEPO 2025.10 Exploration-Enhanced Policy Optimization https://arxiv.org/abs/2510.05837
ASPO 2025.10 Asymmetric Importance Sampling Policy Optimization https://arxiv.org/abs/2510.06062
λ-GRPO 2025.10 Unified Group Relative Policy Optimization with learnable λ https://arxiv.org/abs/2510.06870
DARO 2025.10 Difficulty-Aware Reweighting Policy Optimization https://arxiv.org/abs/2510.09001
TEPO 2025.10 Token-Level Policy Optimization https://arxiv.org/abs/2510.09369
BAPO 2025.10 BAlanced Policy Optimization with Adaptive Clipping https://arxiv.org/abs/2510.18927
Scaf-GRPO 2025.10 Scaffolded Group Relative Policy Optimization https://arxiv.org/abs/2510.19807
FAPO 2025.10 Flawed-Aware Policy Optimization https://arxiv.org/abs/2510.22543
SSPO 2025.11 Subsentence-level Policy Optimization https://arxiv.org/abs/2511.04256
SAPO 2025.11 Soft Adaptive Policy Optimization https://arxiv.org/abs/2511.20347
DaGRPO 2025.12 Distinctiveness-aware Group Relative Policy Optimization https://arxiv.org/abs/2512.06337
ABC-GRPO 2026.01 Adaptive-Boundary-Clipping Group Relative Policy Optimization https://arxiv.org/abs/2601.03895

二、GRPO 局限性剖析

关于 GRPO 的基本原理,请学习 深度解析 GRPO:从原理到实践的全攻略,这里不再赘述。

尽管 GRPO 取得了显著的成功,但其内在的设计仍然存在一定的局限性。为更好地理解后续改进工作的意义,首先分析 GRPO 的三项主要的局限性:

2.1 梯度消失与训练停滞

GRPO 把"组内相对奖励"直接当成优势: A i = ( r i − μ r ) / σ r A_i = (r_i − μ_r) / σ_r Ai=(ri−μr)/σr。当一条 prompt 下的 G 条回答全部正确(或全部错误)时,标准差 σ r σ_r σr 退化为 0,导致优势向量变成零或 NaN,结果就是这批样本的梯度为零,对参数更新"零贡献"。随着模型能力提升,简单问题几乎全对,难题通常全错,导致零优势组比例迅速攀升。这不仅浪费计算资源,也会让学习率调度器误认为模型已经收敛,进而提前降低学习率,压低模型性能。

2.2 熵值塌陷与策略崩塌

GRPO 的剪切机制 L c l i p = E [ m i n ( r t A i , c l i p ( r t , 1 − ϵ , 1 + ϵ ) A i ) ] L_{clip} = E[min(r_t A_i , clip(r_t ,1−\epsilon,1+\epsilon) A_i )] Lclip=E[min(rtAi,clip(rt,1−ϵ,1+ϵ)Ai)] 对超参数 ϵ \epsilon ϵ 极其敏感 。如果 ϵ \epsilon ϵ 过大,负损失会导致低质量路径的概率增加,模型出现剧烈抖动;如果 ϵ \epsilon ϵ 过小,剪切操作过早触发,导致梯度削弱,学习速度减缓。由于 ϵ \epsilon ϵ 的严格限制,一些低概率 token 无法通过策略梯度获得足够大的概率提升,随着训练的进行,模型的输出逐渐变得高度集中,缺乏对新路径的有效探索 。同时,在困难任务较多时,GRPO 可能会出现负样本爆炸现象,连续的负损失导致策略概率分布极端偏离,最终导致训练崩溃。

2.3 信号稀疏与长度通胀

GRPO 的优化目标只关心"最终答案是否正确",忽视推理过程的质量 。在多步推理任务中,哪怕前几步正确,只有最后一步出错,整条路径也会被标记为0,导致策略无法区分"部分正确"的情况。这种稀疏奖励导致优势估计方差过大,学习信号噪声严重 。同时,由于 CoT 采用自回归生成,每条 token 的 log-prob 累加后即为整条轨迹的 log-likelihood。在"更长->累积概率更高->更可能被保留"的朴素概率优势下,为了增加获得奖励的机会,模型倾向于生成更长的推理链,即便这些额外的步骤并不总是必要或相关的。


三、改进工作分类解析

为了更清晰地理解这些改进工作,我从 7 个改进维度对它们进行了分类(如下表所示),并按照分类对每项工作的核心思想进行解析。

改进维度 代表算法 核心机制 主要目标
裁剪机制 DAPO, DCPO, ASPO, BAPO, ABC-GRPO 非对称裁剪、自适应边界、动态调整 增强探索、防止过早收敛、确保比率有界
粒度优化 DAPO, SPO, GSPO, GTPO 1 ^1 1, GEPO, SSPO Token级、序列级、子句级等 精准信用分配、平衡长度偏差、稳定训练
奖励策略 S-GRPO, SEED-GRPO, GRPO-λ 1 ^1 1, EDGE-GRPO, CAPO, COPO, GTPO 2 ^2 2, MAPO, NGRPO, GRPO-λ 2 ^2 2, λ-GRPO, FAPO, SAPO 语义熵、一致性奖励、混合优势、负样本增强 难度自适应、密集奖励、资源优化
样本增强 DAPO, CPPO, PODS, TAPO, GRESO, RePO, EDGE-GRPO, GFPO, LSPO, EEPO, Scaf-GRPO, DaGRPO 动态过滤、自适应难度、区分度感知 提高样本效率、聚焦高价值样本、促进多样探索
偏差修正 AGPO, Dr.GRPO, DARO 移除长度与难度归一化、自适应权重 消除系统性偏差、符合理论框架、平衡多任务损失
鲁棒优化 GMPO, GEPO, GRPO-MA, TEPO 几何平均、Markov似然、组期望加权、多答案估计 降低方差、抑制极端值、稳定梯度、提升收敛效
架构扩展 S-GRPO, MGRPO 双层自我纠错结构、序列组早退机制 支持自省能力、优化推理长度、提升生成效率

由于篇幅限制,请跳转至对应文章深入阅读:


四、小结

GRPO 系列改进工作围绕训练稳定性、样本效率、探索能力三大核心挑战,从裁剪机制、奖励策略、样本增强、粒度优化、偏差修正、鲁棒优化及架构扩展七个维度展开改进。这些方法或引入动态自适应机制(如DCPO、BAPO)平衡探索与利用,或通过不同粒度梯度控制(如GSPO、SSPO)提升信号质量,或借助数据增强与过滤(如GFPO、DaGRPO)优化训练分布,共同推动了大语言模型强化学习训练的高效性与可靠性。未来研究可进一步探索多维度机制的有机融合,以及面向更复杂推理任务的自适应优化策略。

"没有终极的算法,只有永恒的逼近。"

回望这四十余项工作,我们看到的不是零和博弈的替代,而是问题空间的逐渐显影------从 token 到序列,从硬截断到软门控,从静态边界到动态自适应。每一项改进都是暂时的驻点,却共同勾勒出一条通往更优解的渐近线。学术研究的终极浪漫,莫过于明知完美不可抵达,却仍前赴后继地去逼近。让我们一同期待,在2026年,更多的进步,更多的突破,伴随着无尽的探索与梦想。

相关推荐
拼好饭和她皆失2 小时前
图论:最小生成树,二分图详细模板及讲解
c++·算法·图论
傻小胖2 小时前
19.ETH-挖矿算法-北大肖臻老师客堂笔记
笔记·算法·区块链
郝学胜-神的一滴2 小时前
线性判别分析(LDA)原理详解与实战应用
人工智能·python·程序人生·算法·机器学习·数据挖掘·sklearn
菩提树下的凡夫2 小时前
DINOv2工业缺陷异常检测算特征提取模型介绍
人工智能·目标检测
小鸡吃米…2 小时前
机器学习 - 对抗性机器学习
人工智能·python·机器学习
ScilogyHunter2 小时前
CW方程的向量形式与解析形式
算法·矩阵·控制
蓝海星梦2 小时前
GRPO 算法演进——奖励设计篇
论文阅读·人工智能·深度学习·算法·自然语言处理·强化学习
sin_hielo2 小时前
leetcode 3013
数据结构·算法·leetcode
qyr67892 小时前
废物转化为能源全球市场分析报告
大数据·人工智能·能源·市场分析·市场报告·废物转化为能源·废物能源