文章目录
- [一、GRPO 算法演进概览](#一、GRPO 算法演进概览)
- [二、GRPO 局限性剖析](#二、GRPO 局限性剖析)
-
- [2.1 梯度消失与训练停滞](#2.1 梯度消失与训练停滞)
- [2.2 熵值塌陷与策略崩塌](#2.2 熵值塌陷与策略崩塌)
- [2.3 信号稀疏与长度通胀](#2.3 信号稀疏与长度通胀)
- 三、改进工作分类解析
- 四、小结
一、GRPO 算法演进概览
在强化学习(RL)领域中,GRPO(Group Relative Policy Optimization)是一个具有重要意义的优化算法。它通过组内相对比较和去价值网络设计,显著降低了传统 PPO 的计算开销。在近年来的研究中,GRPO 算法经历了多个版本的迭代与优化。以下是我搜集到的 GRPO 算法在 RL4LLM 场景下的一系列改进工作(按照时间排序,欢迎补充),之后进行逐一解析。
| 算法名称 | 发布时间 | 算法完整名称 | 论文链接 |
|---|---|---|---|
| DAPO | 2025.03 | Decoupled Clip and Dynamic sAmpling Policy Optimization | https://arxiv.org/abs/2503.14476 |
| AGPO | 2025.03 | Adaptive Group Policy Optimization | https://arxiv.org/abs/2503.15952 |
| Dr.GRPO | 2025.03 | Group Relative Policy Optimization Done Right | https://arxiv.org/abs/2503.20783 |
| CPPO | 2025.03 | Completion Pruning Policy Optimization | https://arxiv.org/abs/2503.22342 |
| PODS | 2025.04 | Policy Optimization with Down-Sampling | https://arxiv.org/abs/2504.13818 |
| S-GRPO | 2025.05 | Serial-Group Decaying-Reward Policy Optimization | https://arxiv.org/abs/2505.07686 |
| SEED-GRPO | 2025.05 | Semantic Entropy EnhanceD Group Relative Policy Optimization | https://arxiv.org/abs/2505.12346 |
| TAPO | 2025.05 | Thought-Augmented Policy Optimization | https://arxiv.org/abs/2505.15692 |
| GRPO-λ 1 ^1 1 | 2025.05 | Group Relative Policy Optimization with dynamic λ-threshold switching | https://arxiv.org/abs/2505.18086 |
| SPO | 2025.05 | Segment Policy Optimization | https://arxiv.org/abs/2505.23564 |
| GRESO | 2025.06 | Group Relative Policy Optimization with Efficient Selective Rollout | https://arxiv.org/abs/2506.02177 |
| MGRPO | 2025.06 | Multi-layer Group Relative Policy Optimization | https://arxiv.org/abs/2506.04746 |
| RePO | 2025.06 | Replay-Enhanced Policy Optimization | https://arxiv.org/abs/2506.09340 |
| GSPO | 2025.07 | Group Sequence Policy Optimization | https://arxiv.org/abs/2507.18071 |
| GMPO | 2025.07 | Geometric-Mean Policy Optimization | https://arxiv.org/abs/2507.20673 |
| EDGE-GRPO | 2025.07 | Entropy-Driven Group Relative Policy Optimization with Guided Error Correction | https://arxiv.org/abs/2507.21848 |
| CAPO | 2025.08 | Credit Assignment Policy Optimization | https://arxiv.org/abs/2508.02298 |
| GTPO 1 ^1 1 | 2025.08 | Group-relative Trajectory-based Policy Optimization | https://arxiv.org/abs/2508.03772 |
| COPO | 2025.08 | Consistency-Aware Policy Optimization | https://arxiv.org/abs/2508.04138 |
| GTPO 2 ^2 2 | 2025.08 | Group Token Policy Optimization | https://arxiv.org/abs/2508.04349 |
| GFPO | 2025.08 | Group Filtered Policy Optimization | https://arxiv.org/abs/2508.09726 |
| GEPO | 2025.08 | Group Expectation Policy Optimization | https://arxiv.org/abs/2508.17850 |
| DCPO | 2025.09 | Dynamic Clipping Policy Optimization | https://arxiv.org/abs/2509.02333 |
| MAPO | 2025.09 | Mixed Advantage Policy Optimization | https://arxiv.org/abs/2509.18849 |
| NGRPO | 2025.09 | Negative-enhanced Group Relative Policy Optimization | https://arxiv.org/abs/2509.18851 |
| GRPO-MA | 2025.09 | Group Relative Policy Optimization with Multi-Answer | https://arxiv.org/abs/2509.24494 |
| GRPO-λ 2 ^2 2 | 2025.10 | Group Relative Policy Optimization with λ-return eligibility traces | https://arxiv.org/abs/2510.00194 |
| LSPO | 2025.10 | Length-aware dynamic Sampling for Policy Optimization | https://arxiv.org/abs/2510.01459 |
| EEPO | 2025.10 | Exploration-Enhanced Policy Optimization | https://arxiv.org/abs/2510.05837 |
| ASPO | 2025.10 | Asymmetric Importance Sampling Policy Optimization | https://arxiv.org/abs/2510.06062 |
| λ-GRPO | 2025.10 | Unified Group Relative Policy Optimization with learnable λ | https://arxiv.org/abs/2510.06870 |
| DARO | 2025.10 | Difficulty-Aware Reweighting Policy Optimization | https://arxiv.org/abs/2510.09001 |
| TEPO | 2025.10 | Token-Level Policy Optimization | https://arxiv.org/abs/2510.09369 |
| BAPO | 2025.10 | BAlanced Policy Optimization with Adaptive Clipping | https://arxiv.org/abs/2510.18927 |
| Scaf-GRPO | 2025.10 | Scaffolded Group Relative Policy Optimization | https://arxiv.org/abs/2510.19807 |
| FAPO | 2025.10 | Flawed-Aware Policy Optimization | https://arxiv.org/abs/2510.22543 |
| SSPO | 2025.11 | Subsentence-level Policy Optimization | https://arxiv.org/abs/2511.04256 |
| SAPO | 2025.11 | Soft Adaptive Policy Optimization | https://arxiv.org/abs/2511.20347 |
| DaGRPO | 2025.12 | Distinctiveness-aware Group Relative Policy Optimization | https://arxiv.org/abs/2512.06337 |
| ABC-GRPO | 2026.01 | Adaptive-Boundary-Clipping Group Relative Policy Optimization | https://arxiv.org/abs/2601.03895 |
二、GRPO 局限性剖析
关于 GRPO 的基本原理,请学习 深度解析 GRPO:从原理到实践的全攻略,这里不再赘述。
尽管 GRPO 取得了显著的成功,但其内在的设计仍然存在一定的局限性。为更好地理解后续改进工作的意义,首先分析 GRPO 的三项主要的局限性:
2.1 梯度消失与训练停滞
GRPO 把"组内相对奖励"直接当成优势: A i = ( r i − μ r ) / σ r A_i = (r_i − μ_r) / σ_r Ai=(ri−μr)/σr。当一条 prompt 下的 G 条回答全部正确(或全部错误)时,标准差 σ r σ_r σr 退化为 0,导致优势向量变成零或 NaN,结果就是这批样本的梯度为零,对参数更新"零贡献"。随着模型能力提升,简单问题几乎全对,难题通常全错,导致零优势组比例迅速攀升。这不仅浪费计算资源,也会让学习率调度器误认为模型已经收敛,进而提前降低学习率,压低模型性能。
2.2 熵值塌陷与策略崩塌
GRPO 的剪切机制 L c l i p = E [ m i n ( r t A i , c l i p ( r t , 1 − ϵ , 1 + ϵ ) A i ) ] L_{clip} = E[min(r_t A_i , clip(r_t ,1−\epsilon,1+\epsilon) A_i )] Lclip=E[min(rtAi,clip(rt,1−ϵ,1+ϵ)Ai)] 对超参数 ϵ \epsilon ϵ 极其敏感 。如果 ϵ \epsilon ϵ 过大,负损失会导致低质量路径的概率增加,模型出现剧烈抖动;如果 ϵ \epsilon ϵ 过小,剪切操作过早触发,导致梯度削弱,学习速度减缓。由于 ϵ \epsilon ϵ 的严格限制,一些低概率 token 无法通过策略梯度获得足够大的概率提升,随着训练的进行,模型的输出逐渐变得高度集中,缺乏对新路径的有效探索 。同时,在困难任务较多时,GRPO 可能会出现负样本爆炸现象,连续的负损失导致策略概率分布极端偏离,最终导致训练崩溃。
2.3 信号稀疏与长度通胀
GRPO 的优化目标只关心"最终答案是否正确",忽视推理过程的质量 。在多步推理任务中,哪怕前几步正确,只有最后一步出错,整条路径也会被标记为0,导致策略无法区分"部分正确"的情况。这种稀疏奖励导致优势估计方差过大,学习信号噪声严重 。同时,由于 CoT 采用自回归生成,每条 token 的 log-prob 累加后即为整条轨迹的 log-likelihood。在"更长->累积概率更高->更可能被保留"的朴素概率优势下,为了增加获得奖励的机会,模型倾向于生成更长的推理链,即便这些额外的步骤并不总是必要或相关的。
三、改进工作分类解析
为了更清晰地理解这些改进工作,我从 7 个改进维度对它们进行了分类(如下表所示),并按照分类对每项工作的核心思想进行解析。
| 改进维度 | 代表算法 | 核心机制 | 主要目标 |
|---|---|---|---|
| 裁剪机制 | DAPO, DCPO, ASPO, BAPO, ABC-GRPO | 非对称裁剪、自适应边界、动态调整 | 增强探索、防止过早收敛、确保比率有界 |
| 粒度优化 | DAPO, SPO, GSPO, GTPO 1 ^1 1, GEPO, SSPO | Token级、序列级、子句级等 | 精准信用分配、平衡长度偏差、稳定训练 |
| 奖励策略 | S-GRPO, SEED-GRPO, GRPO-λ 1 ^1 1, EDGE-GRPO, CAPO, COPO, GTPO 2 ^2 2, MAPO, NGRPO, GRPO-λ 2 ^2 2, λ-GRPO, FAPO, SAPO | 语义熵、一致性奖励、混合优势、负样本增强 | 难度自适应、密集奖励、资源优化 |
| 样本增强 | DAPO, CPPO, PODS, TAPO, GRESO, RePO, EDGE-GRPO, GFPO, LSPO, EEPO, Scaf-GRPO, DaGRPO | 动态过滤、自适应难度、区分度感知 | 提高样本效率、聚焦高价值样本、促进多样探索 |
| 偏差修正 | AGPO, Dr.GRPO, DARO | 移除长度与难度归一化、自适应权重 | 消除系统性偏差、符合理论框架、平衡多任务损失 |
| 鲁棒优化 | GMPO, GEPO, GRPO-MA, TEPO | 几何平均、Markov似然、组期望加权、多答案估计 | 降低方差、抑制极端值、稳定梯度、提升收敛效 |
| 架构扩展 | S-GRPO, MGRPO | 双层自我纠错结构、序列组早退机制 | 支持自省能力、优化推理长度、提升生成效率 |
由于篇幅限制,请跳转至对应文章深入阅读:
- GRPO 算法演进------裁剪机制篇
- GRPO 算法演进------粒度优化篇
- GRPO 算法演进------奖励设计篇
- GRPO 算法演进------样本增强篇
- GRPO 算法演进------偏差修正/鲁棒优化/架构扩展篇
四、小结
GRPO 系列改进工作围绕训练稳定性、样本效率、探索能力三大核心挑战,从裁剪机制、奖励策略、样本增强、粒度优化、偏差修正、鲁棒优化及架构扩展七个维度展开改进。这些方法或引入动态自适应机制(如DCPO、BAPO)平衡探索与利用,或通过不同粒度梯度控制(如GSPO、SSPO)提升信号质量,或借助数据增强与过滤(如GFPO、DaGRPO)优化训练分布,共同推动了大语言模型强化学习训练的高效性与可靠性。未来研究可进一步探索多维度机制的有机融合,以及面向更复杂推理任务的自适应优化策略。
"没有终极的算法,只有永恒的逼近。"
回望这四十余项工作,我们看到的不是零和博弈的替代,而是问题空间的逐渐显影------从 token 到序列,从硬截断到软门控,从静态边界到动态自适应。每一项改进都是暂时的驻点,却共同勾勒出一条通往更优解的渐近线。学术研究的终极浪漫,莫过于明知完美不可抵达,却仍前赴后继地去逼近。让我们一同期待,在2026年,更多的进步,更多的突破,伴随着无尽的探索与梦想。