GRPO 算法演进：2025 年 RL4LLM 领域 40+ 项改进工作全景解析

文章目录

[一、GRPO 算法演进概览](#一、GRPO 算法演进概览)
[二、GRPO 局限性剖析](#二、GRPO 局限性剖析)
- [2.1 梯度消失与训练停滞](#2.1 梯度消失与训练停滞)
- [2.2 熵值塌陷与策略崩塌](#2.2 熵值塌陷与策略崩塌)
- [2.3 信号稀疏与长度通胀](#2.3 信号稀疏与长度通胀)
三、改进工作分类解析
四、小结

一、GRPO 算法演进概览

在强化学习（RL）领域中，GRPO（Group Relative Policy Optimization）是一个具有重要意义的优化算法。它通过组内相对比较和去价值网络设计，显著降低了传统 PPO 的计算开销。在近年来的研究中，GRPO 算法经历了多个版本的迭代与优化。以下是我搜集到的 GRPO 算法在 RL4LLM 场景下的一系列改进工作（按照时间排序，欢迎补充），之后进行逐一解析。

算法名称	发布时间	算法完整名称	论文链接
DAPO	2025.03	Decoupled Clip and Dynamic sAmpling Policy Optimization	https://arxiv.org/abs/2503.14476
AGPO	2025.03	Adaptive Group Policy Optimization	https://arxiv.org/abs/2503.15952
Dr.GRPO	2025.03	Group Relative Policy Optimization Done Right	https://arxiv.org/abs/2503.20783
CPPO	2025.03	Completion Pruning Policy Optimization	https://arxiv.org/abs/2503.22342
PODS	2025.04	Policy Optimization with Down-Sampling	https://arxiv.org/abs/2504.13818
S-GRPO	2025.05	Serial-Group Decaying-Reward Policy Optimization	https://arxiv.org/abs/2505.07686
SEED-GRPO	2025.05	Semantic Entropy EnhanceD Group Relative Policy Optimization	https://arxiv.org/abs/2505.12346
TAPO	2025.05	Thought-Augmented Policy Optimization	https://arxiv.org/abs/2505.15692
GRPO-λ 1 ^1 1	2025.05	Group Relative Policy Optimization with dynamic λ-threshold switching	https://arxiv.org/abs/2505.18086
SPO	2025.05	Segment Policy Optimization	https://arxiv.org/abs/2505.23564
GRESO	2025.06	Group Relative Policy Optimization with Efficient Selective Rollout	https://arxiv.org/abs/2506.02177
MGRPO	2025.06	Multi-layer Group Relative Policy Optimization	https://arxiv.org/abs/2506.04746
RePO	2025.06	Replay-Enhanced Policy Optimization	https://arxiv.org/abs/2506.09340
GSPO	2025.07	Group Sequence Policy Optimization	https://arxiv.org/abs/2507.18071
GMPO	2025.07	Geometric-Mean Policy Optimization	https://arxiv.org/abs/2507.20673
EDGE-GRPO	2025.07	Entropy-Driven Group Relative Policy Optimization with Guided Error Correction	https://arxiv.org/abs/2507.21848
CAPO	2025.08	Credit Assignment Policy Optimization	https://arxiv.org/abs/2508.02298
GTPO 1 ^1 1	2025.08	Group-relative Trajectory-based Policy Optimization	https://arxiv.org/abs/2508.03772
COPO	2025.08	Consistency-Aware Policy Optimization	https://arxiv.org/abs/2508.04138
GTPO 2 ^2 2	2025.08	Group Token Policy Optimization	https://arxiv.org/abs/2508.04349
GFPO	2025.08	Group Filtered Policy Optimization	https://arxiv.org/abs/2508.09726
GEPO	2025.08	Group Expectation Policy Optimization	https://arxiv.org/abs/2508.17850
DCPO	2025.09	Dynamic Clipping Policy Optimization	https://arxiv.org/abs/2509.02333
MAPO	2025.09	Mixed Advantage Policy Optimization	https://arxiv.org/abs/2509.18849
NGRPO	2025.09	Negative-enhanced Group Relative Policy Optimization	https://arxiv.org/abs/2509.18851
GRPO-MA	2025.09	Group Relative Policy Optimization with Multi-Answer	https://arxiv.org/abs/2509.24494
GRPO-λ 2 ^2 2	2025.10	Group Relative Policy Optimization with λ-return eligibility traces	https://arxiv.org/abs/2510.00194
LSPO	2025.10	Length-aware dynamic Sampling for Policy Optimization	https://arxiv.org/abs/2510.01459
EEPO	2025.10	Exploration-Enhanced Policy Optimization	https://arxiv.org/abs/2510.05837
ASPO	2025.10	Asymmetric Importance Sampling Policy Optimization	https://arxiv.org/abs/2510.06062
λ-GRPO	2025.10	Unified Group Relative Policy Optimization with learnable λ	https://arxiv.org/abs/2510.06870
DARO	2025.10	Difficulty-Aware Reweighting Policy Optimization	https://arxiv.org/abs/2510.09001
TEPO	2025.10	Token-Level Policy Optimization	https://arxiv.org/abs/2510.09369
BAPO	2025.10	BAlanced Policy Optimization with Adaptive Clipping	https://arxiv.org/abs/2510.18927
Scaf-GRPO	2025.10	Scaffolded Group Relative Policy Optimization	https://arxiv.org/abs/2510.19807
FAPO	2025.10	Flawed-Aware Policy Optimization	https://arxiv.org/abs/2510.22543
SSPO	2025.11	Subsentence-level Policy Optimization	https://arxiv.org/abs/2511.04256
SAPO	2025.11	Soft Adaptive Policy Optimization	https://arxiv.org/abs/2511.20347
DaGRPO	2025.12	Distinctiveness-aware Group Relative Policy Optimization	https://arxiv.org/abs/2512.06337
ABC-GRPO	2026.01	Adaptive-Boundary-Clipping Group Relative Policy Optimization	https://arxiv.org/abs/2601.03895

二、GRPO 局限性剖析

关于 GRPO 的基本原理，请学习深度解析 GRPO：从原理到实践的全攻略，这里不再赘述。

尽管 GRPO 取得了显著的成功，但其内在的设计仍然存在一定的局限性。为更好地理解后续改进工作的意义，首先分析 GRPO 的三项主要的局限性：

2.1 梯度消失与训练停滞

GRPO 把"组内相对奖励"直接当成优势： A i = ( r i − μ r ) / σ r A_i = (r_i − μ_r) / σ_r Ai=(ri−μr)/σr。当一条 prompt 下的 G 条回答全部正确（或全部错误）时，标准差 σ r σ_r σr 退化为 0，导致优势向量变成零或 NaN，结果就是这批样本的梯度为零，对参数更新"零贡献"。随着模型能力提升，简单问题几乎全对，难题通常全错，导致零优势组比例迅速攀升。这不仅浪费计算资源，也会让学习率调度器误认为模型已经收敛，进而提前降低学习率，压低模型性能。

2.2 熵值塌陷与策略崩塌

GRPO 的剪切机制 L c l i p = E [ m i n ( r t A i , c l i p ( r t , 1 − ϵ , 1 + ϵ ) A i ) ] L_{clip} = E[min(r_t A_i , clip(r_t ,1−\epsilon,1+\epsilon) A_i )] Lclip=E[min(rtAi,clip(rt,1−ϵ,1+ϵ)Ai)] 对超参数 ϵ \epsilon ϵ 极其敏感 。如果 ϵ \epsilon ϵ 过大，负损失会导致低质量路径的概率增加，模型出现剧烈抖动；如果 ϵ \epsilon ϵ 过小，剪切操作过早触发，导致梯度削弱，学习速度减缓。由于 ϵ \epsilon ϵ 的严格限制，一些低概率 token 无法通过策略梯度获得足够大的概率提升，随着训练的进行，模型的输出逐渐变得高度集中，缺乏对新路径的有效探索 。同时，在困难任务较多时，GRPO 可能会出现负样本爆炸现象，连续的负损失导致策略概率分布极端偏离，最终导致训练崩溃。

2.3 信号稀疏与长度通胀

GRPO 的优化目标只关心"最终答案是否正确"，忽视推理过程的质量 。在多步推理任务中，哪怕前几步正确，只有最后一步出错，整条路径也会被标记为0，导致策略无法区分"部分正确"的情况。这种稀疏奖励导致优势估计方差过大，学习信号噪声严重 。同时，由于 CoT 采用自回归生成，每条 token 的 log-prob 累加后即为整条轨迹的 log-likelihood。在"更长->累积概率更高->更可能被保留"的朴素概率优势下，为了增加获得奖励的机会，模型倾向于生成更长的推理链，即便这些额外的步骤并不总是必要或相关的。

三、改进工作分类解析

为了更清晰地理解这些改进工作，我从 7 个改进维度对它们进行了分类（如下表所示），并按照分类对每项工作的核心思想进行解析。

改进维度	代表算法	核心机制	主要目标
裁剪机制	DAPO, DCPO, ASPO, BAPO, ABC-GRPO	非对称裁剪、自适应边界、动态调整	增强探索、防止过早收敛、确保比率有界
粒度优化	DAPO, SPO, GSPO, GTPO 1 ^1 1, GEPO, SSPO	Token级、序列级、子句级等	精准信用分配、平衡长度偏差、稳定训练
奖励策略	S-GRPO, SEED-GRPO, GRPO-λ 1 ^1 1, EDGE-GRPO, CAPO, COPO, GTPO 2 ^2 2, MAPO, NGRPO, GRPO-λ 2 ^2 2, λ-GRPO, FAPO, SAPO	语义熵、一致性奖励、混合优势、负样本增强	难度自适应、密集奖励、资源优化
样本增强	DAPO, CPPO, PODS, TAPO, GRESO, RePO, EDGE-GRPO, GFPO, LSPO, EEPO, Scaf-GRPO, DaGRPO	动态过滤、自适应难度、区分度感知	提高样本效率、聚焦高价值样本、促进多样探索
偏差修正	AGPO, Dr.GRPO, DARO	移除长度与难度归一化、自适应权重	消除系统性偏差、符合理论框架、平衡多任务损失
鲁棒优化	GMPO, GEPO, GRPO-MA, TEPO	几何平均、Markov似然、组期望加权、多答案估计	降低方差、抑制极端值、稳定梯度、提升收敛效
架构扩展	S-GRPO, MGRPO	双层自我纠错结构、序列组早退机制	支持自省能力、优化推理长度、提升生成效率

由于篇幅限制，请跳转至对应文章深入阅读：

四、小结

GRPO 系列改进工作围绕训练稳定性、样本效率、探索能力三大核心挑战，从裁剪机制、奖励策略、样本增强、粒度优化、偏差修正、鲁棒优化及架构扩展七个维度展开改进。这些方法或引入动态自适应机制（如DCPO、BAPO）平衡探索与利用，或通过不同粒度梯度控制（如GSPO、SSPO）提升信号质量，或借助数据增强与过滤（如GFPO、DaGRPO）优化训练分布，共同推动了大语言模型强化学习训练的高效性与可靠性。未来研究可进一步探索多维度机制的有机融合，以及面向更复杂推理任务的自适应优化策略。

"没有终极的算法，只有永恒的逼近。"

回望这四十余项工作，我们看到的不是零和博弈的替代，而是问题空间的逐渐显影------从 token 到序列，从硬截断到软门控，从静态边界到动态自适应。每一项改进都是暂时的驻点，却共同勾勒出一条通往更优解的渐近线。学术研究的终极浪漫，莫过于明知完美不可抵达，却仍前赴后继地去逼近。让我们一同期待，在2026年，更多的进步，更多的突破，伴随着无尽的探索与梦想。