GRPO 丢失的组内排序信息,LamPO 补回来了

一句话总结

GRPO 只知道组内谁好谁坏,但丢失了排序结构。LamPO 改用两两对比的方式保留了这一信息,在各基准上一致超越了 GRPO 及其变体,并且不引入显著额外开销


  • 论文标题:LamPO: A Lambda Style Policy Optimization for Reasoning Language Models
  • 论文地址https://arxiv.org/pdf/2605.21235v1
  • 作者背景:Facebook、密歇根大学、内基梅隆大学、密西西比州立大学 等

一、动机:GRPO 的均值陷阱

用强化学习提升大模型推理能力已经是主流范式。典型的流程是对同一个问题采样一组回答,用可验证的奖励(比如数学题的正确性)来优化策略。GRPO 是目前最流行的 critic-free 方法 ------ 不需要训练价值网络,只需要在组内做 z-score 归一化就能得到优势估计

但 GRPO 有一个结构性缺陷:它把整组响应压缩成两个标量(均值 μ 和标准差 σ),每个响应的优势只取决于它偏离均值多远

这意味着:

  • 一个 "差一步就对" 的响应和一个 "完全跑偏" 的响应,只要奖励相同(比如都是 0),在 GRPO 眼里完全等价
  • 组内响应之间 "谁比谁好、好多少" 的排序信息被彻底丢弃

在稀疏二值奖励下(对/错),这个问题尤其严重,大量错误响应拿到相同的 0 分,GRPO 无法区分它们的质量差异

二、解决方案

2.1 成对分解优势(PDA)

针对上述问题,作者提出了 LamPO(Lambda-Style Policy Optimization),它的解法很直觉:既然丢失了排序信息,那就别压缩成标量了,直接成对比较各个采样结果

对组内每个响应 o_i,LamPO 不再算它和均值的偏差,而是把它和组内所有其他响应逐一比较,汇总所有成对奖励差。优势估计的计算过程是:

  1. 对响应 o_i,遍历组内所有其他响应 o_j
  2. 计算两者的奖励差 R(o_i) - R(o_j)
  3. 乘以一个 "置信度权重" 后求平均

置信度权重的设计很巧妙:它是两个响应在旧策略下对数概率差的 sigmoid

如果模型当前更偏好 o_i(对数概率更高),那么 o_i vs o_j 这对比较就获得更高的权重,相当于让模型在有把握的方向上学得更用力。这个灵感来自信息检索领域的 LambdaRank ------ 这也是本文方法名称的来源

温度参数 τ 控制权重的锐度:

  • τ 大时权重趋于均匀(接近 GRPO 的均值行为)
  • τ 小时权重更极端,只关注少数几对比较

将组内平均换成两两比较,看起来会严重加大计算开销,因为后者是平方复杂度的操作。但好在 GRPO 中的 Group 都不大,通常只有 8~16,O(G²) 次成对比较的额外开销可以忽略不记

2.2 参考答案利用

纯正确性奖励是二值的(对/错),信号太稀疏。当训练集有参考解答时,LamPO 额外加一个 ROUGE-L F1 作为辅助奖励(生成结果和参考答案的字面重叠度)

最终奖励 = 正确性奖励 + λ_sem × ROUGE-L 奖励

这不是用 ROUGE-L 替代正确性判断,只是在 "全错" 的组里提供更细粒度的区分信号。消融实验显示去掉它会掉约 1.3 分,说明在稀疏奖励场景下确实有帮助,但核心改进来自 PDA 本身

三、实验结果

3.1 主结果

三个模型家族(Qwen3-1.7B、Qwen3-4B、Phi-4-mini),四个推理基准(AIME24、AIME25、MATH-500、GPQA-Diamond)。

以 Qwen3-1.7B 模型为例,LamPO 在 AIME24 上比 GRPO 提升 4.59 分,比次优方法(GSPO)提升 2.16 分。竞赛数学题上的提升最明显,这正是 "部分正确响应" 最有价值的场景。其他模型上也有类似结论

3.2 超参数

对于两个超参数,作者的测试结果如下

τ 太小使权重过于敏感,太大则抹平了成对区分度;去掉 ROUGE-L 辅助奖励掉约 1.3 分,说明 PDA 是主要收益来源

3.3 训练动态

训练曲线显示 LamPO 的奖励提升更平滑,生成长度更稳定。成对比较提供的梯度信号比标量偏差更结构化,减少了因 "组统计量波动" 导致的训练震荡

四、局限性

此方法依赖可靠的奖励信号,如果奖励模型本身有噪声,成对差异可能放大奖励误差

相关推荐
FrameNotWork3 分钟前
HarmonyOS6.1 AI 模型管理架构设计与最佳实践
人工智能·harmonyos
没事别瞎琢磨6 分钟前
十、统一 Runner 入口——能力检测与模式回退
人工智能·node.js
装不满的克莱因瓶8 分钟前
了解 LangChain 中的 LLM 与 ChatModel 的差异
人工智能·python·ai·langchain·llm·agent·chatmodel
dingzd9511 分钟前
跨境社媒运营越到后面 越比拼账号的表达稳定性
大数据·人工智能·矩阵·内容营销
云烟成雨TD13 分钟前
Spring AI 1.x 系列【54】Retry 机制分析
java·人工智能·spring
没事别瞎琢磨15 分钟前
八、环境隔离——构建安全的子进程环境
人工智能·node.js
手写码匠16 分钟前
从零实现 Prompt 工程引擎:结构化提示、自动优化与多轮自省体系
人工智能·深度学习·算法·aigc
甲维斯18 分钟前
Claude Fable5首测,GPT5.5和国产模型弱爆了!
人工智能
2301_8185277826 分钟前
瑜伽服面料科技——AI加速创新材料研发
人工智能
键盘侠伍十七28 分钟前
Gandalf Lakera AI Prompt Injection 靶场深度教程:从 Level 1 到 Level 8 全面攻防解析
人工智能·prompt·ai安全