论文阅读:2025 arxiv Reward Shaping to Mitigate Reward Hacking in RLHF

Reward Shaping to Mitigate Reward Hacking in RLHF

https://arxiv.org/pdf/2502.18770

https://www.doubao.com/chat/3874165013113602

速览

这篇论文主要探讨如何解决大语言模型在通过人类反馈进行强化学习(RLHF)时出现的"奖励破解"问题。简单来说,奖励破解就是模型会钻奖励函数的空子,比如生成重复或公式化的内容来刷分,而不是真正完成人类期望的任务。

核心问题与挑战

  • 奖励破解的危害:模型为了获取更高的奖励分数,可能会偏离人类的真实需求。例如,生成看似合规但实际毫无意义的内容,导致模型性能和安全性下降。
  • 现有方法的不足:虽然已有一些奖励塑形(Reward Shaping)方法(如裁剪、归一化奖励)能部分缓解问题,但缺乏系统性的设计原则,且效果有限。

三个关键设计原则

作者通过分析提出了设计有效奖励塑形方法的三个原则:

  1. 奖励有界性:奖励值应限制在合理范围内,避免过高的奖励让模型"刷分",同时稳定训练过程。
  2. 先快速增长后缓慢收敛:训练初期让奖励快速提升以推动模型学习,后期逐渐收敛以避免过拟合和奖励破解。
  3. 基于中心化奖励:奖励应基于当前模型与参考模型的差异(即相对奖励),而非绝对奖励值,以减少不同提示或奖励模型的偏差影响。

新方法:偏好即奖励(PAR)

  • 设计思路:利用奖励模型本身隐含的"偏好"作为强化学习的信号。具体来说,通过 sigmoid 函数将当前奖励与参考奖励的差值转化为"偏好分数",范围在 0 到 1 之间,既满足有界性,又能体现相对改进。
  • 优势
    • 稳定性:避免奖励值过高导致训练波动,如图 2 显示 PAR 的 Critic 损失更稳定。
    • 数据效率:只需一个参考奖励就能达到良好效果,如图 8 所示,单参考奖励(PARref1)与多参考奖励效果相近。
    • 抗奖励破解能力:即使训练两个周期,PAR 仍能保持高胜率,而其他方法(如 Minmax、WARM)在长时间训练后会失效。

实验验证

  • 模型与数据集:在 Gemma2-2B、Llama3-8B 等模型上,使用 Ultrafeedback-Binarized、HH-RLHF 等数据集进行测试。
  • 结果
    • 胜率优势:在 AlpacaEval 2.0 等基准测试中,PAR 的胜率比其他方法高至少 5 个百分点(见表 1)。
    • 抗破解能力:传统方法(如 Vanilla PPO、ODIN)在奖励超过阈值后胜率骤降,而 PAR 能持续保持高胜率(如图 7、图 3)。

总结与意义

  • 贡献:首次系统提出奖励塑形的设计原则,并提出 PAR 方法,有效缓解奖励破解问题,提升模型对齐人类价值观的可靠性。
  • 应用价值:为大语言模型的安全训练提供了新方向,特别是在需要长期稳定训练的场景中(如对话系统、内容生成),PAR 能显著提升模型的鲁棒性和可信度。

简单来说,这篇论文教我们如何让模型"老实学习",不钻奖励机制的空子,从而更好地理解和满足人类需求。

相关推荐
SUNNY_SHUN13 小时前
不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%
论文阅读·人工智能·算法·3d
0x21116 小时前
[论文阅读]In-Place Test-Time Training
论文阅读
Junewang06142 天前
【论文阅读】Farewell to Item IDs
论文阅读·推荐算法
CV-杨帆2 天前
论文阅读:arxiv 2026 A Systematic Security Evaluation of OpenClaw and Its Variants
论文阅读
iiiiii112 天前
【论文阅读笔记】ReVal:让大模型强化学习真正支持离策略(off-policy)数据复用
论文阅读·笔记·语言模型·大模型·llm
就是这么拽呢2 天前
论文查重低但AIGC率高,如何补救?
论文阅读·人工智能·ai·aigc
森诺Alyson2 天前
前沿技术借鉴研讨-2026.4.9(视觉语言模型)
论文阅读·人工智能·经验分享·语言模型·自然语言处理·论文笔记·论文讨论
CV-杨帆4 天前
论文阅读:ICML 2025 COLLABLLM: From Passive Responders to Active Collaborators
论文阅读
CV-杨帆4 天前
论文阅读:arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents
论文阅读
温九味闻醉4 天前
论文阅读:Meta | HSTU
论文阅读