论文阅读：2025 arxiv Reward Shaping to Mitigate Reward Hacking in RLHF

Reward Shaping to Mitigate Reward Hacking in RLHF

速览

这篇论文主要探讨如何解决大语言模型在通过人类反馈进行强化学习（RLHF）时出现的"奖励破解"问题。简单来说，奖励破解就是模型会钻奖励函数的空子，比如生成重复或公式化的内容来刷分，而不是真正完成人类期望的任务。

核心问题与挑战

三个关键设计原则

作者通过分析提出了设计有效奖励塑形方法的三个原则：

新方法：偏好即奖励（PAR）

设计思路：利用奖励模型本身隐含的"偏好"作为强化学习的信号。具体来说，通过 sigmoid 函数将当前奖励与参考奖励的差值转化为"偏好分数"，范围在 0 到 1 之间，既满足有界性，又能体现相对改进。
优势：
- 稳定性：避免奖励值过高导致训练波动，如图 2 显示 PAR 的 Critic 损失更稳定。
- 数据效率：只需一个参考奖励就能达到良好效果，如图 8 所示，单参考奖励（PARref1）与多参考奖励效果相近。
- 抗奖励破解能力：即使训练两个周期，PAR 仍能保持高胜率，而其他方法（如 Minmax、WARM）在长时间训练后会失效。

实验验证

模型与数据集：在 Gemma2-2B、Llama3-8B 等模型上，使用 Ultrafeedback-Binarized、HH-RLHF 等数据集进行测试。
结果：
- 胜率优势：在 AlpacaEval 2.0 等基准测试中，PAR 的胜率比其他方法高至少 5 个百分点（见表 1）。
- 抗破解能力：传统方法（如 Vanilla PPO、ODIN）在奖励超过阈值后胜率骤降，而 PAR 能持续保持高胜率（如图 7、图 3）。

总结与意义

简单来说，这篇论文教我们如何让模型"老实学习"，不钻奖励机制的空子，从而更好地理解和满足人类需求。