偏好学习

Offline RLHF-DPO/KTO/ORPO/SPO等偏好学习方法Offline RLHF 以 DPO 为代表，进一步发展出一系列 xPO 方法。相关工作在目标设计上做了多种改动：例如移除目标函数中的 reference 约束、引入长度惩罚项、或显式利用偏好数据中的偏好强度信息等。近期研究更多聚焦于在高噪声偏好数据下提升训练稳健性，以缓解分布漂移带来的性能退化；同时，也有工作开始系统分析 xPO 方法的退化现象，并通过对 logits/策略更新施加约束来稳定优化过程。

通过胜率理解偏好学习的理论与优化方法偏好学习（即通过偏好对比数据对齐生成模型）尚未达到分类或密度估计等任务的成熟度。为此，本文从成对偏好数据的抽样分布出发构建理论框架，证明生成模型的唯一合理评估指标是胜率（win rate），因其同时尊重数据分布中的偏好与流行度。

我是有底线的