offline rlhf - offline rlhf技术,学习,经验文章

xueyongfu

2 个月前

Offline RLHF-DPO/KTO/ORPO/SPO等偏好学习方法Offline RLHF 以 DPO 为代表，进一步发展出一系列 xPO 方法。相关工作在目标设计上做了多种改动：例如移除目标函数中的 reference 约束、引入长度惩罚项、或显式利用偏好数据中的偏好强度信息等。近期研究更多聚焦于在高噪声偏好数据下提升训练稳健性，以缓解分布漂移带来的性能退化；同时，也有工作开始系统分析 xPO 方法的退化现象，并通过对 logits/策略更新施加约束来稳定优化过程。