技术栈

offline rlhf

xueyongfu
4 小时前
大模型·dpo·偏好学习·offline rlhf
Offline RLHF-DPO/KTO/ORPO/SPO等偏好学习方法Offline RLHF 以 DPO 为代表,进一步发展出一系列 xPO 方法。相关工作在目标设计上做了多种改动:例如移除目标函数中的 reference 约束、引入长度惩罚项、或显式利用偏好数据中的偏好强度信息等。近期研究更多聚焦于在高噪声偏好数据下提升训练稳健性,以缓解分布漂移带来的性能退化;同时,也有工作开始系统分析 xPO 方法的退化现象,并通过对 logits/策略更新施加约束来稳定优化过程。
我是有底线的