技术栈
偏好学习
xueyongfu
21 天前
大模型
·
dpo
·
偏好学习
·
offline rlhf
Offline RLHF-DPO/KTO/ORPO/SPO等偏好学习方法
Offline RLHF 以 DPO 为代表,进一步发展出一系列 xPO 方法。相关工作在目标设计上做了多种改动:例如移除目标函数中的 reference 约束、引入长度惩罚项、或显式利用偏好数据中的偏好强度信息等。近期研究更多聚焦于在高噪声偏好数据下提升训练稳健性,以缓解分布漂移带来的性能退化;同时,也有工作开始系统分析 xPO 方法的退化现象,并通过对 logits/策略更新施加约束来稳定优化过程。
CodeShare
6 个月前
机器学习
·
偏好学习
·
胜率优化
通过胜率理解偏好学习的理论与优化方法
偏好学习(即通过偏好对比数据对齐生成模型)尚未达到分类或密度估计等任务的成熟度。为此,本文从成对偏好数据的抽样分布出发构建理论框架,证明生成模型的唯一合理评估指标是胜率(win rate),因其同时尊重数据分布中的偏好与流行度。
我是有底线的