OAIF:基于在线 AI 反馈的语言模型直接对齐温馨提示: 本篇文章已同步至"AI专题精讲" OAIF:基于在线 AI 反馈的语言模型直接对齐直接来自偏好(DAP)的对齐方法(如 DPO)近年来作为人类反馈强化学习(RLHF)的高效替代方案出现,这些方法无需训练单独的奖励模型。然而,DAP 方法中使用的偏好数据集通常是在训练前收集的,并且在训练过程中不会更新,因此反馈是完全离线的。此外,这些数据集中的回答往往来自于与当前被对齐模型不同的语言模型,而由于模型在训练过程中不断变化,对齐阶段不可避免地是离策略(off-policy)的。