直接优化偏好 - 直接优化偏好技术,学习,经验文章

阿杰学AI

7 个月前

AI核心知识46——大语言模型之DPO（简洁且通俗易懂版）DPO 是 Direct Preference Optimization（直接偏好优化）的缩写。它是目前 AI 训练领域最火、最革命性的技术之一。简单来说，它是为了取代（或者说简化） RLHF（特别是其中的 PPO 阶段）而诞生的。