技术栈
直接优化偏好
阿杰学AI
3 天前
人工智能
·
ai
·
语言模型
·
aigc
·
ppo
·
dpo
·
直接优化偏好
AI核心知识46——大语言模型之DPO(简洁且通俗易懂版)
DPO 是 Direct Preference Optimization(直接偏好优化)的缩写。它是目前 AI 训练领域最火、最革命性的技术之一。简单来说,它是为了取代(或者说简化) RLHF(特别是其中的 PPO 阶段) 而诞生的。
我是有底线的