技术栈
直接优化偏好
阿杰学AI
14 天前
人工智能
·
算法
·
机器学习
·
ai
·
强化学习
·
dpo
·
直接优化偏好
AI核心知识122—大语言模型之 直接偏好优化(简洁且通俗易懂版)
DPO (Direct Preference Optimization, 直接偏好优化) 是大模型对齐(Alignment)领域的一场“暴力美学”革命 。
阿杰学AI
5 个月前
人工智能
·
ai
·
语言模型
·
aigc
·
ppo
·
dpo
·
直接优化偏好
AI核心知识46——大语言模型之DPO(简洁且通俗易懂版)
DPO 是 Direct Preference Optimization(直接偏好优化)的缩写。它是目前 AI 训练领域最火、最革命性的技术之一。简单来说,它是为了取代(或者说简化) RLHF(特别是其中的 PPO 阶段) 而诞生的。
我是有底线的