技术栈

直接优化偏好

阿杰学AI
3 天前
人工智能·ai·语言模型·aigc·ppo·dpo·直接优化偏好
AI核心知识46——大语言模型之DPO(简洁且通俗易懂版)DPO 是 Direct Preference Optimization(直接偏好优化)的缩写。它是目前 AI 训练领域最火、最革命性的技术之一。简单来说,它是为了取代(或者说简化) RLHF(特别是其中的 PPO 阶段) 而诞生的。
我是有底线的