技术栈
直接偏好优化
大千AI助手
1 天前
人工智能
·
神经网络
·
算法
·
机器学习
·
dpo
·
大模型对齐
·
直接偏好优化
直接偏好优化(DPO):原理、演进与大模型对齐新范式
直接偏好优化(Direct Preference Optimization, DPO) 是由斯坦福大学与 CZ Biohub 研究团队于 2023 年提出的突破性方法,用于直接基于人类偏好数据微调大语言模型(LLMs),无需显式训练奖励模型或依赖强化学习(RL)。其核心思想是将模型自身隐式转化为奖励函数,通过数学变换将复杂的强化学习问题转化为简洁的监督学习目标,显著提升训练效率与稳定性。