技术栈

散度最小化偏好优化

F_D_Z
2 天前
人工智能·扩散模型·kl散度·双阶段训练·散度最小化偏好优化
扩散模型对齐:DMPO 让模型更懂人类偏好Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO(Divergence Minimization Preference Optimization) 的新方法,用于更好地将扩散模型与人类偏好对齐。
我是有底线的