散度最小化偏好优化 - 散度最小化偏好优化技术,学习,经验文章

F_D_Z

9 个月前

扩散模型对齐：DMPO 让模型更懂人类偏好Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO（Divergence Minimization Preference Optimization）的新方法，用于更好地将扩散模型与人类偏好对齐。