扩散模型对齐:DMPO 让模型更懂人类偏好

Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO(Divergence Minimization Preference Optimization) 的新方法,用于更好地将扩散模型与人类偏好对齐。


📖 目录

  1. 研究背景:为什么扩散模型需要"对齐"?
  2. [现有方法的"陷阱":均值 seeking 带来的模糊图像](#现有方法的“陷阱”:均值 seeking 带来的模糊图像)
  3. [DMPO 登场:用"反向 KL"精准捕捉偏好](#DMPO 登场:用“反向 KL”精准捕捉偏好)
  4. [理论保证:DMPO 与 RLHF 方向一致](#理论保证:DMPO 与 RLHF 方向一致)
  5. [实验结果:自动指标 + 人类评估双杀](#实验结果:自动指标 + 人类评估双杀)
  6. [图像编辑彩蛋:DMPO 让"宠物入口"不再消失](#图像编辑彩蛋:DMPO 让“宠物入口”不再消失)
  7. [消融实验:α 与 β 的的敏感性](#消融实验:α 与 β 的的敏感性)
  8. 总结与展望
  9. [快速 FAQ](#快速 FAQ)

1. 研究背景:为什么扩散模型需要"对齐"?

扩散模型(Diffusion Models, DM)自 2020 年横空出世以来,凭借「逐步去噪」的独特机制,在文本生成图像(T2I)任务上一骑绝尘。无论是 Midjourney 的插画风格,还是 Stable Diffusion 的开源生态,都展示了其惊人的「作画」能力。然而,这些模型在训练阶段往往采用单阶段、大规模图文对的方式,目标仅仅是「复现」互联网上的图文分布,而非「理解」人类对一张好图的微妙偏好。

模型家族 训练流程 对齐手段 效果
大语言模型(LLM) 两阶段:预训练 + 偏好微调 RLHF / DPO 回答更贴心、更安全
扩散模型(DM) 单阶段图文对训练 ❌ 无显式对齐 可能"答非所图"

一句话 :扩散模型会画"猫",但不一定画出你最想看的猫
目标:让模型生成"人类更pick"的图像,而不仅仅是"合理"的图像。

🎯 对齐(Alignment):让扩散模型听懂"人话"

在大语言模型(LLM)领域,研究者们早已发现「两阶段训练」的重要性:

  1. 预训练:让模型"博览群书",掌握通用知识;
  2. 偏好微调:用 RLHF 或 DPO 对齐人类价值观,让回答更贴心、更安全。

扩散模型同样需要这样的"第二阶段"------偏好对齐


2. 现有方法的"陷阱":均值 seeking 带来的模糊图像

⚠️ 前向 KL 散度的副作用

  • Diffusion-DPO 实质在优化:
    D K L ( p ∗ ∥ p θ ) D_{KL}(p^*\|p_\theta) DKL(p∗∥pθ)
  • 问题:为了"覆盖"所有可能的好样本,模型被迫平均化 → 图像变模糊、细节丢失。

📌 什么是"均值 seeking"?

在统计学里,前向 KL 散度(也叫 I-projection)有一个著名特性:

它要求模型 q(x) 必须在 p(x) 的每一个非零区域都分配质量,否则 KL→∞。

翻译到图像生成领域:

  • 如果人类偏好分布 p* 里"既喜欢卡通猫,也喜欢写实猫",
  • 那么模型 pθ 就必须同时生成两种猫,哪怕训练数据里只给了"卡通猫更好"的提示。
  • 结果 → 一张图里卡通+写实混搭 ,耳朵毛绒绒、身体却高清毛发,四不像

🖼️ 视觉层面的"灾难"

提示词 人类期望 均值 seeking 结果
"a cute corgi in a wizard hat" 可爱短腿+帽子服帖 腿长忽长忽短,帽子半悬浮
"cyberpunk city, neon rain" 高对比、锐利光斑 全图灰蒙蒙,霓虹灯变成涂色块
"a spoon with eyes and a smile" 清晰表情、勺子光泽 眼睛融化在金属里,笑容成噪点

🧠 心理学视角:为什么人类讨厌"平均脸"

认知学研究表明,人们对"平均化"面孔的喜好度中等偏下 ------因为缺乏鲜明特征 。同理,对图像的审美也遵循"峰值偏好":我们更喜欢高饱和度、高对比、焦点清晰的片子,而非"面面俱到"的平淡图。前向 KL 恰恰把模型推向后者。

🚧 扩散家族的三种"均值 seeking"问题

  1. 路径级平均:Diffusion-DPO 在整条去噪轨迹上求期望,导致每步都要"兼顾"多种走向;
  2. 像素级平均:高维 RGB 空间下,KL 惩罚任何"零概率"区域,迫使像素值向"中庸灰"靠拢;
  3. 风格级平均:卡通与写实同时存在时,模型把高频纹理与低频色块混为一谈,生成"油画+照片"杂交体。

3. DMPO 登场:用"反向 KL"精准捕捉偏好

🎯 核心思想

最小化反向 KL 散度
D K L ( p θ ∥ p ∗ ) D_{KL}(p_\theta\|p^*) DKL(pθ∥p∗)

  • 只惩罚模型在"不支持区域 "放质量 → 迫使模型聚焦高奖励模态
  • 生成结果:更清晰、更贴合提示、更符合人类偏好

🧮 实战 loss(成对偏好)

L DMPO = E ( x w , x l ) , t [ σ ( u t ) log ⁡ σ ( u t ) 1 − α + σ ( − u t ) log ⁡ σ ( − u t ) α ] \mathcal{L}{\text{DMPO}}=\mathbb{E}{(x^w,x^l),t}\Big[\sigma(u_t)\log\frac{\sigma(u_t)}{1-\alpha}+\sigma(-u_t)\log\frac{\sigma(-u_t)}{\alpha}\Big] LDMPO=E(xw,xl),t[σ(ut)log1−ασ(ut)+σ(−ut)logασ(−ut)]

其中
u t = − β T [ ∥ ε w − ε θ ( x t w ) ∥ 2 − ∥ ε w − ε ref ( x t w ) ∥ 2 − ( 同上 x l ) ] u_t=-\frac{\beta}{T}\Big[\|\varepsilon^w-\varepsilon_\theta(x^w_t)\|^2-\|\varepsilon^w-\varepsilon_{\text{ref}}(x^w_t)\|^2-(\text{同上 }x^l)\Big] ut=−Tβ[∥εw−εθ(xtw)∥2−∥εw−εref(xtw)∥2−(同上 xl)]


4. 理论保证:DMPO 与 RLHF 方向一致

定理 (一句话版)

当 β = 1 \beta=1 β=1 时,
∇ θ L DMPO = − ∇ θ L RLHF \nabla_\theta\mathcal{L}{\text{DMPO}}=-\nabla\theta\mathcal{L}_{\text{RLHF}} ∇θLDMPO=−∇θLRLHF

→ 虽然推导路线不同,但优化方向完全一致,理论严谨无偏。


5. 实验结果:自动指标 + 人类评估

👥 人类小样本盲测(100 提示 × 3 问题)

📊 自动评估(Pick-a-Pic V2)

在Pick-a-Pic V2、HPS V2和Parti-Prompt数据集上,所有基准与SD1.5的奖励分数比较,最佳结果用粗体字表示。平均领先第二名 64.6%(PickScore 胜率)

(a) Winrate (%) 在 Pick-a-Pic V2、HPS V2 和 Parti-Prompt 数据集上对比所有基线与 SD 1.5 的比较。(b) DMPO 与其他基线之间的胜率比较,胜率超过 50% 的用绿色表示,低于 50% 的用红色表示。

🌟 从"能画"到"画得好"

与其他方法相比,DMPO始终表现出更强的能力来捕捉提示的语义意图,产生的输出更加准确且质量更高。例如,在第一行中,只有DMPO成功呈现了"微笑"的概念,而在第二行中,它是唯一一个正确描绘"装扮成水手的木瓜"的模型。


6. 图像编辑彩蛋:DMPO 让"宠物入口"不再消失

除了改善图像生成任务的对齐性,DMPO还显著增强了模型在图像编辑方面的能力,尤其是在文本引导的图像编辑场景中。

任务 :真实图像 + 文本指令 → 编辑后图像
案例

  • 输入:一扇门 + "add a pet entrance"

  • DMPO :精准出现宠物小门

在第一行中,只有DMPO正确理解和呈现了内容"宠物入口"。在第二行中,输入提示为"一个半吃的披萨。",只有DMPO生成了一幅在语义上真实且视觉上高度吸引的图像。


7. 消融实验:α 与 β 的敏感性


在Pick-a-Pic V2和HPS V2测试集上进行评估。(a) β的影响:当α固定为0.01时,随着β的增加,模型性能先增加后减少。(b) α的影响:当β固定为2000时,性能同样先增加后减少,随着α的增加


8. 总结与展望

一句话总结

DMPO 用"反向 KL"让扩散模型不再平均化 ,而是精准命中 人类最喜欢的模态,理论严谨 + 实验碾压

🔮 未来方向

  1. 视频扩散模型对齐(VideoDM)
  2. 多模态条件(文本 + 图像 + 音频)
  3. 在线偏好收集 + 实时微调

9. 快速 FAQ

Q1:DMPO 需要额外模型或奖励网络吗?

❌ 不需要,只用成对偏好数据即可训练。

Q2:计算成本比 Diffusion-DPO 高多少?

⏱️ 几乎相同,每次迭代只多 2 次噪声预测差值。

Q3:能在 SDXL 上用吗?

✅ 已验证,SDXL 版本同样领先


https://arxiv.org/html/2507.07510v1

相关推荐
buttonupAI1 天前
今日Reddit各AI板块高价值讨论精选(2025-12-20)
人工智能
2501_904876481 天前
2003-2021年上市公司人工智能的采纳程度测算数据(含原始数据+计算结果)
人工智能
竣雄1 天前
计算机视觉:原理、技术与未来展望
人工智能·计算机视觉
救救孩子把1 天前
44-机器学习与大模型开发数学教程-4-6 大数定律与中心极限定理
人工智能·机器学习
Rabbit_QL1 天前
【LLM评价指标】从概率到直觉:理解语言模型的困惑度
人工智能·语言模型·自然语言处理
呆萌很1 天前
HSV颜色空间过滤
人工智能
roman_日积跬步-终至千里1 天前
【人工智能导论】02-搜索-高级搜索策略探索篇:从约束满足到博弈搜索
java·前端·人工智能
FL16238631291 天前
[C#][winform]基于yolov11的淡水鱼种类检测识别系统C#源码+onnx模型+评估指标曲线+精美GUI界面
人工智能·yolo·目标跟踪
爱笑的眼睛111 天前
从 Seq2Seq 到 Transformer++:深度解构与自构建现代机器翻译核心组件
java·人工智能·python·ai
小润nature1 天前
AI时代对编程技能学习方式的根本变化(1)
人工智能