DDPM-KL 散度与 L2 损失

KL 散度与 L2 损失的等价性

您指的两个等价式子是 Lvb\mathcal{L}_{\text{vb}}Lvb 展开后的 Lt\mathcal{L}_tLt 项:

  1. KL 散度形式 (理论基础)
    Lt=Ex0,xt[DKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt))]\mathcal{L}t = \mathbb{E}{x_0, x_t} \left[ \mathcal{D}{\text{KL}} (q(x{t-1}|x_t, x_0) \| p_\theta(x_{t-1}|x_t)) \right] \quadLt=Ex0,xt[DKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt))]

  2. L2 损失形式 (实际应用)
    Lt=Ex0,t,ϵ[∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]\mathcal{L}t = \mathbb{E}{x_0, t, \epsilon} \left[ \left\| \epsilon - \epsilon_\theta (\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, t) \right\|^2 \right] \quadLt=Ex0,t,ϵ[ ϵ−ϵθ(αˉt x0+1−αˉt ϵ,t) 2]

这两个公式是等价的,具体证明过程是 DDPM 理论的核心贡献之一。


详细等价性分析

1. KL 散度的解析解

由于 q(xt−1∣xt,x0)q(x_{t-1}|x_t, x_0)q(xt−1∣xt,x0) 和 pθ(xt−1∣xt)p_\theta(x_{t-1}|x_t)pθ(xt−1∣xt) 都是高斯分布 ,它们之间的 KL 散度 DKL(P∥Q)\mathcal{D}_{\text{KL}}(P \| Q)DKL(P∥Q) 有一个解析解,其形式取决于它们的均值和方差:

DKL(P∥Q)∝log⁡(∣ΣQ∣∣ΣP∣)+Tr(ΣQ−1ΣP)+(μP−μQ)TΣQ−1(μP−μQ)\mathcal{D}_{\text{KL}}(P \| Q) \propto \log \left( \frac{|\Sigma_Q|}{|\Sigma_P|} \right) + \text{Tr}(\Sigma_Q^{-1} \Sigma_P) + (\mu_P - \mu_Q)^\mathrm{T} \Sigma_Q^{-1} (\mu_P - \mu_Q)DKL(P∥Q)∝log(∣ΣP∣∣ΣQ∣)+Tr(ΣQ−1ΣP)+(μP−μQ)TΣQ−1(μP−μQ)

将 DDPM 的参数代入:

  • PPP 是真实的逆向分布 q(xt−1∣xt,x0)q(x_{t-1}|x_t, x_0)q(xt−1∣xt,x0),其均值为 μ~t\tilde{\mu}_tμ~t,方差为 β~tI\tilde{\beta}_t \mathbf{I}β~tI。
  • QQQ 是参数化模型 pθ(xt−1∣xt)p_\theta(x_{t-1}|x_t)pθ(xt−1∣xt),其均值为 μθ\mu_\thetaμθ,方差为 ΣθI\Sigma_\theta \mathbf{I}ΣθI。

如果我们将 参数化模型的方差 Σθ\Sigma_\thetaΣθ 固定真实方差 β~tI\tilde{\beta}_t \mathbf{I}β~tI,那么 KL 散度的许多项会变成常数,只剩下均值项:

Lt∝E[∥μ~t(xt,x0)−μθ(xt,t)∥2]\mathcal{L}_t \propto \mathbb{E} \left[ \left\| \tilde{\mu}t(x_t, x_0) - \mu\theta(x_t, t) \right\|^2 \right]Lt∝E[∥μ~t(xt,x0)−μθ(xt,t)∥2]

2. 均值 L2 损失到噪声 L2 损失的转化

DDPM 的核心思想是:预测噪声比直接预测均值更简单

研究者证明,真实的均值 μ~t(xt,x0)\tilde{\mu}t(x_t, x_0)μ~t(xt,x0) 可以用真实噪声 ϵ\epsilonϵ 表示。同时,我们将参数化均值 μθ(xt,t)\mu\theta(x_t, t)μθ(xt,t) 参数化为预测噪声 ϵθ(xt,t)\epsilon_\theta(x_t, t)ϵθ(xt,t) 的函数。

  • 真实均值 (由 ϵ\epsilonϵ 表达):
    μ~t(xt,x0)∝1αt(xt−βt1−αˉtϵ)\tilde{\mu}_t(x_t, x_0) \propto \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon \right)μ~t(xt,x0)∝αt 1(xt−1−αˉt βtϵ)
  • 参数化均值 (由 ϵθ\epsilon_\thetaϵθ 表达):
    μθ(xt,t)=1αt(xt−βt1−αˉtϵθ(xt,t))\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}t}} \epsilon\theta(x_t, t) \right)μθ(xt,t)=αt 1(xt−1−αˉt βtϵθ(xt,t))

将这两个表达式代入 Lt∝E[∥μ~t−μθ∥2]\mathcal{L}_t \propto \mathbb{E} \left[ \left\| \tilde{\mu}t - \mu\theta \right\|^2 \right]Lt∝E[∥μ~t−μθ∥2] 中:

Lt∝E[∥(1αt(xt−βt1−αˉtϵ))−(1αt(xt−βt1−αˉtϵθ))∥2]\mathcal{L}_t \propto \mathbb{E} \left[ \left\| \left( \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon \right) \right) - \left( \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}t}} \epsilon\theta \right) \right) \right\|^2 \right]Lt∝E[ (αt 1(xt−1−αˉt βtϵ))−(αt 1(xt−1−αˉt βtϵθ)) 2]

提取公因式 1αt\frac{1}{\sqrt{\alpha_t}}αt 1 和 xtx_txt,可以看到 xtx_txt 项被完全抵消:

Lt∝E[∥1αtβt1−αˉt(ϵθ−ϵ)∥2]\mathcal{L}_t \propto \mathbb{E} \left[ \left\| \frac{1}{\sqrt{\alpha_t}} \frac{\beta_t}{\sqrt{1-\bar{\alpha}t}} (\epsilon\theta - \epsilon) \right\|^2 \right]Lt∝E[ αt 11−αˉt βt(ϵθ−ϵ) 2]

忽略前面那些只依赖于 ttt 而不依赖于 θ\thetaθ 的系数(它们在优化过程中是常数),最终损失简化为:

Lt∝E[∥ϵ−ϵθ(xt,t)∥2]\mathcal{L}t \propto \mathbb{E} \left[ \left\| \epsilon - \epsilon\theta(x_t, t) \right\|^2 \right]Lt∝E[∥ϵ−ϵθ(xt,t)∥2]

因此,最小化 KL 散度(Lt\mathcal{L}_tLt 的理论形式 )等价于最小化噪声的 L2 距离(Lt\mathcal{L}_tLt 的实用形式)。这是 DDPM 训练成功的关键。

相关推荐
HyperAI超神经2 分钟前
【vLLM 学习】Profiling
人工智能·深度学习·学习·cpu·gpu·编程语言·vllm
龙智DevSecOps解决方案3 分钟前
研讨会回顾|Atlassian Cloud + Rovo AI 实战指南:Jira + Confluence + Bitbucket集成演示、龙智云迁移服务
人工智能·atlassian·devops·jira·rovo
可触的未来,发芽的智生3 分钟前
新奇特:象棋与麻将,解析生成大模型的两种哲学
javascript·人工智能·python·程序人生·自然语言处理
星源~5 分钟前
TensorFlow 开发环境搭建指南:Anaconda 与 Miniconda 抉择及环境搭建步骤
人工智能·python·tensorflow·嵌入式·mcu+ai
小李小李快乐不已7 分钟前
贪心算法理论基础
c++·算法·leetcode·贪心算法
DisonTangor7 分钟前
Mac Studio配备1.5 TB显存——基于雷电5的远程直接内存访问技术
人工智能·macos·开源·aigc
爱喝热水的呀哈喽7 分钟前
子模代数。
算法·编辑器
李子琪。9 分钟前
基于大语言模型的设计创新方法研究
人工智能·经验分享
未知原色9 分钟前
3Blue1Brown《线性代数的本质》学习资料梳理
人工智能
未知原色9 分钟前
数学基础:通过3Blue1Brown的线性代数、微积分系列视频直观理解核心概念 - 学习计划
人工智能