【DDPM 扩散模型】Part 7：最后总结！Denoising Diffusion Probabilistic Models论文全维度详解

这是整个扩散模型体系从「基础 → 全局」的总结。

希望这篇文章能够让你真正理解DDPM

1. 模型总览

扩散模型包含两个过程：

正向过程 (Forward Process / Diffusion Process, qqq)：固定规则的马尔可夫链，逐渐向数据添加高斯噪声，直至数据变成纯噪声。
反向过程 (Reverse Process, pθp_\thetapθ) ：参数化的马尔可夫链，训练神经网络去学习逆向去噪的概率分布，从纯噪声还原数据。

2. 正向过程 (Forward Process)

正向过程被定义为一个固定的马尔可夫链。给定真实数据分布 x0∼q(x0)x_0 \sim q(x_0)x0∼q(x0)，我们在每一步添加少量高斯噪声。

2.1 单步转移公式

q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t}x_{t-1}, \beta_t \mathbf{I})q(xt∣xt−1)=N(xt;1−βt xt−1,βtI)

xtx_txt：当前时间步的图像变量。
βt\beta_tβt ：方差调度参数 (Variance Schedule) 。这是一个预先设定的超参数（常数），随 ttt 线性增加（如 10−4→0.0210^{-4} \to 0.0210−4→0.02）。它决定了每一步加噪的幅度。
1−βt\sqrt{1 - \beta_t}1−βt ：对上一步图像 xt−1x_{t-1}xt−1 的缩放系数。为了防止在不断加噪过程中数值爆炸，必须衰减原始信号，以保持方差稳定。
N\mathcal{N}N：表示高斯（正态）分布。

2.2 任意步转移公式 (重参数化技巧)

为了高效训练，我们需要直接从 x0x_0x0 得到 xtx_txt，而不是循环 ttt 次。

定义新变量：

αt=1−βt\alpha_t = 1 - \beta_tαt=1−βt
αˉt=∏s=1tαs\bar{\alpha}t = \prod{s=1}^t \alpha_sαˉt=∏s=1tαs (累积乘积)

推导出的边缘分布公式为：
q(xt∣x0)=N(xt;αˉtx0,(1−αˉt)I)q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1 - \bar{\alpha}_t)\mathbf{I})q(xt∣x0)=N(xt;αˉt x0,(1−αˉt)I)

采样形式（用于代码实现）：
xt=αˉtx0+1−αˉtϵ,ϵ∼N(0,I)x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})xt=αˉt x0+1−αˉt ϵ,ϵ∼N(0,I)

αˉtx0\sqrt{\bar{\alpha}_t} x_0αˉt x0 ：信号项 。随着 ttt 增大，αˉt→0\bar{\alpha}_t \to 0αˉt→0，原始图像信息逐渐消失。
1−αˉtϵ\sqrt{1 - \bar{\alpha}_t} \epsilon1−αˉt ϵ ：噪声项 。随着 ttt 增大，系数趋向 1，噪声主导图像。
ϵ\epsilonϵ ：从标准正态分布采样的真实噪声 ，这是后续训练的Target（标签）。

3. 反向过程与后验分布 (Reverse Process)

反向过程的目标是推断 q(xt−1∣xt)q(x_{t-1} | x_t)q(xt−1∣xt)。由于我们无法直接求得 q(xt−1∣xt)q(x_{t-1} | x_t)q(xt−1∣xt)（需要遍历整个数据集），我们使用神经网络 pθp_\thetapθ 来近似它。

3.1 近似分布定义

pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t))p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t))

μθ(xt,t)\mu_\theta(x_t, t)μθ(xt,t) ：模型需要预测的均值（核心学习目标）。
Σθ(xt,t)\Sigma_\theta(x_t, t)Σθ(xt,t) ：模型需要预测的方差。在 DDPM 论文中，作者将其固定为常数 σt2I\sigma_t^2 \mathbf{I}σt2I（通常设为 βtI\beta_t \mathbf{I}βtI），不进行训练。

3.2 真实的后验均值 (μ~t\tilde{\mu}_tμ~t)

为了指导模型预测均值 μθ\mu_\thetaμθ，我们需要知道理论上的真实后验均值 μ~t\tilde{\mu}_tμ~t 是什么。

利用贝叶斯公式 q(xt−1∣xt,x0)q(x_{t-1} | x_t, x_0)q(xt−1∣xt,x0)，可以推导出：

μ~t(xt,x0)=1αt(xt−βt1−αˉtϵ)\tilde{\mu}_t(x_t, x_0) = \frac{1}{\sqrt{\alpha_t}} \Big( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon \Big)μ~t(xt,x0)=αt 1(xt−1−αˉt βtϵ)

这个公式表明：如果我们知道 xtx_txt 和其中包含的噪声 ϵ\epsilonϵ，我们就能算出最佳的去噪方向，回到 xt−1x_{t-1}xt−1 的中心。
逻辑链 ：
1. 真实反向均值 μ~t\tilde{\mu}_tμ~t 由 xtx_txt 和 ϵ\epsilonϵ 决定。
2. 模型输入是 xtx_txt，但不知道 ϵ\epsilonϵ。
3. 因此，模型的任务变成了：预测 xtx_txt 中的噪声 ϵ\epsilonϵ。

4. 训练目标 (Training Objective)

4.1 参数化选择

根据 3.2 的推导，我们将模型的均值 μθ\mu_\thetaμθ 参数化为：
μθ(xt,t)=1αt(xt−βt1−αˉtϵθ(xt,t))\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \Big( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t, t) \Big)μθ(xt,t)=αt 1(xt−1−αˉt βtϵθ(xt,t))

ϵθ(xt,t)\epsilon_\theta(x_t, t)ϵθ(xt,t) ：这是神经网络的直接输出。网络接收 xtx_txt 和 ttt，输出一个与图像同维度的噪声预测图。
θ\thetaθ：神经网络（U-Net）的所有可学习参数（权重和偏置）。

4.2 简化损失函数 (Simplified Loss)

原始的变分下界 (ELBO) 包含复杂的 KL 散度项。论文证明，通过上述参数化，优化 KL 散度等价于优化预测噪声和真实噪声之间的 均方误差 (MSE)：

Lsimple(θ)=Et,x0,ϵ[∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2]L_{\text{simple}}(\theta) = \mathbb{E}{t, x_0, \epsilon} \Big[ \| \epsilon - \epsilon\theta(\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon, t) \|^2 \Big]Lsimple(θ)=Et,x0,ϵ[∥ϵ−ϵθ(αˉt x0+1−αˉt ϵ,t)∥2]

ϵ\epsilonϵ：正向过程中加入的真实噪声（Ground Truth）。
ϵθ(...)\epsilon_\theta(...)ϵθ(...)：模型根据脏图预测的噪声。
优化过程 ：梯度下降更新 θ\thetaθ，使 ϵθ\epsilon_\thetaϵθ 无限接近 ϵ\epsilonϵ。

5. 算法流程 (Algorithms)

这是模型落地的具体步骤，对应论文中的伪代码。

5.1 训练算法 (Training)

Repeat：开始迭代训练。
x0∼q(x0)x_0 \sim q(x_0)x0∼q(x0)：从数据集中采样一张洁净图片。
t∼Uniform({1,...,T})t \sim \text{Uniform}(\{1, \dots, T\})t∼Uniform({1,...,T}) ：随机采样一个时间步（例如 t=500t=500t=500）。
ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, \mathbf{I})ϵ∼N(0,I)：采样一个标准高斯噪声。
构造 xtx_txt ：计算 xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilonxt=αˉt x0+1−αˉt ϵ。
计算梯度 ：计算损失 ∥ϵ−ϵθ(xt,t)∥2\| \epsilon - \epsilon_\theta(x_t, t) \|^2∥ϵ−ϵθ(xt,t)∥2 关于 θ\thetaθ 的梯度。
更新 θ\thetaθ：使用优化器（如 Adam）更新网络参数。
Until converged：直到 Loss 不再下降。

5.2 采样算法 (Sampling / Inference)

xT∼N(0,I)x_T \sim \mathcal{N}(0, \mathbf{I})xT∼N(0,I)：从标准正态分布采样纯噪声。
For t=T,...,1t = T, \dots, 1t=T,...,1 do：从最后一步倒推。
z∼N(0,I)z \sim \mathcal{N}(0, \mathbf{I})z∼N(0,I) ：采样随机噪声（如果 t=1t=1t=1 则 z=0z=0z=0）。
计算去噪步 ：
xt−1=1αt(xt−1−αt1−αˉtϵθ(xt,t))+σtzx_{t-1} = \frac{1}{\sqrt{\alpha_t}} \Big( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t, t) \Big) + \sigma_t zxt−1=αt 1(xt−1−αˉt 1−αtϵθ(xt,t))+σtz
- 前半部分（大括号内）：基于预测噪声算出的后验均值 μ~t\tilde{\mu}_tμ~t（确定性部分）。
- 后半部分 (σtz\sigma_t zσtz)：随机扰动项。模拟朗之万动力学 (Langevin Dynamics)，增加多样性，防止图像坍缩。
End for。
Return x0x_0x0：输出生成的图像。

6. 网络架构 (Model Architecture)

在实现中，ϵθ\epsilon_\thetaϵθ 具体由以下组件构成：

Backbone: U-Net
- 输入：xtx_txt (例如 32×32×332 \times 32 \times 332×32×3)。
- 输出：ϵpred\epsilon_\text{pred}ϵpred (与输入同尺寸 32×32×332 \times 32 \times 332×32×3)。
- 结构：包含下采样（Downsampling）提取特征，瓶颈层（Bottleneck）处理语义，上采样（Upsampling）恢复分辨率。
Time Embedding (位置编码)
- 问题：U-Net 共享权重，必须知道当前处理的是 ttt 是多少。
- 解决：使用 Transformer 中的正弦位置编码 (Sinusoidal Embedding) 将标量 ttt 映射为向量，通过 MLP 处理后，加到 U-Net 的每个残差块 (Residual Block) 中。
Self-Attention (自注意力)
- 位置：通常在 U-Net 的低分辨率层（如 16×1616 \times 1616×16 特征图处）。
- 目的：捕捉长距离依赖（Global Context），解决卷积核感受野有限的问题。

7. 符号公式完整对照表

符号	定义/公式	含义与备注
x0x_0x0	Data	真实数据（原图）。
xTx_TxT	N(0,I)\mathcal{N}(0, \mathbf{I})N(0,I)	纯高斯噪声，正向过程的终点，反向过程的起点。
xtx_txt	Latent	第 ttt 步的潜变量（含噪图像）。
ϵ\epsilonϵ	Noise	真实噪声。训练时的 Target，服从 N(0,I)\mathcal{N}(0, \mathbf{I})N(0,I)。
ϵθ\epsilon_\thetaϵθ	Function	预测噪声。神经网络的输出，依赖于输入 xt,tx_t, txt,t 和参数 θ\thetaθ。
θ\thetaθ	Parameters	神经网络（U-Net）的所有权重和偏置。
βt\beta_tβt	Hyperparameter	方差调度。控制每一步加噪的量。常数，线性增加。
αt\alpha_tαt	1−βt1 - \beta_t1−βt	单步保留原始信息的比例。
αˉt\bar{\alpha}_tαˉt	∏s=1tαs\prod_{s=1}^t \alpha_s∏s=1tαs	累积保留比例。用于一步计算 xtx_txt。
q(xt∣x0)q(x_t\|x_0)q(xt∣x0)	Distribution	正向扩散分布。根据 αˉt\bar{\alpha}_tαˉt 直接定义的分布。
pθ(xt−1∣xt)p_\theta(x_{t-1}\|x_t)pθ(xt−1∣xt)	Distribution	反向生成分布。模型试图拟合的目标分布。
μ~t\tilde{\mu}_tμ~t	Formula	真实后验均值。已知 x0x_0x0 时，xt−1x_{t-1}xt−1 的理论最佳中心。
μθ\mu_\thetaμθ	Formula	预测均值。模型通过预测 ϵθ\epsilon_\thetaϵθ 间接计算出的 xt−1x_{t-1}xt−1 中心。
σt\sigma_tσt / Σ\SigmaΣ	Formula	反向过程的方差。DDPM 中固定为 βt\beta_tβt 或 β~t\tilde{\beta}_tβ~t。
TTT	Constant	扩散总步数，通常为 1000。
MSE	Loss	Mean Squared Error，均方误差。LsimpleL_{\text{simple}}Lsimple 的计算方式。

🎉祝你天天开心，我将更新更多有意思的内容，欢迎关注！

最后更新：2025年12月
作者：Echo