Diffusion：通过扩散和逆扩散过程生成图像的生成式模型

在当今人工智能大火的时代，AIGC 可以帮助用户完成各种任务。作为 AIGC 主流模型的 DDPM，也时常在各种论文中被提起。DDPM 本质就是一种扩散模型，可以用来生成图片或者为图片去噪。

扩散模型定义了一个扩散的马尔科夫过程，每一步逐渐将随机噪声添加到数据中，然后通过学习逆扩散过程恢复数据以实现从噪声中构建所需的数据样本。

本文不再按照论文解读的方式逐段记录，并且略过其中繁杂的数学证明，只专注于介绍 diffusion 模型本身，主要基于 DDPM。本文参考 What are Diffusion Models?、扩散模型（Diffusion Model）------由浅入深的理解，更多参考资料如下：

模型图解：十分钟读懂Diffusion：图解Diffusion扩散模型；
模型总结：由浅入深了解Diffusion Model、AIGC爆火的背后------扩散模型DDPM浅析；
公式推导：Diffusion扩散模型大白话讲解，看完还不懂？不可能！；
源码解读：【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解；
领域现状：读了14篇论文，终于会拿捏Diffusion了、扩散模型(Diffusion Model)首篇综述-Diffusion Models: A Comprehensive Survey of Methods and Applications、扩散模型（Diffusion Model）最新综述！；

一. 背景

随着人工智能生成能力的不断进步，内容生产已经从用户生成内容 (UGC) 到专业生成内容 (PGC) ，再到人工智能生成内容 (AIGC, AI generated content)。从 AI 作画到 AI 视频等各种 AI 生成任务层出不穷，预示着 AIGC 时代已然拉开帷幕。

AIGC 主要依赖一些生成式模型，如 GAN、VAE、Flow-based model 等，但这些模型都有一些自身的局限性，难以稳定且高质量地完成 AIGC 的任务。现在 AIGC 的主流模型使用的基本都是 DDPM，这是一种经典的 扩散模型 (diffusion model)。扩散模型定义了一个扩散的马尔科夫过程，每一步逐渐将随机噪声添加到数据中，然后通过学习逆扩散过程恢复数据以实现从噪声中构建所需的数据样本。与 VAE 和流模型不同，扩散模型是通过固定程序学习的，并且隐变量都具有与原始数据相同的维度。

马尔科夫过程：指具有马尔科夫性质的随机过程，即下一个状态的发生仅依赖于当前状态，而与过去状态的序列无关。这一性质也被称为 "无记忆性" 或 "马尔科夫性"。具体来说，考虑一个随机过程，其状态在不同时间点可以取不同的值。如果这个过程满足马尔科夫性，那么给定当前时刻的状态，未来的状态只与当前状态有关，而与过去状态的历史路径无关。这种性质可以表示为：
P ( X n + 1 = x ∣ X n = x n , X n − 1 = x n − 1 , ... , X 0 = x 0 ) = P ( X n + 1 = x ∣ X n = x n ) P(X_{n+1} = x | X_n = x_n, X_{n-1} = x_{n-1}, \ldots, X_0 = x_0) = P(X_{n+1} = x | X_n = x_n) P(Xn+1=x∣Xn=xn,Xn−1=xn−1,...,X0=x0)=P(Xn+1=x∣Xn=xn)

其实生成式建模的扩散思想早在 2015 年就在 diffusion probabilistic models ^[1](#1) 中被提出，但直到 2019 年斯坦福大学发布的 noise-conditioned score network ^[2](#2) 和 2020 年 Google Brain 发布的 denoising diffusion probabilistic models ^[3](#3) 改进了模型方法，才引发了 diffusion 模型的热潮。目前，包括 OpenAI 的 GLIDE 和 DALL-E 2，海德堡大学的 Latent Diffusion 和 Google Brain 的 ImageGen，都基于 diffusion 模型。

二. Diffusion 模型

Diffusion 模型的灵感来自非平衡热力学，通过定义一个扩散步骤的马尔科夫链：缓慢地将具有高斯分布的随机噪声添加到数据中，原始图片随着噪声的不断加入最后变为一个纯噪声图片；然后学习优化逆扩散过程，最终实现从噪声中构建所需的数据样本，反向过程可以用来生成图片。

如图所示，diffusion 模型包括前向和反向两个过程，无论是前向过程还是反向过程都是一个参数化的马尔科夫链 (Markov chain)：

前向过程 (forward process)：又称为 扩散过程 ，图中 x 0 → x T x_0 \rightarrow x_T x0→xT 的过程，表示 对图片逐渐加噪；
反向过程 (reverse process)：又称为 逆扩散过程 ，图中 x T → x 0 x_T \rightarrow x_0 xT→x0 的过程，表示 对图片去噪复原，可以用来生成图像；

1. 扩散过程

如上文所说，扩散过程 x 0 → x T x_0 \rightarrow x_T x0→xT 对图片逐渐加噪。 x 0 x_0 x0 是从真实数据集中采样得到的一张图片，对 x 0 x_0 x0 逐渐添加具有高斯分布的噪声，图片逐会变得模糊，当 T T T 足够大时， x T x_T xT 为标准正态分布。由于每次添加的噪声是已知的，即 q ( x t + 1 ∣ x t ) q (x_{t+1} \mid x_t) q(xt+1∣xt) 是已知的，因此可以根据马尔科夫过程的性质，递归得到 q ( x T ∣ x t ) q (x_{T} \mid x_t) q(xT∣xt) 。

此处不再赘述公式推导的过程，详见 What are Diffusion Models?、扩散模型（Diffusion Model）------由浅入深的理解、由浅入深了解Diffusion Model、AIGC爆火的背后------扩散模型DDPM浅析、Diffusion扩散模型大白话讲解，看完还不懂？不可能！等。

2. 逆扩散过程

如上文所说，逆扩散过程 x T → x 0 x_T \rightarrow x_0 xT→x0 对图片去噪复原来生成图像。由于扩散过程的 T T T 取足够大时， x T x_T xT 为标准正态分布，因此要想生成图片可以直接从标准正态分布的图像逆扩散回去就可以得到想要的图像。于是问题的关键就是学习逆扩散过程。

逆扩散不像前向过程每一步是固定的，逆扩散很难从后一张图像中去噪得到前一张图像，即 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt−1∣xt) 是未知的。因此只能用 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 来近似代替 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt−1∣xt)，于是逆扩散的学习过程就成了训练 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 网络，文中称为 U-Net。

虽然 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt−1∣xt) 是未知的，但 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt−1∣x0xt) 是可知的。因此我们可以用 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt−1∣x0xt) 来指导 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 进行训练。此处不赘述公式推导的过程。

3. 训练方法

Diffusion 的损失函数进行了大量的数学推导，此处概述为一句话：对 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 的监督就是最小化 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 和 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt−1∣x0xt) 的 KL 散度。

三. 图片生成

训练完 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt−1∣xt) 后，就可以通过逆扩散过程生成图像：

四. 实验

详见 https://arxiv.org/pdf/2006.11239.pdf 。

网上有很多 DDPM 的实现代码，包括论文中基于 tensorflow 的实现，还有基于 pytorch 的实现，感兴趣的可以自行复现。

五. 总结

Diffusion 其实就是一个扩散和逆扩散的过程：先给一张图片逐步加噪声直到变成纯粹的噪声，然后再对噪声进行去噪得到真实的图片。所谓的扩散模型就是让神经网络学习这个去除噪声的方法。Diffusion 和其他模型最大的区别是它的隐空间特征数和原图是同尺寸大小的，当然后面也有基于压缩的 latent diffusion model ^[4](#4) 。

现在大火的最 GLIDE^[5](#5)、DALLE2^[6](#6)、Imagen^[7](#7)，以及一系列的 Image Editing 方法，也都是基于 diffusion。

Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//International conference on machine learning. PMLR, 2015: 2256-2265. ↩︎
Song Y, Ermon S. Generative modeling by estimating gradients of the data distribution[J]. Advances in neural information processing systems, 2019, 32. ↩︎
Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851. ↩︎
Rombach, Robin, et al. "High-Resolution Image Synthesis with Latent Diffusion Models." arXiv preprint arXiv:2112.10752 (2021). ↩︎
Nichol, Alex, et al. "Glide: Towards photorealistic image generation and editing with text-guided diffusion models." arXiv preprint arXiv:2112.10741 (2021). ↩︎
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 (2022). ↩︎
Saharia, Chitwan, et al. "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding." arXiv preprint arXiv:2205.11487 (2022). ↩︎