Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise论文阅读

冷扩散：无需噪声的任意图像变换反转

摘要

标准扩散模型通常涉及两个核心步骤：图像降质（添加高斯噪声）和图像恢复（去噪操作）。本文发现，扩散模型的生成能力并不强烈依赖于噪声的选择，而是可以通过改变降质过程构建一个更广泛的生成模型家族。即使使用完全确定性的降质操作（如模糊、遮蔽等），扩散模型的训练和测试规则仍可被推广，从而生成高质量图像。这一发现挑战了学界对扩散模型的传统认知------即依赖于梯度朗之万动力学或变分推断中的噪声机制，同时为更通用的扩散模型（可反转任意图像变换）开辟了道路。

代码开源地址：github.com/arpitbansal297/Cold-Diffusion-Models。

1 引言

扩散模型最近已成为生成建模的强大工具 [Ramesh 等, 2022]。扩散模型有多种变体，但其核心概念均围绕随机噪声的移除；研究者会训练一个图像恢复/去噪网络，该网络接受受高斯噪声污染的图像并输出去噪后的图像。在测试阶段，去噪网络通过交替应用去噪操作和添加高斯噪声的更新规则，将纯高斯噪声转化为逼真图像。当采用正确的更新序列时，能够观察到复杂的生成行为。

扩散模型的起源以及我们对这些模型的理论理解，均高度依赖高斯噪声在训练和生成过程中的作用。扩散模型被理解为基于朗之万动力学（Langevin dynamics）围绕图像密度函数进行的随机游走 [Sohl-Dickstein 等, 2015；Song 和 Ermon, 2019]，其中每一步都需要高斯噪声。这一过程从高温（强噪声）状态开始，逐步退火到几乎无噪声的"冷"状态。另一条研究路线则通过变分推断（variational inference）结合高斯先验，推导出去噪网络的损失函数 [Ho 等, 2020；Song 等, 2021a；Nichol 和 Dhariwal, 2021]。

本工作探讨了扩散模型是否必须依赖高斯噪声或任何随机性。我们研究了超越扩散模型原始理论框架的广义扩散模型。不同于局限于高斯噪声的模型，我们考虑基于任意图像变换（如模糊、下采样等）构建的模型。通过简单的 Lp 损失训练恢复网络以反转这些变换。在测试阶段交替应用图像恢复模型和降质操作时，生成行为依然出现，并能够生成逼真图像。

在训练和测试阶段均无需高斯噪声（或任何随机性）的"冷扩散"模型的存在，挑战了当前对扩散模型理论极限的理解，同时为具有全新特性的生成模型开辟了可能性。