【论文阅读】High-Resolution Image Synthesis with Latent Diffusion Model

High-Resolution Image Synthesis with Latent Diffusion Model

引用： Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

论文链接： http://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
代码链接： https://github.com/CompVis/latent-diffusion

论文概述

通过将图像形成过程分解为去噪自编码器的顺序应用，扩散模型（DMs）在图像数据上实现了最先进的合成结果，并且它们的公式允许在不重新训练的情况下引入引导机制来控制图像生成过程。然而，由于这些模型通常直接在像素空间中操作，优化强大的DMs通常需要数百个GPU天，并且由于顺序评估，推理成本很高。为了在有限的计算资源下进行DM训练，同时保留它们的质量和灵活性，作者将它们应用于强大预训练自编码器的潜在空间 。与之前的工作不同，在这样的表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近乎最优平衡，极大地提高了视觉保真度。与纯粹基于transformer的方法相比，可以更优雅地扩展到更高维的数据。与基于像素的扩散方法相比，还显著降低了推理系数。此外，设计了一种基于交叉注意力的通用条件反射机制，实现了多模态训练 。通过在模型架构中引入交叉注意力层，将扩散模型转变为强大且灵活的生成器，适用于文本或边界框等一般条件输入，并且高分辨率合成以卷积方式成为可能。提出的潜在扩散模型（LDMs）在图像修复和类条件图像合成方面取得了新的最先进分数，并在各种任务上表现出极具竞争力的性能，包括文本到图像合成、无条件图像生成和超分辨率，同时与基于像素的DMs相比显著降低了计算需求。

Method

为了降低训练扩散模型对高分辨率图像合成的计算要求，尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节[1]，但它们仍然需要在像素空间中进行昂贵的函数评估，这导致了对计算时间和能源的巨大需求。因此，通过引入压缩学习阶段与生成学习阶段的明确分离来规避这一缺点（见图2）。为了实现这一点，使用了一个自动编码模型，该模型学习了一个在感知上等同于图像空间的空间，但大大降低了计算复杂性。这种方法有几个优点：

通过离开高维图像空间，我们获得了计算效率更高的DM，因为采样是在低维空间上执行的。
利用了DMs的归纳偏差，这些偏差继承自其UNet架构，这使得它们对具有空间结构的数据特别有效，因此减轻了以前方法所要求的激进的、降低质量的压缩水平的需求。
最后获得了通用压缩模型，其潜在空间可用于训练多个生成模型，也可用于其他下游应用，如单图像CLIP引导的合成。

Perceptual Image Compression ：使用感知压缩模型基于以前的工作[2]，由一个通过感知损失[3]和基于补丁的[4]对抗目标组合训练的自动编码器组成 。这确保了通过强制执行局部真实感来将重建限制在图像流形中，并避免了仅依靠像素空间损失（如 L2 或 L1 物镜）而引入的模糊。为了避免任意高方差的潜在空间，尝试了两种不同类型的正则化。第一种变体KL-reg.对学习的潜在个体施加了对标准正态的轻微KL惩罚，类似于VAE，而VQ-reg 在解码器中使用矢量量化层。该模型可以解释为VQGAN，但量化层被解码器吸收。因为随后的 DM 被设计为学习到的潜在空间 z = E（x）的二维结构，所以可以使用相对温和的压缩率并实现非常好的重建。这与以前的工作形成鲜明对比，后者依赖于学习空间z的任意一维排序来自动回归地模拟其分布，从而忽略了z的大部分固有结构。因此，该压缩模型可以更好地保留 x 的细节。
Latent Diffusion Models ：扩散模型是一种概率模型，旨在通过逐渐去噪正态分布变量来学习数据分布p（x），这对应于学习长度为T的固定马尔可夫链的反向过程 。潜在表示的生成建模通过我们训练好的由 E 和 D 组成的感知压缩模型，因此可以访问一个高效的低维潜在空间，其中高频、难以察觉的细节被抽象出来 。与高维像素空间相比，这个空间更适合基于似然的生成模型，因为它们现在可以（i）专注于数据的重要语义位，以及（ii）在较低维度、计算效率更高的空间中进行训练。与之前在高度压缩、离散的潜在空间中依赖自回归、基于注意力的转换器模型的工作不同，该工作使用的模型可以提供的特定于图像的感应偏差。这包括主要从2D卷积层构建底层UNet的能力，并使用重新加权的边界将目标进一步集中在感知上最相关的bits上 。
Conditioning Mechanisms：与其他类型的生成模型类似，扩散模型原则上能够模拟p（z|y）形式的条件分布。这可以通过条件去噪自动编码器来实现，并为通过输入y（如文本、语义图或其他图像到图像翻译任务）控制合成过程铺平了道路。该工作通过交叉注意力机制增强其底层UNet骨干，将DM转变为更灵活的条件图像生成器，这对于学习各种输入模式的基于注意力的模型是有效的。为了预处理来自各种模态（例如语言提示）的 y，引入了一个特定于域的编码器，它将 y 投射到中间表示，然后通过交叉注意力层实现，具体如图3所示。

实验

参考文献

1\] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020. 1, 2, 3, 4, 6, 14. \[2\] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020. 2, 3, 4, 6, 7, 18, 19, 27, 32, 34 \[3\] Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. ArXiv, abs/2103.10428, 2021. 8 \[4\] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, ages 5967--5976. IEEE Computer Society, 2017. 3, 4