GLIDE：使用文本引导扩散模型实现图像生成和编辑

1 Title

GLIDE: Towards Photorealistic Image Generation and Editing withText-Guided Diffusion Models（Alex Nichol Prafulla Dhariwal Aditya Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen）

2 Conclusion

Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. This paper explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: CLIP guidance and classifier-free guidance. This study find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples.

3 Good Sentences

1、Motivated by the ability of guided diffusion models to generate photorealistic samples and the ability of text-to-image models to handle free-form prompts, we apply guided diffusion to the problem of text-conditional image synthesis.（The motivation of this study)

2、While our model can render a wide variety of text prompts zero-shot, it can can have difficulty producing realistic images for complex prompts. Therefore, we provide our model with editing capabilities in addition to zero-shot generation, which allows humans to iteratively improve model samples until they match more complex prompts. （The shortcomings of this method and the improvements of the study had done）

3、While our model can often compose disparate concepts in complex ways, it sometimes fails to capture certain prompts which describe highly unusual objects or scenarios（The Limination s of this methods）

受引导扩散模型生成照片真实感样本的能力和文本到图像模型处理自由形式提示的能力的激励，本文的研究将引导扩散（一种在有标签和无标签的扩散模型的预测之间插值的引导形式））应用于文本条件图像合成问题。

首先，该研究训练一个35亿参数的扩散模型（称为GLIDE），该模型使用文本编码器以自然语言描述为条件。接着，比较两种将扩散模型引导到文本提示的技术：CLIP引导和无分类器引导。使用人工和自动评估，发现无分类器引导可以产生更高质量的图像。

在零样本图像生成方面，本模型不能匹配很复杂的文本提示，因此，除了零样本生成之外，该模型还具备编辑功能，这允许人类迭代地改进模型样本，直到它们匹配更复杂的提示。另外，该模型还具备很强的图像修复能力。

另外，作者还发布了个 GLIDE (filtered)，它能减少DEEPFAKE所需的工作量。

GLIDE模型：由扩散、无分类器引导和CLIP引导组合而成。

扩散模型：Song&Ermon（2020）改进的高斯扩散模型

引导扩散Guided Diffusion：Dhariwal&Nichol（2021）发现，来自类条件扩散模型的样本通常可以通过分类器指导来改进

无分类器引导：Ho和Salimans(2021)提出了无分类器引导，这是一种用于引导扩散模型的技术，不需要单独的分类器模型进行训练。无分类器引导的两个特性：一，允许单个模型在过程中利用自己的知识，而不是依赖于单独的分类模型的知识。第二，简化了难以用分类器预测的信息为条件时的引导

CLIP Guidance：Radford et al. (2021) CLIP是用于学习文本和图像之间的联合表示的可扩展方法。CLIP模型由两个单独的部分组成：图像编码器f（x）和字幕编码器g（c），为了在GLIDE种使用CLIP，可以在分类器引导中用CLIP模型代替分类器。尚未在噪声图像上训练的公共CLIP模型仍然可以用于指导扩散模型

Training：以64×64的分辨率训练了一个35亿参数的文本条件扩散模型，并训练了另一个15亿参数的文本条件的上采样扩散模型，以将分辨率提高到256×256。还训练了一个有噪声的64×64 ViT-L CLIP模型用于CLIP引导。

Text-Conditional Diffusion Models：用了Dhariwal&Nichol（2021）提出的ADM模型架构，但用文本条件信息对其进行了扩充。

为了对文本进行条件处理，首先将文本编码成K个token序列，并将这些token输入到Transformer模型中（Vaswani等人，2017）。这个转换器的输出有两种使用方式：首先，使用最终的令牌嵌入来代替ADM模型中的类嵌入；其次，将最后一层标记嵌入（K个特征向量的序列）分别投影到整个ADM模型中每个注意力层的维度，然后连接到每一层的注意力上下文。

在与DALL-E相同的数据集上训练文本条件扩散模型（Ramesh等人，2021）。使用Dhariwal&Nichol（2021）的ImageNet 64×64模型相同的模型架构，但将模型宽度扩展到512个通道，从而为模型的视觉部分产生大约23亿个参数。

对于文本编码转换器，使用了24个宽度为2048的残差块，产生了大约12亿个参数。该模型以与基础模型相同的方式以文本为条件，但使用宽度为1024而不是2048的较小文本编码器。

另外，以批量大小2048训练了250万次迭代的基础模型。以批量大小512训练了160万次迭代的上采样模型。

Fine-tuning for classifier-free guidance ：在初始训练运行之后，这项研究微调了基础模型以支持无条件图像生成。这个训练过程与预训练完全一样，除了20%的文本标记序列被替换为空序列。这样，模型保留了生成文本条件输出的能力，但也可以无条件地生成图像

Image Inpainting：我不太关心这个，略过了。

**Noised CLIP models：**用图像编码器f（xt; t）训练噪声化CLIP模型，该图像编码器接收噪声化图像xt，并且以与原始CLIP模型相同的目标进行训练