It’s All About Your Sketch: Democratising Sketch Control in Diffusion Models

翻译：

摘要

本文揭示了草图在扩散模型中的潜力，解决了生成式人工智能中直接草图控制的虚假承诺。我们重要的是使这个过程更加普及，让业余的草图也能生成精确的图像，真正实现"你画的就是你得到的"。一项初步研究强调了这一研究的必要性，揭示了现有模型中的畸形问题源于空间条件化。为了修正这一问题，我们提出了一个感知抽象的框架，利用草图适配器、适应性时间步长采样和来自预训练细粒度基于草图的图像检索模型的判别性指导，这些方法协同工作，强化了精细的草图与照片的关联。我们的方法在推理过程中无需文本提示，简单的、粗略的草图就足够了！我们欢迎大家审视论文及其附录中呈现的结果。我们的贡献包括使草图控制民主化，引入感知抽象的框架，并利用判别性指导，这些都通过大量实验得到了验证。

解释：

这篇论文探讨了如何用草图来控制图像生成，尤其是通过扩散模型（生成式AI的一种先进方法）。通常，生成式AI模型会根据文本描述来生成图像，但现在作者提出了一个新的方式，通过草图来直接控制生成的图像。这一方式让普通人也能用简单的草图创造出非常精确的图像，而不仅仅是专业艺术家才能做到的事情。

在现有的草图生成图像的方法中，虽然草图控制看似能够实现"你画的就是你得到的"，但实际上，如果你的草图画得不够精确，生成的图像会出现畸形。作者发现，这个问题的根源在于现有模型如何处理草图与图像之间的关系，特别是它们如何利用草图的空间信息来生成图像。现有的方法直接把草图的轮廓转化成图像，导致了畸形。

为了解决这个问题，作者提出了一种新的框架，这个框架能够处理不同抽象程度的草图，不管你画得有多简单或粗糙，都能生成高质量的图像。这个方法结合了草图适配器、适应性时间步长采样和来自预训练模型的指导，确保草图与生成图像之间的关系更紧密，更精确。最重要的是，这个方法在生成图像时不需要任何文字提示，只需一个简单的草图就能产生预期的图像。

翻译：

引言
本文致力于充分挖掘草图在控制扩散模型中的潜力。扩散模型已经取得了显著的影响，使得个人能够释放他们的视觉创造力------比如类似"宇航员骑马在火星上"的提示词，或者你自己创造的其他"富有创意"的提示！尽管在文本到图像的生成中占据主导地位，最近的研究开始质疑文本作为一种条件化方式的表现力。这一转变促使我们开始探索草图------这种方式提供了比文本更精细的控制，使得生成的内容与实际图像更为接近。其承诺是"你画的就是你得到的"。然而，这一承诺是虚假的。目前的研究（如 ControlNet、T2I-Adapter）主要集中在类似边缘图的草图上------你最好像训练过的艺术家一样画，否则"你得到的"图像将真正反映出你（"差强人意"）草图中的畸形（如图1所示）。本文的主要目标是使草图控制在扩散模型中民主化，使得普通业余画的草图也能生成逼真的图像，确保"你得到的"与预期的草图一致，无论你画得如何！为了实现这一目标，我们从草图社区中获得了启示，并首次引入了草图抽象感知（由于绘画技巧的不同）进入生成过程。这种新颖的方法使得不同抽象程度的草图能够引导生成过程，同时保持输出的真实度。我们进行了一项初步研究，以确认我们研究的必要性（见第4节）。在这项研究中，我们发现现有草图条件化扩散模型的畸变输出源于它们的空间条件化方法------它们直接将草图的轮廓转换为输出图像领域，因此产生了畸变输出。传统的通过权重系数或采样技巧来控制空间草图条件化对最终输出的影响，通常需要精细调整。通过给草图条件化分配较小的权重来减少输出畸形，往往会使输出与文本描述更一致，从而减少与指导草图的一致性；然而，赋予文本提示更高的权重则会引入词汇歧义。相反，通过赋予指导草图更高的权重来避免词汇歧义，几乎总是会产生畸形且不具备照片现实感的输出。最后，草图实例之间条件化权重的"最佳点"是不同的（如图2所示）。

解释：

这篇论文探讨了如何利用草图来控制图像生成，特别是使用扩散模型（这是一种先进的图像生成技术）。扩散模型能够根据文字描述生成图像，像是"宇航员骑马在火星上"这样的提示词，已经帮助许多人实现了他们的创意。尽管这种方法非常流行，但最近的研究开始质疑单纯依赖文字提示的效果，转而探索草图控制生成图像的方法。草图相比文本，能够提供更精细的控制，使得生成的图像更接近我们的期望。

然而，现有的方法并没有真正实现"你画的就是你得到的"这一目标。现在的草图控制方法，像ControlNet和T2I-Adapter，要求你画出类似边缘线条的草图------如果你的画技不好，生成的图像就会有畸形。因此，论文的目标是让每个人都能用简单的草图生成精确的图像，无论你的画技如何，都能确保图像和草图一致。

为了实现这一点，作者引入了一种新的方法，称为"草图抽象感知"，即考虑到不同的绘画技巧和抽象程度。这样，不同抽象程度的草图也能在生成图像时发挥作用，同时保证图像的真实感。论文中还指出，现有的模型因为直接把草图的轮廓转化为图像，导致了输出图像的畸形。因此，作者提出了一种新方法，避免了这种直接转换，能够更好地控制草图对图像生成的影响，从而实现更高质量的输出。

翻译：

因此，我们的目标是打造一个有效的草图条件化策略，不仅在推理过程中无需任何文本提示，而且具有感知抽象的能力。我们工作的核心是一个草图适配器，它将输入的草图转化为相应的文本嵌入，并通过交叉注意力（cross-attention）引导扩散模型的去噪过程。通过使用智能的时间步长采样策略，我们确保去噪过程能够适应输入草图的抽象程度。此外，通过利用现成的细粒度基于草图的图像检索（FG-SBIR）模型的预训练知识，我们将判别性指导融入到系统中，以增强草图与照片的精确关联。与广泛使用的外部分类器指导不同，我们提出的判别性指导机制不需要任何专门训练的分类器来对噪声数据和真实数据进行分类。最后，尽管我们的推理管道在推理过程中不依赖文本提示，但我们在训练过程中使用合成生成的文本提示，通过有限的草图-照片配对数据来学习草图适配器。

我们的贡献包括：

(i) 我们使草图控制民主化，允许普通业余草图生成精确的图像，实现了"你画的就是你得到的"的承诺。

(ii) 我们引入了一个感知抽象的框架，克服了文本提示和空间条件化的限制。

(iii) 我们通过预训练的细粒度基于草图的图像检索模型，利用判别性指导增强草图的精准度。

大量实验验证了我们方法在解决这一领域现有局限性方面的有效性。

解释：

这篇论文的目标是创造一个有效的草图控制方法，能够在不依赖任何文本提示的情况下生成图像，并且能够根据草图的不同"抽象程度"来调整生成过程。核心的技术是草图适配器，它能够将一个草图转化为与之对应的"文本描述"，然后通过扩散模型的去噪过程生成图像。为了让这个过程适应不同精细程度的草图，我们使用了一个聪明的时间步长策略，让模型根据草图的复杂度自动调整去噪方式。

此外，作者还利用了一个预训练的细粒度草图图像检索模型（FG-SBIR），为模型提供更多的信息来帮助生成图像，从而让草图与图像之间的匹配更加精确。不同于其他方法，作者提出的判别性指导机制不需要额外训练一个分类器来分辨草图和图像中的噪声，而是直接借助现有的预训练模型来完成这个任务。尽管在生成图像时不需要文本提示，训练时却使用了合成的文本提示来帮助草图适配器更好地理解草图与图像的关系。

总的来说，作者的贡献是：

让普通人也能用草图控制图像生成，真正实现"你画的就是你得到的"。
提出了一种新的框架，可以根据草图的抽象程度自适应调整生成过程，克服了传统方法中的一些限制。
通过细粒度的草图图像检索模型，提供精确的指导，增强草图与照片的匹配度。
通过大量实验验证了这种方法能够有效解决当前草图生成领域的一些问题。

翻译：

扩散模型在视觉任务中的应用

扩散模型 [24, 25, 74] 目前已成为不同可控图像生成框架的黄金标准，如 DALL-E [57]、Imagen [64]、T2I-Adapter [55]、ControlNet [90] 等。除了图像生成，Dreambooth [63]、Imagic [32]、Prompt-to-Prompt [22]、SDEdit [52]、SKED [54] 等方法将其扩展到现实的图像编辑中。除了图像生成和编辑，扩散模型还被用于多个下游视觉任务，如图像识别 [43]、语义 [2] 和全景 [84] 分割、图像到图像的转换 [79]、医学成像 [15]、图像对应关系 [78]、图像检索 [39] 等。

草图在视觉内容创作中的应用

继草图基础的图像检索（SBIR）[3, 11, 66] 取得成功后，草图现在被用于其他下游任务，如显著性检测 [6]、增强现实 [50, 51]、医学图像分析 [35]、目标检测 [14]、类增量学习 [4] 等。除了大量基于草图的 2D 和 3D 图像生成与编辑框架 [21, 36, 47, 54, 55, 60, 81, 82, 90]，草图还在其他视觉内容创作任务中得到广泛应用，如动画生成 [73] 和过渡绘制 [72]、服装设计 [12, 46]、漫画生成 [10]、CAD 建模 [44, 88]、动漫编辑 [28] 等。

草图到图像（S2I）生成

此前基于GAN的S2I模型通常利用上下文损失 [49]、多阶段生成 [19] 等技术，或在预训练的GAN基础上进行潜在映射 [36, 60]。在基于扩散的框架中，PITI [82] 训练了一个专门的编码器，将引导草图映射到预训练扩散模型的潜在流形上，SDEdit [52] 将噪声逐步添加到引导草图上，并根据文本提示进行去噪，SGDM [81] 训练了一个多层感知机（MLP），将噪声图像的潜在特征映射到引导草图，从而强迫中间的噪声图像紧密跟随引导草图。在更近期的多条件（例如深度图、色彩调色板、关键姿势等）框架中，ControlNet [90] 通过创建可训练的 UNet 编码器副本并与冻结的模型通过零卷积 [90] 连接，学习控制冻结的扩散模型，而 T2I-Adapter [55] 则学习一个编码器从引导信号（例如草图）中提取特征，并通过将引导特征与每个尺度上的中间 UNet 特征结合来条件化生成过程。虽然现有方法可以从精确的边缘图生成照片级真实图像，但它们在处理抽象的手绘草图时存在困难（见图1）。此外，值得注意的是，几乎所有基于扩散的 S2I 模型 [52, 55, 81, 82, 90] 都严重依赖于高度工程化且详细的文本提示。

解释：

扩散模型的应用

扩散模型目前是图像生成的主流技术，许多流行的图像生成框架（如 DALL-E、Imagen、ControlNet 等）都使用扩散模型。这些模型不仅可以生成图像，还扩展到图像编辑和其他视觉任务，比如图像识别、语义分割、医学成像等。

草图在视觉内容创作中的作用

草图在视觉内容创作中得到了广泛应用，从图像检索到动画生成、服装设计等多个领域都有它的身影。草图被用来帮助创建和编辑图像，甚至在一些复杂的任务中，草图也可以作为输入进行自动生成和调整。

草图到图像生成（S2I）

在草图到图像生成方面，之前的 GAN（生成对抗网络）模型通过各种技术（如多阶段生成、上下文损失等）将草图转换为图像。最近，扩散模型也被用于草图生成图像的方法，如 PITI、SDEdit 和 SGDM。这些方法通过添加噪声和去噪过程将草图转化为图像，但这些方法通常需要精确的草图输入才能生成好的结果。最新的框架（如 ControlNet 和 T2I-Adapter）进一步改进了这一过程，可以控制模型生成特定图像，甚至处理多种不同的条件（如深度图、颜色等）。尽管现有的方法在处理精确的草图时表现良好，但它们仍然在处理抽象的、自由手绘的草图时遇到困难。

总的来说，这一段话总结了扩散模型在图像生成、编辑和其他视觉任务中的广泛应用，以及草图在视觉创作中的重要性，特别是在将草图转化为真实图像（草图到图像生成）方面的进展。

翻译：

3. 重新审视扩散模型 (DM)

概述

扩散模型包括两个互补的随机过程，即"前向"和"反向"扩散 [25]。前向扩散过程在每个时间步骤 t t t 向干净的训练图像 x 0 ∈ R h × w × 3 x_0 \in \mathbb{R}^{h \times w \times 3} x0∈Rh×w×3 迭代地添加不同幅度的高斯噪声，直到生成一个噪声图像 x t ∈ R h × w × 3 x_t \in \mathbb{R}^{h \times w \times 3} xt∈Rh×w×3，公式为：

x t = α ˉ t x 0 + 1 − α ˉ t ε x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \varepsilon xt=αˉt x0+1−αˉt ε

其中， ε ∼ N ( 0 , I ) \varepsilon \sim \mathcal{N}(0, I) ε∼N(0,I)， t ∼ U ( 0 , T ) t \sim U(0, T) t∼U(0,T)，并且 { α t } 1 T \{\alpha_t\}_{1}^{T} {αt}1T 是一个预定义的噪声调度， α ˉ t = ∏ i = 1 t α i \bar{\alpha}t = \prod{i=1}^{t} \alpha_i αˉt=∏i=1tαi [25]。

反向扩散过程训练一个修改过的去噪UNet [62]，记作 F θ ( ⋅ ) F_\theta(\cdot) Fθ(⋅)，该网络估计输入噪声 ε ≈ F θ ( x t , t ) \varepsilon \approx F_\theta(x_t, t) ε≈Fθ(xt,t)，从每个时间步骤的噪声图像 x t x_t xt 中恢复噪声。 F θ F_\theta Fθ 使用 l 2 l_2 l2 损失进行训练 [25]，可以反转前向扩散过程的效果。在推理过程中，从一个来自高斯分布的随机二维噪声 x T x_T xT 开始， F θ F_\theta Fθ 被迭代应用（进行 T T T 次时间步骤）来去噪每个时间步骤的 x t x_t xt，最终得到一个干净的图像 x 0 x_0 x0，该图像来自原始目标分布 [25]。无条件的去噪扩散过程可以通过辅助条件信号 d d d（例如文本描述 [58, 61, 64]）来影响 F θ F_\theta Fθ，从而变为"条件式"的。这样， F θ ( x t , t , d ) F_\theta(x_t, t, d) Fθ(xt,t,d) 可以在 x t x_t xt 上执行去噪，并通过交叉注意力（cross-attention） [61] 受到 d d d 的引导。

潜在扩散模型 (Latent Diffusion Model)

与标准的扩散模型 [16, 25] 不同，潜在扩散模型 [61]（即 Stable Diffusion，SD）在潜在空间中执行去噪扩散，以实现更快且更稳定的训练 [61]。SD 首先训练一个自动编码器（由编码器 E ( ⋅ ) E(\cdot) E(⋅) 和解码器 D ( ⋅ ) D(\cdot) D(⋅) 串联组成），将输入图像 x 0 ∈ R h × w × 3 x_0 \in \mathbb{R}^{h \times w \times 3} x0∈Rh×w×3 转换为其潜在表示 z 0 = E ( x 0 ) ∈ R h / 8 × w / 8 × d z_0 = E(x_0) \in \mathbb{R}^{h/8 \times w/8 \times d} z0=E(x0)∈Rh/8×w/8×d。随后，SD 训练一个修改过的去噪UNet [62]，记作 ε θ ( ⋅ ) \varepsilon_\theta(\cdot) εθ(⋅)，直接在潜在空间中进行去噪。文本提示 d d d 通过一个 CLIP 文本编码器 [56] 传递，生成相应的令牌序列，该序列通过交叉注意力 [61] 影响 UNet 的中间特征图。SD 训练使用 l 2 l_2 l2 损失函数，如下所示：

L S D = E z t , t , d , ε ( ∣ ∣ ε − ε θ ( z t , t , T ( d ) ) ∣ ∣ 2 2 ) L_{SD} = \mathbb{E}{z_t, t, d, \varepsilon} \left( || \varepsilon - \varepsilon\theta(z_t, t, T(d)) ||_2^2 \right) LSD=Ezt,t,d,ε(∣∣ε−εθ(zt,t,T(d))∣∣22)

在推理过程中，SD 丢弃编码器 E ( ⋅ ) E(\cdot) E(⋅)，直接从高斯分布中采样一个噪声潜变量 z T z_T zT [61]。然后，它通过迭代地对 z T z_T zT 进行去噪（基于 d d d 进行条件化）来估计噪声，进行 T T T 次迭代，最终得到一个干净的潜在表示 z ^ 0 \hat{z}_0 z^0。冻结的解码器生成最终图像：

x ^ 0 = D ( z ^ 0 ) \hat{x}_0 = D(\hat{z}_0) x^0=D(z^0)

解释：

扩散模型简介

扩散模型包括两个阶段：前向扩散和反向扩散。在前向扩散阶段，我们逐步向图像添加噪声，这样图像逐渐变得模糊。反向扩散则是从噪声图像开始，通过去噪逐步恢复到原始清晰的图像。这个过程通常是通过一个叫做UNet的神经网络来实现的，它在每一步预测图像的噪声，然后逐步去除噪声，直到恢复出清晰的图像。

潜在扩散模型

潜在扩散模型的不同之处在于，它不直接在图像空间中操作，而是在潜在空间中进行操作。潜在空间是图像的压缩表示，使得训练和推理过程更加高效。Stable Diffusion 就是一个典型的潜在扩散模型，它首先将图像转换为潜在表示，然后在这个潜在表示上进行去噪，最终通过解码器将潜在表示转换回清晰的图像。此外，Stable Diffusion 还结合了文本输入，能够根据输入的描述生成图像。

总的来说，扩散模型是一种非常强大的生成模型，通过逐步去噪来生成或编辑图像，而潜在扩散模型则通过在潜在空间中操作来提高效率和稳定性。

翻译：

4. Sketch-to-Image 扩散模型的问题

近年来的可控图像生成方法，如 ControlNet [90]、T2I-Adapter [55] 等，提供了极致的照片级真实感，支持不同的条件输入（例如深度图、标签掩膜、边缘图等）。然而，从稀疏的自由手绘草图进行条件化时，效果往往不理想（见图 1）。

草图与其他条件输入的比较

稀疏且二值的自由手绘草图虽然能提供精细的空间提示 [6, 14, 89]，但通常会表现出显著的形状畸变 [17, 23, 65]，并且相比于深度图、法线图或像素级分割掩膜等像素精确的条件信号，其上下文信息要少得多 [79]。因此，从自由手绘草图进行条件化并不是一件简单的事，需要以不同的方式处理，与其他像素精确的条件信号有所区别。

草图与文本条件化：一个权衡

之前的 S2I 扩散模型 [55, 81, 90] 面临两个主要挑战。首先，生成输出的质量高度依赖于准确的文本提示 [90]，如果提示不一致或缺乏合适的提示，会对结果产生负面影响（见图 3） [55, 90]。其次，确保草图和文本条件对最终输出的影响平衡，需要人工干预，这可能是一个挑战。调整这些因素的权重通常会导致输出在文本一致性和草图的保真度之间进行权衡 [55]。在某些情况下，给文本较高的权重可能导致词义模糊 [71]，而优先考虑草图则往往会产生失真且不具备照片级真实感的结果 [55, 81]。因此，现有的 S2I 扩散模型 [55, 81] 要想实现照片级真实感输出，需要对这些权重进行细致的微调，而最佳平衡对于不同的草图实例可能会有所不同，正如图 2 所示。

草图的空间条件化问题

我们发现，现有的草图条件化扩散模型 [55, 81, 90] 输出中的畸形和非照片级真实感（例如图 2 中的边缘溢出）主要是由于它们的空间条件化方法所导致的。T2I-Adapter [55] 将条件草图的空间特征直接整合到 UNet 编码器的特征图中，而 ControlNet [90] 则将这种方法应用到跳跃连接和中间块中。另一方面，SGDM [81] 将噪声图像的潜在特征投影到空间边缘图上，引导去噪过程按照边缘图进行处理。此外，这些模型通常使用合成生成的 [7, 76, 83] 边缘图/轮廓进行训练和测试，而不是使用真实的自由手绘草图。与此不同，我们的目标是为真实的自由手绘草图设计一个有效的条件化策略，同时确保输出真实地反映最终用户的语义意图 [36]，而没有畸变。

解释：

草图条件化扩散模型的问题

一些先进的图像生成模型，如 ControlNet 和 T2I-Adapter，能够生成非常真实的图像，支持多种不同的输入条件，比如深度图、标签掩膜和边缘图。但当我们使用稀疏的自由手绘草图时，这些模型的表现就不那么理想了。

草图与其他输入条件的区别

手绘草图通常只提供了大致的空间信息，而不像深度图或分割掩膜那样提供精确的像素信息。草图虽然能描述物体的大体轮廓，但往往会出现形状变形和缺乏足够的上下文信息。相比之下，像深度图和分割掩膜这类像素精确的条件信号要更可靠。因此，使用草图进行图像生成需要特别的处理方式。

草图与文本输入的权衡

早期的草图到图像（S2I）扩散模型有两个主要问题：第一，生成的图像质量依赖于非常精确的文本提示。如果提示不准确或不合适，生成的结果就会很差。第二，如何平衡草图和文本对生成图像的影响是一个挑战。我们需要调整草图和文本的权重，这样才能在保留草图细节的同时，确保文本描述的准确性。如果文本的权重过大，生成的图像可能会出现词义模糊的情况，而如果草图的权重大，图像可能会出现失真。因此，现有的 S2I 扩散模型通常需要对这些权重进行复杂的调节。

草图的空间条件化问题

我们发现，现有的草图条件化模型会因为其空间条件化方法的问题，导致生成的图像出现畸变（如边缘溢出）。例如，T2I-Adapter 会直接将草图的空间特征加到模型的编码器特征中，ControlNet 则将草图特征用于跳跃连接和中间层。SGDM 则通过将噪声图像的特征映射到边缘图来引导去噪过程。然而，这些模型通常使用合成的边缘图进行训练，而不是使用真实的自由手绘草图，这使得它们在真实应用中效果较差。我们的目标是为自由手绘草图设计一种有效的条件化策略，同时确保输出能够真实反映用户的意图，避免出现畸变。

翻译：

5. 提出的研究方法

概述

我们旨在通过将输入草图转换为等效的精细文本嵌入，来消除空间草图条件化，从而在不进行像素级空间对齐的情况下，保留用户的语义意图。因此，我们的方法将缓解空间畸变（例如形状畸变、边缘溢出等）的问题，同时保持对输入草图的精细保真度。我们提出了三项重要设计（见图 4）：

精细判别损失：用于保持草图与照片之间的精细对应关系（第 5.2 节）。
用文本提示指导训练过程：文本提示在推理过程中不使用，但作为超概念的保留手段（第 5.3 节）。
草图抽象感知的时间步采样：与以往研究中采用均匀时间步采样（如[81, 90]）不同，我们引入了草图抽象感知的时间步采样（第 5.4 节）。对于高度抽象的草图，分配更大的时间步（t）的概率，反之亦然。

5.1 草图适配器

为了缓解现有草图条件化扩散模型（如 ControlNet [90]，T2I-Adapter [55]）直接空间条件化方法的显著缺点（见第 4 节），我们采取了一种并行方法，通过交叉注意力来"草图条件化"生成过程。具体来说，我们不将输入草图作为空间信息处理，而是将其编码为一系列特征向量 [42]，即等效的精细文本嵌入。直接的空间条件化强制模型记住上下文信息，而不是理解它 [85]。这导致强烈的草图特征（例如笔画边界）直接转化为输出的照片。为了解决这个问题，我们通过草图适配器将空间草图输入压缩为瓶颈表示，从而增加问题的难度。

特别地，给定一个草图 s s s，我们使用预训练的 CLIP [56] ViT-L/14 图像编码器 V ( ⋅ ) V(\cdot) V(⋅) 生成其块状草图嵌入 s = V ( s ) ∈ R 257 × 1024 s = V(s) \in \mathbb{R}^{257 \times 1024} s=V(s)∈R257×1024。我们的草图适配器 A ( ⋅ ) A(\cdot) A(⋅) 包括一维卷积和基础注意力模块 [80]，然后是全连接层。卷积和全连接层处理文本和草图嵌入之间的维度不匹配（即 R 257 × 1024 → R 77 × 768 \mathbb{R}^{257 \times 1024} \to \mathbb{R}^{77 \times 768} R257×1024→R77×768），而注意力模块则解决了草图和文本域之间的巨大差距。通过草图适配器 A ( ⋅ ) A(\cdot) A(⋅) 传递后，块状草图嵌入 s s s 生成等效的文本嵌入 s ^ = A ( s ) ∈ R 77 × 768 \hat{s} = A(s) \in \mathbb{R}^{77 \times 768} s^=A(s)∈R77×768。现在，将文本条件化在公式 (2) 中替换为我们提出的草图适配器条件化，修改后的损失目标变为：

L S D = E z t , t , s , ε ( ∣ ∣ ε − ε θ ( z t , t , A ( V ( s ) ) ) ∣ ∣ 2 2 ) (3) L_{SD} = \mathbb{E}{z_t,t,s,\varepsilon} \left( || \varepsilon - \varepsilon\theta(z_t, t, A(V(s))) ||_2^2 \right) \tag{3} LSD=Ezt,t,s,ε(∣∣ε−εθ(zt,t,A(V(s)))∣∣22)(3)

训练完成后，草图适配器能高效地将输入草图 s s s 转换为其等效的文本嵌入 s ^ \hat{s} s^，通过交叉注意力来控制 SD [61] 的去噪过程。然而，仅通过我们提出的草图适配器进行条件化仍然面临多个挑战：

稀疏的自由手绘草图和像素精确的照片之间存在巨大的域差异。文本到图像的扩散模型的标准 l 2 l_2 l2 损失 [61] 并不足以确保草图和照片之间的精细匹配。
从有限的草图-照片对中训练一个鲁棒的草图适配器是困难的。因此，在训练过程中，我们使用伪文本作为学习信号来指导草图适配器的训练。请注意，我们的推理流程中不涉及任何文本提示。
草图适配器对所有草图样本一视同仁，不考虑其抽象级别。尽管这种平等对待可能足以处理密集的像素级条件化，但对于稀疏的草图来说就不够充分了，因为不同抽象级别的草图在语义上并不相等 [5, 86]。

解释：

提出的方法

我们提出的方案旨在通过将草图转换为精细的文本嵌入，而不是依赖空间条件化，从而避免了空间畸变（如形状扭曲、边缘溢出等）的出现，同时保持草图的精细细节。这种方法不需要像传统方法那样对草图进行像素级对齐，而是通过文本嵌入来保留用户的语义意图。我们设计了三项关键创新：

精细判别损失：用于保证草图和照片之间的精确对应关系。
用文本提示指导训练：在训练过程中使用文本提示来帮助模型理解超概念，推理时不再使用文本提示。
草图抽象感知的时间步采样：对于抽象的草图，我们会给更高的时间步采样概率，反之则给低时间步采样更高的概率。

草图适配器

为了克服现有草图条件化扩散模型的缺陷，我们提出了草图适配器，这种方法不直接处理草图的空间信息，而是将草图编码成一个特征向量序列，类似于文本嵌入。直接的空间条件化往往只能"记住"草图的边界特征，但无法理解其语义内容。我们通过草图适配器将草图压缩成更简洁的表示，从而帮助模型更好地理解和生成图像。

在具体实现中，我们使用预训练的 CLIP 编码器来生成草图的嵌入，并通过草图适配器将其转换为一个等效的文本嵌入。通过这种方式，草图的嵌入在去噪过程中与文本信息进行交叉注意力，从而帮助模型生成更符合草图意图的图像。

尽管这种方法效果显著，但也面临一些挑战：

草图和真实照片之间的差异非常大，标准的损失函数并不能保证两者之间的细节对齐。
训练草图适配器需要大量的草图和照片配对数据，但这些数据有限。
草图适配器没有考虑草图的抽象级别，不同抽象级别的草图可能有不同的语义含义，这也给训练带来了难度。

5.2. 精细判别学习

为了确保稀疏的自由手绘草图和像素级完美照片之间有精细的匹配，我们使用了一个预训练的精细化草图-照片匹配（FG-SBIR）模型 F g ( ⋅ ) F_g(\cdot) Fg(⋅)。在这个模型中，照片和它配对的草图会出现在一个相似的空间中，相对于其他不配对的照片和草图来说，它们更接近。

之前的一些尝试通过使用外部的判别模型来指导扩散过程，比如使用分类器指导（classifier-guidance）[16]。但是这些方法需要一个预训练的分类器，能够同时对噪声数据和真实数据进行分类，以帮助去噪过程。然而，我们的FG-SBIR模型并没有在噪声数据上进行训练，因此它只能在每个时间步骤 t t t 上使用清晰的图像进行处理，无法直接处理噪声数据。

为了在去噪过程中利用这个模型，我们需要从噪声图像 z t z_t zt 中估计出清晰图像 z 0 z_0 z0。具体来说，我们使用Tweedie公式来从第 t t t步的噪声潜在图像 z t z_t zt 中一步估计出清晰的潜在图像 z ^ 0 \hat{z}_0 z^0，以便高效训练：

z ^ 0 ( z t ) : = z t − 1 − α ˉ t ε θ ( z t , t , A ( V ( s ) ) ) α t \hat{z}_0(z_t) := z_t - \frac{\sqrt{1 - \bar{\alpha}t} \, \varepsilon{\theta}(z_t, t, A(V(s)))}{\sqrt{\alpha_t}} z^0(zt):=zt−αt 1−αˉt εθ(zt,t,A(V(s)))

通过把 z ^ 0 \hat{z}_0 z^0传递到SD模型中的VAE解码器 D ( ⋅ ) D(\cdot) D(⋅)，我们可以近似得到清晰的图像 x ^ 0 \hat{x}_0 x^0。为了训练我们的草图适配器 A A A，我们使用了一个判别性SBIR损失函数，计算草图和生成图像之间的余弦相似度 δ ( ⋅ , ⋅ ) \delta(\cdot, \cdot) δ(⋅,⋅)：

L S B I R = 1 − δ ( F g ( s ) ⋅ F g ( x ^ 0 ) ) L_{SBIR} = 1 - \delta(F_g(s) \cdot F_g(\hat{x}_0)) LSBIR=1−δ(Fg(s)⋅Fg(x^0))

这个损失函数帮助我们确保草图和生成的图像之间有更好的匹配。

解释

为了让手绘草图和真实照片之间的细节更加匹配，我们使用了一个已经训练好的模型，这个模型能够帮助我们判断草图和照片的相似度。这个模型把草图和照片放在一个共同的"空间"里，越接近的就说明它们越相似。

不过，这个模型只能处理清晰的图片，所以我们不能直接把它用在噪声图片上。为了让这个模型适用于去噪的过程，我们用一个公式从有噪声的图片中还原出清晰的图片。然后，我们通过比较草图和生成的图片之间的相似度，来训练我们的草图适配器，让它更好地把草图转换成合适的图像。

这就像我们通过用草图和真实图像之间的相似度作为参考，帮助模型学习如何更好地"理解"草图并生成接近真实的图像。

5.3. 超概念保留损失

草图和文本之间本身存在互补性[13]。一段图像的文本描述可以在嵌入空间中对应多个合理的照片。然而，加入草图后，范围会缩小到特定的图像[13, 70]（即更细粒度）。我们认为，文本描述比草图更不细致[13, 75, 85]，它作为草图的超概念存在。虽然我们在推理过程中不使用任何文本提示，但在训练草图适配器时，我们希望使用文本提示。基于文本的图像生成模型（如SD模型）是通过大量的文本-图像对进行训练的[61]，因此它们具有很强的文本-图像生成能力（尽管不是非常细粒度的）[18]。因此，我们希望利用来自文本描述的超概念知识，通过文本-图像生成能力，来帮助我们训练草图适配器，即使我们只有有限的草图-照片配对数据。

由于我们的草图-照片数据集（ s , p s, p s,p）[69]缺少配套的文本描述，我们使用一个预训练的最先进图像描述生成模型[45]，为每张真实照片生成一个文本描述 d d d。然后，在每个时间步 t t t，通过文本条件生成的噪声（ T ( d ) T(d) T(d)）作为参考，计算正则化损失，来训练草图适配器 A A A，公式如下：

L r e g = ∣ ∣ ε θ ( z t , t , T ( d ) ) − ε θ ( z t , t , A ( V ( s ) ) ) ∣ ∣ 2 2 L_{reg} = ||\varepsilon_{\theta}(z_t, t, T(d)) - \varepsilon_{\theta}(z_t, t, A(V(s)))||^2_2 Lreg=∣∣εθ(zt,t,T(d))−εθ(zt,t,A(V(s)))∣∣22

解释

草图和文字在生成图像时可以互相补充。文字描述可以对应多张不同的照片，但是当我们加入草图时，它就限定了生成图像的范围，使得生成的图像更精细。我们认为，文本描述比草图更粗略，因此可以被看作是草图的"超概念"。虽然我们在推理阶段不使用文本提示，但在训练草图适配器时，我们使用了文本描述。

我们的草图和照片的数据集并没有包含文本描述，因此我们使用了一个已经训练好的图像描述生成模型，为每张照片生成一个文本描述。然后，在每个训练步骤中，我们用这个文本描述生成的噪声来帮助训练草图适配器，让它更好地"理解"草图与图像之间的关系，从而生成更精确的图像。

5.4. 具备抽象意识的重采样

现有文献[26, 27, 55, 85]表明，在去噪过程中的早期阶段，输出图像的高级语义结构往往最先显现，而更精细的外观细节则是在后期出现。合成的像素完美条件信号（例如深度图[59]、关键姿势[8]、边缘图[7]等）通常抽象程度较低[23]。与此不同的是，人工绘制的自由手绘草图展现了不同的抽象层次，这些层次受技能、风格和主观解读等因素的影响[65, 67]。因此，对于抽象程度较高的草图，使用均匀时间步重采样[27]可能会影响输出生成质量和草图的还原度。

为此，我们提出根据输入草图的抽象程度来调整时间步的重采样过程[87]。对于高度抽象的草图，我们会倾向于将重采样的概率分布偏向于后期的 t t t值，这些 t t t值通常决定了输出的高级语义。与其从均匀分布 t ∼ U ( 0 , T ) t \sim U(0, T) t∼U(0,T)中抽样，我们采用以下公式进行抽样：

S ω ( t ) = 1 T ( 1 − ω cos ⁡ π t T ) S_\omega(t) = \frac{1}{T} \left(1 - \omega \cos \frac{\pi t}{T}\right) Sω(t)=T1(1−ωcosTπt)

其中， S ω ( t ) S_\omega(t) Sω(t)是我们提出的具备抽象意识的 t t t重采样函数， ω ∈ ( 0 , 1 ] \omega \in (0, 1] ω∈(0,1]控制了这个重采样概率密度函数的偏斜程度。随着 ω \omega ω向1靠近，重采样时获得较大 t t t值的概率增加（如图5所示）。我们希望使得这个偏斜控制的 ω \omega ω值能够根据草图的抽象程度进行调整。

接下来，问题是如何量化自由手绘草图的抽象程度。受到[87]的启发，我们设计了一个基于CLIP[56]的（通用分类器）草图分类器，并结合了MagFace[53]的损失函数，其中草图特征 a ∈ [ 0 , 1 ] a \in [0, 1] a∈[0,1]的 l 2 l_2 l2范数表示草图与其对应类中心的接近程度。当 a → 1 a \to 1 a→1时，表示草图类似于边缘图，抽象程度较低；当 a → 0 a \to 0 a→0时，表示草图高度抽象和变形。我们认为，边缘图由于较少变形（即更容易分类），会在潜在空间中靠近其类中心。而自由手绘草图由于更抽象和变形（即更难分类），会远离其类中心。

因此，我们训练草图分类器，使用草图和从Sketchy数据集[69]合成的边缘图进行训练，并采用以下分类损失：

L a b s = − log ⁡ e s cos ⁡ ( θ y i + m ( s i ) ) e s cos ⁡ ( θ y i + m ( s i ) ) + ∑ j ≠ y i e s cos ⁡ θ j + λ g g ( s i ) L_{abs} = - \log \frac{e^s \cos(\theta_{y_i} + m(s_i))}{e^s \cos(\theta_{y_i} + m(s_i)) + \sum_{j \neq y_i} e^s \cos \theta_j + \lambda_g g(s_i)} Labs=−logescos(θyi+m(si))+∑j=yiescosθj+λgg(si)escos(θyi+m(si))

其中， s s s是全局标量值， θ y i \theta_{y_i} θyi是第 i i i个草图样本 s i = V ( s i ) ∈ R d s_i = V(s_i) \in \mathbb{R}^d si=V(si)∈Rd经过CLIP[56]视觉编码器提取的全局视觉特征的余弦相似度， y i y_i yi表示对应的类别标签， m ( s i ) m(s_i) m(si)是基于幅度的边距参数， g ( s i ) g(s_i) g(si)是超参数控制的正则化项（有关详细信息，见[53]）。

使用训练好的分类器，给定草图 s s s时，抽象分数 a ∈ [ 0 , 1 ] a \in [0, 1] a∈[0,1]通过提取的草图特征 V ( s ) V(s) V(s)的 l 2 l_2 l2范数来计算。为了与 ω \omega ω保持一致，我们对 a a a取补，得到与草图实例相关的 ω ← ( 1 − a ) \omega \leftarrow (1 - a) ω←(1−a)，然后将 ω \omega ω值裁剪到[0.2, 0.8]范围内。

总之，我们使用具备抽象意识的 t t t重采样对草图适配器 A ( ⋅ ) A(\cdot) A(⋅)进行训练，最终损失函数为：

L t o t a l = λ 1 L S D + λ 2 L S B I R + λ 3 L r e g L_{total} = \lambda_1 L_{SD} + \lambda_2 L_{SBIR} + \lambda_3 L_{reg} Ltotal=λ1LSD+λ2LSBIR+λ3Lreg

在推理阶段，我们计算输入草图的抽象分数，通过分类器特征的 l 2 l_2 l2范数。根据抽象层次，我们执行 t t t重采样。输入的草图经过适配器 A A A后，控制去噪过程并生成最终的输出。

解释

在生成图像时，图像的整体结构（例如物体的大致轮廓）会先出现，而细节部分会在后面才表现出来。人工绘制的草图不同于完美的图像，它们可能更抽象，意思是草图的细节和精确度可能不同。为了让我们的生成模型更好地处理这些不同抽象程度的草图，我们设计了一种方法，可以根据草图的抽象程度来调整模型的生成过程。

具体来说，我们会根据草图的抽象程度（例如草图的细节是否清晰，是否比较模糊）来决定生成图像时模型的工作方式。如果草图很抽象（比如很模糊或者很简单），我们就调整模型去更多地关注图像的整体结构，推迟细节的生成。我们还设计了一种方法来量化草图的抽象程度，用一个分类器来判断草图是简单还是复杂，并根据这个判断调整生成的方式。这样，生成出来的图像不仅会保持草图的抽象程度，还会使图像的细节和整体更一致。

7. 结论

我们的工作在推广草图控制在扩散模型中的应用方面迈出了重要一步。我们揭示了当前方法的局限性，展示了基于草图的生成式AI的误导性承诺。通过引入一个具备抽象意识的框架，包括草图适配器、适应性时间步重采样和判别性指导，我们使得业余水平的草图能够在推理过程中无需文本提示的情况下生成精确且高保真的图像。我们欢迎社区对我们的结果进行深入审视。请参考演示视频，了解与当前最先进技术的实时比较。

解释

我们这项工作在使草图能够更好地控制生成图像方面取得了重要进展。我们指出了现有方法的局限性，揭示了很多基于草图的生成AI看起来很有前景，但其实并不能完全达到预期效果。通过引入一种新方法，我们的模型能够通过草图来生成更精确和高质量的图像，而且在推理过程中不需要任何文本提示。这对于没有专业绘画技能的人来说，仍然能生成很好的图像。我们希望其他研究人员能够对我们的工作进行评估，了解它的效果。你也可以通过观看我们的演示视频，看到我们的方法和当前最先进技术的实时对比。

It’s All About Your Sketch: Democratising Sketch Control in Diffusion Models

翻译：

解释：

翻译：

解释：

翻译：

解释：

翻译：

2.Related Works

解释：

翻译：

解释：

翻译：

解释：

翻译：

解释：