ScribbleDiff：使用涂鸦引导扩散，实现无需训练的文本到图像生成

ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条，表示你想要的图像的轮廓。ScribbleDiff会利用这些线条来指导图像生成的过程。

首先，它会分析这些涂鸦，确保生成的图像中的对象朝着你画的方向。比如，如果你画了一条向右的线，生成的猫就会朝右看，而不是朝左。其次，这个方法会将你的涂鸦进行扩展，使得生成的图像更加完整和细致。

这样，即使你的涂鸦很简单，计算机也能理解并生成出你想要的图像。通过这种方式，ScribbleDiff让我们与计算机的互动变得更加直观和有效。

论文阅读

涂鸦引导扩散：实现无需训练的文本到图像生成

摘要

文本到图像扩散模型的最新进展已显示出显著的成功，但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导，常常导致对象方向错位或非预期。为了解决这些限制，我们提出了涂鸦引导扩散(ScribbleDiff)，这是一种无需训练的方法，它利用用户提供的简单涂鸦作为视觉提示来指导图像生成。然而，将涂鸦纳入扩散模型会带来挑战，因为它们具有稀疏和薄弱的性质，很难确保准确的方向对齐。为了克服这些挑战，我们引入了矩对齐和涂鸦传播，这使得生成的图像和涂鸦输入之间可以更有效、更灵活地对齐。在 PASCAL-Scribble 数据集上的实验结果显示空间控制和一致性有了显著改善，展示了基于涂鸦的引导在扩散模型中的有效性。

方法

整体架构。 无需训练的 Scribble-Guided Diffusion (ScribbleDiff) 由两个主要组件组成：矩对齐和涂鸦传播。红色箭头表示分布的主要方向。相似度较高的锚点（红色矩形）是根据涂鸦的锚点（黄色矩形）收集的。（文字提示：云朵在天空中飘浮，在平静的河流上投下柔和、变幻的阴影。一座中世纪的桥梁横跨水道的宽度。）