ScribbleDiff:使用涂鸦引导扩散,实现无需训练的文本到图像生成

ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条,表示你想要的图像的轮廓。ScribbleDiff会利用这些线条来指导图像生成的过程。

首先,它会分析这些涂鸦,确保生成的图像中的对象朝着你画的方向。比如,如果你画了一条向右的线,生成的猫就会朝右看,而不是朝左。其次,这个方法会将你的涂鸦进行扩展,使得生成的图像更加完整和细致。

这样,即使你的涂鸦很简单,计算机也能理解并生成出你想要的图像。通过这种方式,ScribbleDiff让我们与计算机的互动变得更加直观和有效。

相关链接

论文链接:http://arxiv.org/abs/2409.08026v1

项目地址:https://github.com/kaist-cvml-lab/scribble-diffusion

论文阅读

涂鸦引导扩散:实现无需训练的文本到图像生成

摘要

文本到图像扩散模型的最新进展已显示出显著的成功,但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导,常常导致对象方向错位或非预期。为了解决这些限制,我们提出了涂鸦引导扩散(ScribbleDiff),这是一种无需训练的方法,它利用用户提供的简单涂鸦作为视觉提示来指导图像生成。然而,将涂鸦纳入扩散模型会带来挑战,因为它们具有稀疏和薄弱的性质,很难确保准确的方向对齐。为了克服这些挑战,我们引入了矩对齐和涂鸦传播,这使得生成的图像和涂鸦输入之间可以更有效、更灵活地对齐。在 PASCAL-Scribble 数据集上的实验结果显示空间控制和一致性有了显著改善,展示了基于涂鸦的引导在扩散模型中的有效性。

方法

整体架构。 无需训练的 Scribble-Guided Diffusion (ScribbleDiff) 由两个主要组件组成:矩对齐和涂鸦传播。红色箭头表示分布的主要方向。相似度较高的锚点(红色矩形)是根据涂鸦的锚点(黄色矩形)收集的。(文字提示:云朵在天空中飘浮,在平静的河流上投下柔和、变幻的阴影。一座中世纪的桥梁横跨水道的宽度。)

力矩损失对物体方向的影响。力矩损失可改善物体方向与涂鸦方向之间的对齐。如果没有力矩损失,猫会面向涂鸦方向的反方向。

涂鸦传播的效果。通过稳定扩散中的涂鸦传播,涂鸦会随时间显著扩大,从而改善物体形状并增强视觉连贯性。

实验

使用涂鸦提示对文本到图像生成方法进行定性比较。ScribbleDiff 产生的结果与涂鸦输入更加一致,特别是在对象的方向和抽象形状方面。

PASCAL-Scribble 数据集的定性结果。各种文本到图像生成方法的比较,包括在训练数据集上微调的 ControlNet。ScribbleDiff 表现出与输入涂鸦的出色对齐效果,特别是在处理抽象形状和对象方向时。

PASCAL-Scribble数据集的消融研究。 同一随机种子加关键成分与不加关键成分定性结果的比较。

结论

ScribbleDiff方法克服了传统边界框和区域蒙版的局限性,这些局限性通常无法有效捕捉抽象形状和物体方向。然而,涂鸦的稀疏和稀疏性质可能会妨碍精确控制,通过引入两个关键组件来缓解这种情况:

  1. 矩损失以使物体方向与涂鸦方向对齐

  2. 涂鸦传播以增强稀疏涂鸦输入到完整蒙版中。

实验结果表明,ScribbleDiffurpass 在各种指标(包括新的涂鸦比率)中都通过了无训练和微调方法。我们的方法在保持对文本提示的保真度的同时,持续改进了物体方向和空间对齐

相关推荐
feifeigo1237 分钟前
基于DTW和HMM的语音识别仿真
人工智能·语音识别
永霖光电_UVLED28 分钟前
GlobalFoundries从台积电获得GaN技术许可
人工智能·神经网络·生成对抗网络
AKAMAI1 小时前
Forrester调研400位高级决策者,揭示AI应用未来
人工智能·云计算
KKKlucifer1 小时前
数据智能时代的安全困局与 AI 破局逻辑
人工智能·安全
Dm_dotnet1 小时前
Microsoft Agent Framework/C#:了解Workflows的几种不同模式
人工智能
Macbethad1 小时前
基于世界模型的自动驾驶控制算法
人工智能·机器学习·自动驾驶
带电的小王1 小时前
【AI大模型技术】4.预训练语言模型(PLMs,Pre-trained Langue Models);5.Transformers Tutorial
人工智能·语言模型·自然语言处理
搬砖者(视觉算法工程师)1 小时前
自动驾驶技术前沿:传感器技术
人工智能·自动驾驶
算法与编程之美2 小时前
探究pytorch中多个卷积层和全连接层的输出方法
人工智能·pytorch·深度学习·神经网络·cnn
Master_oid2 小时前
机器学习21:可解释机器学习(Explainable Machine Learning)(上)
人工智能·机器学习