视觉风格提示词:Visual Style Prompting with Swapping Self-Attention(风格迁移)

文章目录

一、项目介绍

本文的工作是做风格迁移的
本文证明了在风格迁移时,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。

在不断发展的文本到图像生成领域,扩散模型已成为内容创建的强大工具。

尽管现有的模型能力非凡,但在实现风格一致的可控生成方面仍面临挑战,需要进行高成本的微调,或者由于内容泄漏而经常无法等效地传输视觉元素。

为了应对这些挑战,我们提出了一种新颖的方法--视觉风格提示,以生成各种图像,同时保持特定的风格元素和细微差别。

在去噪过程中,我们保留原始特征的查询,同时在后期的自我关注层中,将关键字和值与参考特征的关键字和值互换。这种方法可以在不进行任何微调的情况下进行视觉风格提示,确保生成的图像保持忠实的风格。通过对各种风格和文本提示的广泛评估,我们的方法显示出优于现有方法的优势,能最好地反映参考文献的风格,并确保生成的图像与文本提示最准确地匹配。
项目地址

二、方法介绍

以往的训练方法侧重于文本提示,会在训练阶段过拟合于图像文本对

自注意力层的结kv具有空间维度的信息,对比文本跟能展示空间视觉要素

2.1自注意力层进行KV注入

本文采用在自注意力层,用参考图像生成的KV替换原始的KV从而实现风格迁移

2.2对unet不同层的自注意层进行探究

发现只在最后的上采样块做自注意力交换,更能实现风格的迁移而不泄露图像的风格

与早期上行块相比,晚期上行块能更好地关注语义对应的区域,从而有更多的自由空间来重新组装小部件。而早期的上行块会关注更大的区域,导致内容泄漏。

下图是对两个点进行查询

下图提供多个查询点在相应查询区域上的平均注意力图。在上行块后期,生成图像的查询点区域与参考图像的相同风格区域相对应。另一方面,在上行块早期,查询点区域不仅与相应的样式区域相匹配,还与更宽的区域相匹配

2.3定量测量来选择最佳交换自注意力的范围

由于最近的大型 T2I DM 由许多区块组成,因此我们通过改变交换的起始点和固定交换的终点来进一步分析其行为。

我们使用了四个关键指标:

(a) 与参考图片的风格相似度,(b) 与文本提示的对齐度,© 内容多样性。,以及 (d) 参考图像的内容泄漏。

如下图所示,在一个点上,所有四个指标都发生了突变(红线)。我们选择这一点作为最佳起点,以平衡各方面的权衡。

三、总结

在本文中,我们介绍了利用交换自我注意进行视觉风格提示的方法,这种方法能有效地提示参考图像的风格,而不会以一种免训练的方式泄露内容。
本文证明了,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。

此外,我们还提供了一种通过定量测量来选择最佳交换自我注意力范围的原则性方法。最后,视觉风格提示在质量和数量上都优于现有方法。

由于视觉风格提示受限于预先训练的扩散模型的能力,因此无法同步放大模型无法生成的图像,生成图像的质量取决于模型的性能。

此外,由于我们的方法对参考图像的风格有很强的依从性,因此当文本中提供了两种风格时,它往往会忽略文本中指定的风格。

相关推荐
蓝博AI1 小时前
基于卷积神经网络的眼疾识别系统,resnet50,efficentnet(pytorch框架,python代码)
pytorch·python·cnn
牧歌悠悠3 小时前
【Python 算法】动态规划
python·算法·动态规划
Doris Liu.5 小时前
如何检测代码注入(Part 2)
windows·python·安全·网络安全·网络攻击模型
逢生博客5 小时前
阿里 FunASR 开源中文语音识别大模型应用示例(准确率比faster-whisper高)
人工智能·python·语音识别·funasr
噔噔噔噔@5 小时前
软件测试对于整个行业的重要性及必要性
python·单元测试·压力测试
赵谨言5 小时前
基于Python的Django框架的个人博客管理系统
经验分享·python·毕业设计
Guarding and trust6 小时前
python系统之综合案例:用python打造智能诗词生成助手
服务器·数据库·python
淮北4946 小时前
ros调试工具foxglove使用指南三:在3d空间写写画画(Panel->3D ->Scene entity)
python·学习·3d·机器人
mosquito_lover16 小时前
Python实现音频数字水印方法
python·音视频
苹果.Python.八宝粥6 小时前
Python第七章02:文件读取的练习
开发语言·python