视觉风格提示词:Visual Style Prompting with Swapping Self-Attention(风格迁移)

文章目录

一、项目介绍

本文的工作是做风格迁移的
本文证明了在风格迁移时,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。

在不断发展的文本到图像生成领域,扩散模型已成为内容创建的强大工具。

尽管现有的模型能力非凡,但在实现风格一致的可控生成方面仍面临挑战,需要进行高成本的微调,或者由于内容泄漏而经常无法等效地传输视觉元素。

为了应对这些挑战,我们提出了一种新颖的方法--视觉风格提示,以生成各种图像,同时保持特定的风格元素和细微差别。

在去噪过程中,我们保留原始特征的查询,同时在后期的自我关注层中,将关键字和值与参考特征的关键字和值互换。这种方法可以在不进行任何微调的情况下进行视觉风格提示,确保生成的图像保持忠实的风格。通过对各种风格和文本提示的广泛评估,我们的方法显示出优于现有方法的优势,能最好地反映参考文献的风格,并确保生成的图像与文本提示最准确地匹配。
项目地址

二、方法介绍

以往的训练方法侧重于文本提示,会在训练阶段过拟合于图像文本对

自注意力层的结kv具有空间维度的信息,对比文本跟能展示空间视觉要素

2.1自注意力层进行KV注入

本文采用在自注意力层,用参考图像生成的KV替换原始的KV从而实现风格迁移

2.2对unet不同层的自注意层进行探究

发现只在最后的上采样块做自注意力交换,更能实现风格的迁移而不泄露图像的风格

与早期上行块相比,晚期上行块能更好地关注语义对应的区域,从而有更多的自由空间来重新组装小部件。而早期的上行块会关注更大的区域,导致内容泄漏。

下图是对两个点进行查询

下图提供多个查询点在相应查询区域上的平均注意力图。在上行块后期,生成图像的查询点区域与参考图像的相同风格区域相对应。另一方面,在上行块早期,查询点区域不仅与相应的样式区域相匹配,还与更宽的区域相匹配

2.3定量测量来选择最佳交换自注意力的范围

由于最近的大型 T2I DM 由许多区块组成,因此我们通过改变交换的起始点和固定交换的终点来进一步分析其行为。

我们使用了四个关键指标:

(a) 与参考图片的风格相似度,(b) 与文本提示的对齐度,© 内容多样性。,以及 (d) 参考图像的内容泄漏。

如下图所示,在一个点上,所有四个指标都发生了突变(红线)。我们选择这一点作为最佳起点,以平衡各方面的权衡。

三、总结

在本文中,我们介绍了利用交换自我注意进行视觉风格提示的方法,这种方法能有效地提示参考图像的风格,而不会以一种免训练的方式泄露内容。
本文证明了,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。

此外,我们还提供了一种通过定量测量来选择最佳交换自我注意力范围的原则性方法。最后,视觉风格提示在质量和数量上都优于现有方法。

由于视觉风格提示受限于预先训练的扩散模型的能力,因此无法同步放大模型无法生成的图像,生成图像的质量取决于模型的性能。

此外,由于我们的方法对参考图像的风格有很强的依从性,因此当文本中提供了两种风格时,它往往会忽略文本中指定的风格。

相关推荐
暴龙胡乱写博客8 分钟前
OpenCV---图像预处理(四)
人工智能·opencv·计算机视觉
CodeDevMaster13 分钟前
browser-use:AI驱动的浏览器自动化工具使用指南
python·llm
内网渗透44 分钟前
Python 虚拟环境管理:venv 与 conda 的选择与配置
开发语言·python·conda·虚拟环境·venv
薄荷很无奈1 小时前
CuML + Cudf (RAPIDS) 加速python数据分析脚本
python·机器学习·数据分析·gpu算力
yivifu1 小时前
pyqt中以鼠标所在位置为锚点缩放图片
python·pyqt·以鼠标为锚点缩放图片
李一帆'1 小时前
【论文阅读】Hierarchical Group-Level Emotion Recognition
论文阅读·计算机视觉
正在走向自律1 小时前
AI数字人:繁荣背后的伦理困境与法律迷局(8/10)
人工智能·python·opencv·语音识别·ai数字人·ai伦理与法律
灏瀚星空1 小时前
Python在AI虚拟教学视频开发中的核心技术与前景展望
人工智能·python·音视频
一个天蝎座 白勺 程序猿1 小时前
Python爬虫(4)CSS核心机制:全面解析选择器分类、用法与实战应用
css·爬虫·python
进来有惊喜2 小时前
深度学习:迁移学习
python·深度学习