【AIGC-图片生成视频系列-4】DreamTuner：单张图像足以进行主题驱动生成

[一. 项目概述](#一. 项目概述)

[二. 方法详解](#二. 方法详解)

[三. 文本控制的动漫角色驱动图像生成的结果](#三. 文本控制的动漫角色驱动图像生成的结果)

[四. 文本控制的自然图像驱动图像生成的结果](#四. 文本控制的自然图像驱动图像生成的结果)

[五. 姿势控制角色驱动图像生成的结果](#五. 姿势控制角色驱动图像生成的结果)

2023年的最后一天，发个文记录下。马上就要迎来新的一年，在这里预祝各位读者新年新气象！

今天要介绍的是字节的**DreamTuner: Single Image is Enough for Subject-Driven Generation，**可以通过单张图像实现特定主题的驱动生成。

一. 项目概述

什么是主题驱动生成？使用一张或几张参考图像生成定制概念的个性化应用。

文中提出了 DreamTurner，这是一种从粗到细注入定制主题的参考信息的新颖方法。

首先提出了一种用于粗略主题身份保留的主题编码器，其中在视觉文本交叉注意之前通过附加注意层引入压缩的一般主题特征。
然后，我们将预训练的文本到图像模型中的self-attention 修改为self-subject-attention层，以细化目标主体的细节。值得强调的是，self-subject-attention是一种优雅、有效、免训练的方法，用于维护定制概念的详细特征，可以在推理过程中用作即插即用的解决方案。
最后，通过仅对单个图像进行额外的微调，DreamTurner 在由文本或姿势等其他条件控制的主题驱动图像生成方面取得了卓越的性能。

DreamTuner 作为一种基于微调和图像编码器的主题驱动图像生成的新颖框架，它保持从粗到细的主题身份。

DreamTuner由三个阶段组成：主题编码器预训练、主题驱动微调和主题驱动推理。

提出的主题编码器作为一种图像编码器，为主题驱动生成提供粗略参考。使用冻结的 CLIP 图像编码器来提取参考图像的压缩特征。使用显著对象检测（SOD）模型或分割模型来去除输入图像的背景并强调主题。
然后引入一些残差块（ResBlock）进行域移位。CLIP提取的多层特征在通道维度上cat操作，然后通过残差块调整到与生成特征相同的维度。使用附加的**主题编码器注意（SEA）**层将主题编码器的编码参考特征注入到文本到图像模型中。主题编码器注意层添加在视觉文本交叉注意之前，因为交叉注意层是控制生成图像的总体外观的模块。
根据与交叉注意力相同的设置构建主题编码器注意力，并将输出层初始化为零。附加系数β引入来调整主题编码器的影响。
此外，进一步引入ControlNet来帮助解耦内容和布局。具体来说，我们训练主题编码器和冻结深度 ControlNet。由于ControlNet提供了参考图像的布局，主题编码器可以更加关注主题内容。