Prompt-To-Prompt——仅通过文本进行图像编辑

文章目录

1.摘要
2.算法
- [2.1 Cross-attention in text-conditioned Diffusion Models](#2.1 Cross-attention in text-conditioned Diffusion Models)
- [2.2 Controlling the Cross-attention](#2.2 Controlling the Cross-attention)
- - [Word Swap](#Word Swap)
  - [Adding a New Phrase](#Adding a New Phrase)
  - [Attention Re--weighting](#Attention Re–weighting)
3.应用
- [Text-Only Localized Editing](#Text-Only Localized Editing)
- [Global editing](#Global editing)
- [Fader Control using Attention Re-weighting](#Fader Control using Attention Re-weighting)
- [Real Image Editing](#Real Image Editing)
4.结论

论文：《Prompt-to-Prompt Image Editing with Cross Attention Control》
github: https://github.com/google/prompt-to-prompt

1.摘要

文生图到图像编辑充满挑战，图像编辑需要保留原始图片大部分信息，而对于文生图，只要prompt稍微更改将导致生成完全不同图像 。当前SOTA方法用户需要提供编辑位置的mask，忽略mask区域内容。作者探究一种仅通过文本进行编辑的框架 ，对此对条件文本模型进行深入探究，发现cross-attention层控制图像空间布局与prompt中每个word之间的相关性。作者通过仅编辑纹理prompt进行图像生成，包括：替换单词进行局部编辑、增加明细进行全局编辑、甚至精细化控制哪个单词映射到图像中哪部分。

2.算法

对于依据文本 p r o m p t P prompt P promptP生成图像 I I I，通过编辑的 p r o m p t P ∗ prompt P^* promptP∗，生成编辑后图像 I ∗ I^* I∗。

作者发现生成图像的结构与外观不仅依赖于随机种子还依赖于像素及文本embedding之间交互。注入输入图 I I I的cross-attention层使得保留原始构图和结构，整体结构如图3所示。

2.1 Cross-attention in text-conditioned Diffusion Models

噪声图经过映射得到查询矩阵 Q Q Q、 p r o m p t prompt prompt分别经过映射得到 K 、 V K、V K、V， a t t e n t i o n m a p M attention map M attentionmapM计算如式1，cross-attention输出为 M V MV MV，用于更新空间特征 ϕ ( z t ) \phi(z_t) ϕ(zt)。

2.2 Controlling the Cross-attention

像素与文本交互如图4，第一行展示每个单词的attention mask，第二行展示随着扩散过程，attention map变化。我们发现在扩散早期阶段图像结构已经确定。

由于attention映射整体架构，因此可将原始 p r o m p t prompt prompt生成过程的 a t t e n t i o n m a p M attention map M attentionmapM引入更改后 p r o m p t P ∗ prompt P^* promptP∗二次生成过程，这使得生成图不仅与编辑 p r o m p t prompt prompt一致，同时保留原始输入图I的结构。

作者定义扩散过程DM，输出图像 z t − 1 z_{t-1} zt−1及 a t t e n t i o n m a p M t attention map M_t attentionmapMt，使用编辑 p r o m p t P ∗ prompt P^* promptP∗生成 a t t e n t i o n m a p M t ∗ attention map M_t^* attentionmapMt∗，作者定义 E d i t ( M t ， M t ∗ ， t ) Edit(M_t，M_t^*，t) Edit(Mt，Mt∗，t)用于重写 a t t e n t i o n m a p M attention map M attentionmapM。为减少编辑过程随机性，作者固定随机种子，Prompt-to-Prompt图像编辑算法如算法1所示，

E d i t ( M t ， M t ∗ ， t ) Edit(M_t，M_t^*，t) Edit(Mt，Mt∗，t)如图3底部，

Word Swap

用户将原始prompt中个别词替换。该问题挑战为保存原始结构同时与新prompt内容一致，将原图attention map直接引入可能会过于限制几何形状。因此作者提出softer attention限制，如下式， τ \tau τ为时间戳，

在前期使用原始图片 a t t e n t i o n m a p M t attention map M_t attentionmapMt，后期使用新 p r o m p t P ∗ prompt P^* promptP∗生成图像的 a t t e n t i o n m a p M t ∗ attention map M_t^* attentionmapMt∗