对话图像编辑研究综述

MGIE：MLLM 引导图像编辑（ICLR 2024）

https://mllm-ie.github.io/

利用 MLLM 来增强基于指令的图像编辑 ("what will this image be like if [instruction]" ，来重写)。

训练好后，大视觉语言模型直接推导出简洁明确的表达指令（concise expressive instruction），并为预期目标提供明确的视觉相关指导(visual token)然后通过Edit head 注入到Diffusion模型。

扩散模型以端到端的方式通过编辑头联合训练和实现具有潜在想象的图像编辑。

其中，Edit Head 表示：序列到序列模型 (4层transformer)，它将来自 MLLM 的顺序视觉标记（sequential visual tokens）映射到语义上有意义的潜在编码 U = {u1, u2,..., uL} 作为编辑指导

解读：
https://blog.csdn.net/imwaters/article/details/136045973

https://www.unite.ai/zh-CN/通过多模态大语言模型指导基于指令的图像编辑/

LLaVA-Interactive：一体化的图像对话、分割与生成/编辑平台

https://llava-vl.github.io/llava-interactive/

Image Input. 可以上传一张图像，或者通过指定其语言描述和为对象的预期空间布局绘制边界框来生成一张图像

Visual Chat: 询问有关图像的任何问题，例如，关于如何修改图像的建议。根据编辑建议，人们可以分别使用步骤 3 或 4 移除或添加新对象。

Interactive Segmentation: 人们可以使用笔画绘制或文本提示来分割对象掩码。要将其移除，请将掩码拖出图像，背景将自动填充。

Grounded Editing: 人们可以通过绘制边界框并为预期对象关联相应的概念，将新对象直接放置在图像上。

Mult-turn Interaction: 重复步骤 2、3 或 4 以迭代地优化视觉创作。

FFCLIP：单个模型实现多文本引导图像编辑（NIPS 2022）

https://github.com/KumapowerLIU/FFCLIP

描述用户意图的自由文本提示已被用于编辑 StyleGAN 潜在空间以进行图像编辑操作 [1、2]。一句话（例如，'Blue'）或短语（例如，'Man aged 10'）作为输入，这些方法通过调制 StyleGAN 潜在空间中的潜在编码来相应地编辑所描述的图像属性。

精确的文本 - 图像编辑依赖于 StyleGAN 的视觉语义空间与 CLIP 的文本语义空间之间的精确潜在映射。

比如当文本提示是 "惊喜" ，我们首先在视觉语义空间中识别其相关的语义子空间 （即 "表情" ，因为惊喜属于表情这个属性）。找到与文本相对应的语义子空间后，文本会告诉我们隐编码的变化方向，从让隐编码从当前的表情变化到惊喜的表情。

TediGAN [1] 和 StyleCLIP [2] 等开创性研究凭经验预先定义了哪个潜在视觉子空间对应于目标文本提示嵌入（即 TediGAN 中的特定属性选择和 StyleCLIP 中的分组映射）。这种经验识别限制了给定一个文本提示，他们必须训练相应的编辑模型。

但基于 GAN 的文本 - 图像编辑依旧有一些问题等待解决，例如经典的 StyleCILP 中针对每一个文本必须要训练一个模型，这种单文本对单模型的方式在实际应用中是不方便的。

我们提出了 FFCLIP-Free Form CLIP，它可以针对不同的文本自动找到相对应视觉子空间。

FFCLIP 由几个语义调制模块 组成，这些语义调制模块把 StyleGAN 潜在空间中的潜在编码和文本编码 e 作为输入。

FFCLIP 首先通过预训练好的 GAN inversion 编码器和文本编码器得到图像和文本的潜在编码，其中图像的潜在编码则是之前提到的 StyleGAN 视觉语义空间中的 w，而文本编码则是和 StyleCLIP 一样采用 e4e GAN inversion 编码器 [4] 和 CLIP 中的文本编码器来分别得到相应的潜在编码。

语义调制模块由一个语义对齐模块和一个语义注入模块组成。语义对齐模块将文本编码 e 作为 query，将潜在编码 w 作为 key 和 Value。然后我们分别在 position 和 channel 维度上计算交叉注意力，从而得到两个注意力图。

解读：

https://blog.csdn.net/qq_27590277/article/details/128631486

DialogGen：多轮文生图交互对话系统（腾讯混元）

https://hunyuan-dialoggen.github.io/

文生图带来了很大的便利，但是

需要专业的prompt知识才能准确地将用户意图变为现实→阻碍了在普通用户中的应用
用户会根据之前的对话结果生成图像→需要多回合T2I生成

现有解决方式

将MLLM集成到T2I中，这就导致了多模态交互对话系统(MIDS)的出现，接收多个模态，输出多个模态

新的挑战

text encoder容量有限，难以理解用户复杂的自然语言指令

本文提出的DialogGen

集成为一个管线：绘图提示对齐→训练数据处理→误差修正

绘图提示对齐

将MLLM的输出转换为T2I模型所支持的形式

（re-caption model重新起标题，以确保转换后的提示与T2I模型之间的对齐）
处理：一致性保证、混合指令调优数据、双语数据
1. 一致性保证：训练数据添加约束（尽可能少地改变先前图像使用的绘图提示）+固定T2I模型的随机种子
2. 混合指令调优数据：由于缺乏将用户的自然语言输入转化为详细描述提示的数据集→查询GPT-4以生成包含单轮文本到提示样本的数据集
3. 双语：中+英混合训练
错误纠正
1. 给定一个训练数据集D，经过几轮训练，得到一个学生模型m
2. 引入一个教师纠错器模型MT和一个查询MT的提示符Pf，其中Pf是指示MT生成纠错数据的few-show提示符，使用校正模型MT对训练集中的每个样本生成一个校正
3. 来自正确响应的反馈增强了模型对其准确行动的信心。来自错误响应的反馈会提醒模型注意它的错误，以及如何在将来避免这些错误。

InternGPT：与超越语言的ChatGPT交互来解决以视觉为中心的任务

https://github.com/OpenGVLab/InternGPT

可以通过指向设备进行点击、拖拽和绘制等操作来与 ChatGPT 进行交互。InternGPT 这个名字分别代表着交互（ interaction）、非语言（n onverbal）和聊天（Chat GPT）。

不同于现有依赖纯语言的交互系统，通过加入指向指令，iGPT 大大提高了用户与聊天机器人的沟通效率，以及聊天机器人在以视觉为中心的任务中，尤其是在复杂视觉场景中的准确性。

iGPT由三个主要组件组成：

（1）一个感知单元 ，用于解释用户在图像和视频上的指向手势，实现精确的对象选择和识别；

（2）一个LLM控制器 ，用于处理用户的语言命令，促进自然通信；

（3）一个开放世界工具包，集成了各种现成的模型/应用程序，为不同的任务提供多功能平台。

HairCLIP：图像编辑Image Editing(2022，中科大)

Paper：https://arxiv.org/pdf/2112.05142.pdf

Github：https://zhuanlan.zhihu.com/p/480539824

Blog：https://zhuanlan.zhihu.com/p/480539824

文章利用在大规模人脸数据集上预训练的StyleGAN作为的生成器。给定待编辑的真实图像，我们首先使用StyleGAN inversion方法得到其隐编码，然后我们的头发映射器根据隐编码和条件输入（发型条件、发色条件）预测隐编码相应的变化，最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。本质上是通过CLIP输出的embedding来指导图像的生成。