学习日记39：GLIGEN

摘要：

GLIGEN 是面向开放集定位式文生图 的创新方法，基于冻结权重的预训练 latent diffusion 模型 构建，通过门控自注意力机制 新增可训练层注入边界框、关键点、深度图 等多模态定位条件，在完全保留原模型概念知识的前提下实现精准空间可控生成；

介绍：

虽然现在文生图模型取得了很大的进步，但现存的大规模文本-图像生成模型不能以文本以外的其他输入形式为条件，因此缺乏精确定位概念、使用参考图像或其他条件输入来控制生成过程的能力。当前的输入，即自然语言本身，限制了信息的表达方式。例如，很难使用文本来描述对象的精确位置，而如果使用边界框/关键点等就可以很容易地实现这一点。

此外，先前的生成模型都是在特定任务的数据集上独立训练的，但在图像识别领域，使用大规模数据集预训练已经成为经典做法。文章想借鉴这种做法，在已经训练好的扩散模型上进行续训，赋予他们新的输入。

于是，本文的方法被提出，在保留文本标题作为输入之外，也支持其他输入模式如：边界框，参考图像关键点等。为了保留已经训练好的扩散模型已有的知识，作者选择冻结原始模型权重，并添加新的可训练门控Transformer层，这些层接收新的输入。

Open-set Grounded Image Generation

作者保留了扩散模型的文本编码器，保证开集，没训练过的也能生成。文本编码器除了对基础实体的语义信息编码外，还会对后加入的信息进行编码。

其中，c代表基础实体的语义信息，e代表所有要定位的物体列表，其中的e1--eN是物体描述，l代表该物体的位置信息。组合成为模型输入的文本信息。e中位置信息的处理方式为边界框坐标做傅里叶编码；

模型的损失函数变化不大，总体宗旨是**：让模型（原模型不动，只训新加的定位层），根据'文本 + 定位信息'，预测出和真实噪声几乎一样的噪声，这样生成的图片又准又清晰，** 其中所有新参数表示为θ'。

Continual Learning for Grounded Generation

为了保留模型已有的知识，在不调整模型已有权重的基础上，在两层注意力机制之间加入一个新的门控Transformer层。

原本的模型结果如公式6，7；现加入新的一层，具体实现如公式8，其中TS是仅考虑视觉token的token选择操作，而γ是初始化为0的可学习标量。在整个训练过程中，β被设置为1，并且仅在推理期间的计划抽样时改变，也就是在这个阶段，额外加入的文本和位置信息被注入模型：

计划抽样就是为了解决定位准但画质差问题，让模型分两段生成，第一阶段β设为1，让物体的位置信息与文本信息被模型接收，让模型定位并确定物体的信息；定位结束之后，β设为0，让模型退化为原本的扩散模型，让模型画得更精细；

实验：

闭集文生图

开集文生图

计划抽样的作用（τ=1时不启用）