学习日记39:GLIGEN

摘要:

GLIGEN 是面向开放集定位式文生图 的创新方法,基于冻结权重的预训练 latent diffusion 模型 构建,通过门控自注意力机制 新增可训练层注入边界框、关键点、深度图 等多模态定位条件,在完全保留原模型概念知识的前提下实现精准空间可控生成;

介绍:

虽然现在文生图模型取得了很大的进步,但现存的大规模文本-图像生成模型不能以文本以外的其他输入形式为条件,因此缺乏精确定位概念、使用参考图像或其他条件输入来控制生成过程的能力。当前的输入,即自然语言本身,限制了信息的表达方式。例如,很难使用文本来描述对象的精确位置,而如果使用边界框/关键点等就可以很容易地实现这一点。

此外,先前的生成模型都是在特定任务的数据集上独立训练的,但在图像识别领域,使用大规模数据集预训练已经成为经典做法。文章想借鉴这种做法,在已经训练好的扩散模型上进行续训,赋予他们新的输入。

于是,本文的方法被提出,在保留文本标题作为输入之外,也支持其他输入模式如:边界框,参考图像关键点等。为了保留已经训练好的扩散模型已有的知识,作者选择冻结原始模型权重,并添加新的可训练门控Transformer层,这些层接收新的输入。

Open-set Grounded Image Generation

作者保留了扩散模型的文本编码器,保证开集,没训练过的也能生成。文本编码器除了对基础实体的语义信息编码外,还会对后加入的信息进行编码。

其中,c代表基础实体的语义信息,e代表所有要定位的物体列表,其中的e1--eN是物体描述,l代表该物体的位置信息。组合成为模型输入的文本信息。e中位置信息的处理方式为边界框坐标做傅里叶编码;

模型的损失函数变化不大,总体宗旨是**:让模型(原模型不动,只训新加的定位层),根据'文本 + 定位信息',预测出和真实噪声几乎一样的噪声,这样生成的图片又准又清晰,** 其中所有新参数表示为θ'

Continual Learning for Grounded Generation

为了保留模型已有的知识,在不调整模型已有权重的基础上,在两层注意力机制之间加入一个新的门控Transformer层。

原本的模型结果如公式6,7;现加入新的一层,具体实现如公式8,其中TS是仅考虑视觉token的token选择操作,而γ是初始化为0的可学习标量。在整个训练过程中,β被设置为1,并且仅在推理期间的计划抽样时改变,也就是在这个阶段,额外加入的文本和位置信息被注入模型:

计划抽样就是为了解决定位准但画质差问题,让模型分两段生成,第一阶段β设为1,让物体的位置信息与文本信息被模型接收,让模型定位并确定物体的信息;定位结束之后,β设为0,让模型退化为原本的扩散模型,让模型画得更精细;

实验:

闭集文生图

开集文生图

计划抽样的作用(τ=1时不启用)

相关推荐
红尘散仙28 分钟前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗29 分钟前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston33 分钟前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz36 分钟前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家36 分钟前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰1 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8281 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成
litble2 小时前
如何速成LLM以伪装成一个AI研究者(6)——LoRA,Adapter,P-tuning,量化,QLoRA
人工智能·lora·量化·peft·qlora·高效微调
开发者每周简报2 小时前
网海三部曲·无名宗师传
javascript·人工智能
卷毛的技术笔记2 小时前
告别硬编码!Spring AI Alibaba 实现 AI Agent 智能工具调用(Tool Calling)
java·人工智能·后端·python·spring·ai编程