Multi-Concept Customization of Text-to-Image Diffusion # 论文阅读

URL

https://arxiv.org/pdf/2212.04488

TL;DR

2022 年 12 月 CMU + 清华 + adobe 的文章。提出一种基于几张图片做 ip 保持的方法,可以支持多个 ip 出现的同一张图片里面。

Model & Method

框架整体如下图。训练数据除了特定的角色和场景,还额外引入了特定角色/场景相关联的图片,这样做是为了防止 language shift 现象,即所有关联词都生成特定的图片。

训练过程其实没有啥特别的地方,只 finetune 模型中的 cross attn(里面的 K、V),并且特定任务会增加 rare token。

多 ip 保持,给出了两种训练方法:

  • 联合训练:不同的物体给不同的 rare token,其他没有特殊的地方
  • 分别训练然后融合权重

Dataset & Results


Thought

  • 训练引入关联词语的正常图片(非 ip 保持的图片),这个操作可能对单人 ip 保持没啥太大用,但是多人 ip 保持和物体交互应该是好处非常明显的
  • 文章比较早,那时候 lora 和 controlnet 都没有出来,所以花了很大篇幅讲的概念都是后面大家公认的。现在看多人 ip 保持这里没有太多的 highlight,权重融合和联合训练两种方式的优劣待验证。
相关推荐
有Li8 小时前
DACG:用于放射学报告生成的双重注意力和上下文引导模型/文献速递-基于人工智能的医学影像技术
论文阅读·人工智能·文献·医学生
AustinCyy14 小时前
【论文笔记】ADL: A Declarative Language for Agent-Based Chatbots
论文阅读
墨绿色的摆渡人1 天前
论文笔记(一百一十八)One2Any: One-Reference 6D Pose Estimation for Any Object
论文阅读
崔高杰2 天前
【论文阅读笔记】Agent Memory相关文献追踪——异构存储和经验记忆相关
论文阅读·笔记
李加号pluuuus2 天前
【论文阅读】ColorFlow: Retrieval-Augmented Image Sequence Colorization
论文阅读
DuHz2 天前
自动驾驶雷达干扰缓解:探索主动策略论文精读
论文阅读·人工智能·算法·机器学习·自动驾驶·汽车·信号处理
m0_650108242 天前
Alpamayo-R1:打通推理与动作预测,迈向稳健 L4 级自动驾驶
论文阅读·端到端自动驾驶·融合结构化因果推理与车辆控制·长尾场景稳健性·开环轨迹预测·闭环驾驶安全
m0_650108242 天前
Diffusion-Planner:基于扩散模型的自动驾驶灵活引导闭环规划
论文阅读·自动驾驶·扩散模型·联合预测与规划建模·分类器引导机制
StfinnWu3 天前
论文阅读 Deep Residual Learning for Image Recognition
论文阅读·人工智能·深度学习
PeterClerk3 天前
计算机视觉(CV)期刊(按 CCF 推荐目录 A/B/C + 交叉方向整理
论文阅读·图像处理·人工智能·深度学习·搜索引擎·计算机视觉·计算机期刊