Multi-Concept Customization of Text-to-Image Diffusion # 论文阅读

URL

https://arxiv.org/pdf/2212.04488

TL;DR

2022 年 12 月 CMU + 清华 + adobe 的文章。提出一种基于几张图片做 ip 保持的方法,可以支持多个 ip 出现的同一张图片里面。

Model & Method

框架整体如下图。训练数据除了特定的角色和场景,还额外引入了特定角色/场景相关联的图片,这样做是为了防止 language shift 现象,即所有关联词都生成特定的图片。

训练过程其实没有啥特别的地方,只 finetune 模型中的 cross attn(里面的 K、V),并且特定任务会增加 rare token。

多 ip 保持,给出了两种训练方法:

  • 联合训练:不同的物体给不同的 rare token,其他没有特殊的地方
  • 分别训练然后融合权重

Dataset & Results


Thought

  • 训练引入关联词语的正常图片(非 ip 保持的图片),这个操作可能对单人 ip 保持没啥太大用,但是多人 ip 保持和物体交互应该是好处非常明显的
  • 文章比较早,那时候 lora 和 controlnet 都没有出来,所以花了很大篇幅讲的概念都是后面大家公认的。现在看多人 ip 保持这里没有太多的 highlight,权重融合和联合训练两种方式的优劣待验证。
相关推荐
明明真系叻19 小时前
2025.12.6 论文阅读
论文阅读
aaaa_a1331 天前
Attention is all you need——论文笔记
论文阅读
张较瘦_2 天前
[论文阅读] AI + 软件工程 | GenAI 赋能自适应系统:从技术突破到研究蓝图,一文看懂核心价值与挑战
论文阅读·人工智能·软件工程
张较瘦_2 天前
[论文阅读] 软件工程 - 供应链 | 从Log4Shell到Go组件漏洞:一篇文看懂开源依赖安全的核心痛点与解决方案
论文阅读·golang·开源
有Li2 天前
一种交互式可解释人工智能方法,用于改进数字细胞病理学癌症亚型分类中的人机协作|文献速递-文献分享
大数据·论文阅读·人工智能·文献
iiiiii112 天前
【论文阅读笔记】FOCAL 离线元强化学习,从静态数据中快速适应新任务
论文阅读·人工智能·笔记·学习·机器学习·学习方法·具身智能
川川子溢2 天前
【论文阅读】SegEarth-OV:面向遥感图像的免训练开放词汇分割
论文阅读
m0_650108242 天前
BEVFormer:基于时空 Transformer 的多相机鸟瞰图表征学习
论文阅读·自动驾驶·相机-based 3d感知·bev表征·时空信息融合·端到端感知·bevformer
sca1p313 天前
新南威尔士大学 LiM
论文阅读·人工智能·加密流量分类
m0_650108243 天前
Lift, Splat, Shoot:自动驾驶多视图相机的 BEV 语义表示学习
论文阅读·自动驾驶·数据驱动·lss·纯视觉bev感知·bev 语义分割·可解释的端到端轨迹规划