论文笔记:Multi-Concept Customization of Text-to-Image Diffusion

0 概述

论文:Multi-Concept Customization of Text-to-Image Diffusion

源代码和数据:https://www.cs.cmu.edu/~custom-diffusion/

当生成模型生成从大规模数据库中学习的概念的高质量图像时,用户通常希望合成他们自己的概念的实例(例如,他们的家庭,宠物或物品)。我们能教一个模型快速掌握一个新概念吗,给出几个例子?此外,我们能否将多个新概念组合在一起?

我们提出自定义扩散,一种有效的方法来增强现有的文本到图像模型。我们发现,仅优化文本到图像调节机制中的几个参数就足以强大地表示新概念,同时实现快速调优。此外,我们可以对多个概念进行联合训练,或者通过封闭式约束优化将多个微调模型组合成一个模型。我们的微调模型在新的未知环境中产生多种新概念的变化。

我们的方法速度很快(在2个A100 GPU上约6分钟),并且除了预训练模型之外,每个额外的概念模型的存储需求很低(75MB)。通过只保存权重更新的低秩近似值,可以进一步压缩到5 - 15 MB。

1 CustomConcept101数据集

我们还引入了一个包含101个概念的新数据集,用于评估模型定制方法,以及单概念和多概念组合的文本提示。有关更多细节和结果,请参阅数据集网页(https://www.cs.cmu.edu/~custom-diffusion/dataset.html)和代码(https://github.com/adobe-research/custom-diffusion/tree/main/customconcept101)。

2 管道

给定一组目标图像,我们的方法首先检索(生成)具有与目标图像相似标题的正则化图像。最终的训练数据集是目标图像和正则化图像的并集。在微调过程中,我们使用标准扩散训练损失来更新扩散模型中交叉注意块的键和值投影矩阵。我们所有的实验都是基于稳定扩散。

3 单一概念的结果

我们展示了我们的微调方法在各种类别的新/个性化概念上的结果,包括场景、风格、宠物、个人玩具和物体。有关更多的代和与并发方法的比较,请参阅我们的图库页面。

4 多概念融合的结果

在多概念微调中,我们展示了场景或物体与宠物的组合,以及两个物体的组合。有关更多的生成和并发方法的比较,请参阅我们的图库页面。

5 与同期作品的样本定性比较

下图显示了我们的方法与DreamBooth和text Inversion在单概念微调上的定性比较。DreamBooth对扩散模型中的所有参数进行微调,保持文本转换器冻结,并使用生成的图像作为正则化数据集。文本反转仅为每个概念优化一个新的单词嵌入标记。有关完整的文本提示评估集的更多示例生成,请参阅图库页面。

通过我们的(联合)训练方法、我们的基于优化的方法和DreamBooth对多概念进行样本生成。有关完整的文本提示评估集的更多示例,请参阅图库页面。

相关推荐
云霄星乖乖的果冻18 小时前
【文献阅读:RobustRAG】Certifiably Robust RAG against Retrieval Corruption
论文阅读
m0_6501082421 小时前
DreamZero:基于世界行动模型的零样本机器人策略
论文阅读·机器人·vla·世界动作模型·预训练视频扩散模型
白白白飘1 天前
【论文阅读】加密流量-ETool-林欣杰熊刚-TIFS2025
论文阅读·加密流量
传说故事1 天前
【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models
论文阅读·人工智能·具身智能·rl
做cv的小昊2 天前
结合代码读3DGS论文(10)——ICLR 2025 3DGS加速&压缩新工作Sort-Free 3DGS论文及代码解读
论文阅读·人工智能·游戏·计算机视觉·3d·图形渲染·3dgs
QFIUNE2 天前
【文献阅读】MINT:让AI“学会”蛋白质对话的语言,开启相互作用预测新时代
论文阅读
智算菩萨2 天前
AI原生6G网络:语义通信、可重构智能表面与边缘智能的深度融合研究
网络·论文阅读·人工智能·ai·重构·论文笔记·ai-native
诸神缄默不语2 天前
论文阅读笔记:AI编程用的AGENTS.md应该不写或少写
论文阅读·笔记·ai编程
王上上2 天前
【论文阅读103】pinn-review-科学机器学习中的物理信息神经网络:现状与展望
论文阅读·神经网络·机器学习
白白白飘2 天前
【论文阅读】加密流量-FECOSL-TIFS2026-CCFA
论文阅读·加密流量