【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究

系列文章目录


文章目录


前言

上一篇文章提到可以从两个分支来看 Stable Diffusion [1](#1),其中:

  • 重建分支(reconstruction)负责从噪声中逐步重建出清晰的图像。
  • 条件分支(condition)则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。

从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。

一、IP-Adapter

IP-Adapter [2](#2) 则可以看为很好地引入了图像 condition 来引导去噪过程,其核心部分是有效地将图像与文字条件信息通过 Decouple Cross-Attention 来注入 U-Net。

二、InstantID

InstantID[3](#3) 在 IP-Adapter 的基础上(condition1 从一般的 image encoder 换成了针对 face 的 encoder),多训练了一个 U-Net 的一半(即 ControlNet),并在其中加入了人脸的 landmark 来很好地约束 FaceID 信息,提升了生成时的人脸可控性。

三、MimicBrush

MimicBrush [4](#4) 类似 InstantID,增加了一个 Reference Un-Net 作为条件分支来引入控制条件,而 MimicBrush 与 IP-Adapter、InstantID 的不同点在于:

  • MimicBrush 的重建分支中,是从图像输入(Source Image)来进行重建,即先加噪、再去噪的。
  • 而 IP-Adapter、InstantID 的重建分支中,是直接输入 noise 随机噪声,通过 U-Net 对其进行去噪声的。

总结

有了以上多篇论文架构图的例子,应该能很快识别各种基于 IP-Adapter 的可控生成工作啦!🎉


  1. High-Resolution Image Synthesis with Latent Diffusion Models ↩︎

  2. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models ↩︎

  3. InstantID: Zero-shot Identity-Preserving Generation in Seconds ↩︎

  4. Zero-shot Image Editing with Reference Imitation ↩︎

相关推荐
weixin_4374977743 分钟前
读书笔记:Context Engineering 2.0 (上)
人工智能·nlp
cnxy1881 小时前
围棋对弈Python程序开发完整指南:步骤1 - 棋盘基础框架搭建
开发语言·python
喝拿铁写前端1 小时前
前端开发者使用 AI 的能力层级——从表面使用到工程化能力的真正分水岭
前端·人工智能·程序员
goodfat1 小时前
Win11如何关闭自动更新 Win11暂停系统更新的设置方法【教程】
人工智能·禁止windows更新·win11优化工具
北京领雁科技1 小时前
领雁科技反洗钱案例白皮书暨人工智能在反洗钱系统中的深度应用
人工智能·科技·安全
落叶,听雪1 小时前
河南建站系统哪个好
大数据·人工智能·python
清月电子1 小时前
杰理AC109N系列AC1082 AC1074 AC1090 芯片停产替代及资料说明
人工智能·单片机·嵌入式硬件·物联网
Dev7z1 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
七月shi人2 小时前
AI浪潮下,前端路在何方
前端·人工智能·ai编程
橙汁味的风2 小时前
1隐马尔科夫模型HMM与条件随机场CRF
人工智能·深度学习·机器学习