【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究

系列文章目录


文章目录


前言

上一篇文章提到可以从两个分支来看 Stable Diffusion [1](#1),其中:

  • 重建分支(reconstruction)负责从噪声中逐步重建出清晰的图像。
  • 条件分支(condition)则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。

从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。

一、IP-Adapter

IP-Adapter [2](#2) 则可以看为很好地引入了图像 condition 来引导去噪过程,其核心部分是有效地将图像与文字条件信息通过 Decouple Cross-Attention 来注入 U-Net。

二、InstantID

InstantID[3](#3) 在 IP-Adapter 的基础上(condition1 从一般的 image encoder 换成了针对 face 的 encoder),多训练了一个 U-Net 的一半(即 ControlNet),并在其中加入了人脸的 landmark 来很好地约束 FaceID 信息,提升了生成时的人脸可控性。

三、MimicBrush

MimicBrush [4](#4) 类似 InstantID,增加了一个 Reference Un-Net 作为条件分支来引入控制条件,而 MimicBrush 与 IP-Adapter、InstantID 的不同点在于:

  • MimicBrush 的重建分支中,是从图像输入(Source Image)来进行重建,即先加噪、再去噪的。
  • 而 IP-Adapter、InstantID 的重建分支中,是直接输入 noise 随机噪声,通过 U-Net 对其进行去噪声的。

总结

有了以上多篇论文架构图的例子,应该能很快识别各种基于 IP-Adapter 的可控生成工作啦!🎉


  1. High-Resolution Image Synthesis with Latent Diffusion Models ↩︎

  2. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models ↩︎

  3. InstantID: Zero-shot Identity-Preserving Generation in Seconds ↩︎

  4. Zero-shot Image Editing with Reference Imitation ↩︎

相关推荐
___波子 Pro Max.10 小时前
Python参数解析默认True变False
python
逐鹿人生10 小时前
【人工智能工程师系列】一【全面Python3.8入门+进阶】ch.3
人工智能
橙露10 小时前
面向对象编程思想:Java 与 Python 的封装、继承与多态对比分析
java·开发语言·python
Jia ming10 小时前
《智能法官软件项目》—法条检索模块
python·教学·案例·智能法官软件
杨浦老苏10 小时前
本地优先的AI个人助手Moltis
人工智能·docker·ai·群晖
OBS插件网10 小时前
OBS直播如何给人脸加口罩特效?OBS口罩特效插件下载安装教程
人工智能·数码相机·语音识别·产品经理
盛夏光年爱学习10 小时前
浅谈Agent上下文工程
aigc
LitchiCheng10 小时前
Mujoco 如何添加 Apriltag 并获得相机视野进行识别
人工智能·python·开源
想用offer打牌10 小时前
一站式了解Agent Skills
人工智能·后端·ai编程
一切尽在,你来10 小时前
LangGraph快速入门
人工智能·python·langchain·ai编程