ControlNet on Stable Diffusion

ControlNet on Stable Diffusion

笔记来源:

1.Adding Conditional Control to Text-to-Image Diffusion Models

2.How to Use OpenPose & ControlNet in Stable Diffusion

3.ControlNet与DreamBooth:生成模型的精细控制与主体保持

4.Introduction to ControlNet for Stable Diffusion

5.Stable Diffusion --- ControlNet Clearly Explained!

6.Talented Mr. 1X1: Comprehensive look at 1X1 Convolution in Deep Learning

7.ControlNet-modules-safetensors

下图由笔者参考其他内容整理而成,仅做学习使用

下图中上半部分就是Stable Diffusion的反向扩散过程,下半部分为ControlNet部分,Stable Diffusion的参数frozen,我们只训练ControlNet

condition部分要将图片使用preprocessor(openpose、normalmap、canny)预处理完成后,再用相应网络对其处理,处理结果为符合contronet所能接收的大小的feature map(本质为tensors)

左侧为Stable Diffusion,右侧为ControlNet

Controlnet前半部分直接copy SD Encoder和 Bottleneck 部分,后半部分用zero conv(1×1 conv layer)作解码(上采样)

为了能够让 condition 部分对模型的影响变大,论文中对prompt的组成进行了修改,将原有全部为文字的prompt,修改为一半prompt,一半空字符串

由于zero conv部分初始weight和bias为0,也就是说第一次训练过程,不会对copy来的SD Encoder和 Bottleneck 部分产生任何影响,只有当controlnet进行反向传播时,才会更新参数,这时就会更新SD Encoder和 Bottleneck 部分的参数

笔者个人理解
笔者之前关于SD的文章也提到一张图片对应一个概率分布,SD就是在计算估计关于所有输入图片的一个总的概率分布,这个概率分布如果接近真实概率分布(全世界所有图片的概率分布)生成的图片也就质量越高。SD如果有外来输入(这里的controlnet部分)就会对这个估计的分布有影响,当我们从这个大的概率分布中进行采样时就得到了某张图片(大的概率分布中的某个点)这个图片是在经过外来输入影响的大的概率分布中采样的,也就会符合外来输入的一些特性

了解了大致的原理,我们本地部署看看效果

stable diffusion webui + ControlNet (Extension)部署的过程在网络上相关内容很多,这里就不再展示

下图为ControlNet各个参数的简要说明

下图以Openpose为例,我们首先上传一张原图,随后对一张原图使用preprocessor(这里为openpose_full)进行处理,紧接着使用controlnet_v11将其编码为tensors用于给controlnet输入,点击openpose后的小火花生成人体姿势的估计并形成预览图,最后我们给SD输入prompt和negative prompt,SD就会根据人体姿势估计图和我们提供的文本生成相应姿势的其他人物(文本描述的)

关于如何描写prompt和negative prompt,我们请gpt给出提示


相关推荐
这是一个懒人3 小时前
mac 快速安装stable diffusion webui
macos·stable diffusion
璇转的鱼11 小时前
Stable Diffusion进阶之Controlnet插件使用
人工智能·ai作画·stable diffusion·aigc·ai绘画
AloneCat20122 天前
stable Diffusion模型结构
stable diffusion
西西弗Sisyphus2 天前
Stable Diffusion XL 文生图
stable diffusion
霍志杰3 天前
stable-diffusion windows本地部署
windows·stable diffusion
昨日之日20063 天前
ACE-Step - 20秒生成4分钟完整歌曲,音乐界的Stable Diffusion,支持50系显卡 本地一键整合包下载
计算机视觉·stable diffusion·音视频
白熊1883 天前
【图像大模型】Stable Diffusion Web UI:深度解析与实战指南
ui·stable diffusion
西西弗Sisyphus5 天前
基于Stable Diffusion XL模型进行文本生成图像的训练
stable diffusion
阿维的博客日记5 天前
VAE和Stable Diffusion的关系
stable diffusion·vae
我算是程序猿6 天前
【2025最新】AI绘画终极提示词库|Midjourney&Stable Diffusion通用公式大全
人工智能·ai作画·stable diffusion·aigc·midjourney