comfyUI-ControlNet-姿势控制&深度控制

一个较免费的获取大量高质量真实人物素材的网站

1.基础工作流

最基本的5个节点：Checkpoint、CLIP、K采样器、VAE解码、空Latent

openppse主要控制人物骨骼和面部表情。

此处同样使用到webUI中使用过的DWpose：SD-细节控制-CSDN博客

在webUI中使用效果

加载openpose类型的ControlNet模型，实现姿势的融合。

如果图片分辨率过高，可以取消获取原图大小节点的使用，将已经转换为输入的宽高度，重新转换为组件，自行输入数据。

下图就是由于lz原有图片分辨率过高，导致生成图片出现异常。

使用DW姿态预处理器节点。从图像中提取人体姿态关键点（骨骼关节点）

BBox（边界框）检测中的模型为均为目标检测模型（Object Detection Models），专门用于在图像中识别并定位物体（如人体、车辆等），生成边界框（Bounding Box，简称BBox）。

文件格式后缀说明

姿态预估处

建议使用dw-ll_ucoco_384_bs5.torchscript。

在更改图片分辨率，将生成图片的分辨率改为模型训练时的分辨率后，图像即能参考原图姿势实现风格的转绘。如果提示词过多。可能会导致动作参考不够准确，可以通过修改ControlNet中的强度提升生图对姿态的参考。

通过获取原始图片画面中各独立要素与照相机之间的距离关系，和openpose的节点布局一致，只需要将ControlNet加载的模型更换为depth类型的模型，同时使用Zoe深度预处理器对参考图片进行处理即可。

由于更换场景类图片并修改提示词后，生成的图片效果会比原来好很多。

图左图为经过Zoe处理过后的黑白图，图中越亮的部分代表该部分离摄像机越近，该方法适合运用在对场景建筑的风格进行转换上。

目前已经使用过controlNet中的

lineart------线稿提取，softedge------软边缘，openpose------人物姿态提取，depth------景深

各个节点的工作流的搭建方法大致相同。

模型之间的匹配真的很伤脑，lz考虑整理模型关系了。。。