ComfyUI 工作流 模型学习笔记1
已经掌握了一些基本原理,结合对AI的理解,可以快速上手工作流,但是对社区模型的组合用途尚无系统的了解,本问对此进行学习梳理,以备查阅;
ComfyUI学习
这个视频 非技术向,很多做法也不是技术人员常用的方法;
### 环境
Comfy官网有一些基础介绍,能下载安装到本地,更详细的去查Github;一些web平台如runninghub和LibLibAI可以在线编辑和运行工作流;
- Python>=3.11,torch>=2.8 (cuda13.0);
- 本地安装提供的可用py环境可在script目录查看(或者自己安装一个);
- 进行必要的kx上网;各种配置就不说了,核心就是给GPU更大的可利用性;
目前是在Autodl上租的RTX5090 32G的GPU服务器;
模型下载:
- 使用迅雷、浏览器迅雷下载支持;
- 访问hf模型主页,copy下载link,使用迅雷下载;(不是很好用)
- 或者把目标工作流支持拖到ComfyUI中,根据缺少模型的提示,右键悬停查看模型地址,使用迅雷下载即可;
hf默认应该是snapshot下载的,国内就去ModelScope上下载(civital、liblib-中国 等);模型入口可以参考ComfyHub上提供的工作流或其他资源去找;
model文件夹
- checkpoint 文生图/图sheng图核心
- clip/clip_vision/text_encoders 模态编码器
- controlnet 提供对图像内容进行控制的各种条件(如边缘 深度 姿势等)
- embeddings 艺术风格控制 是针对提示词的(特定提示词的embeddings化,可以直接在其他提示词中使用)
- loras 个性化控制 可多个串起来用 是针对模型的
- upscale_models 放大模型 增加尺寸保持清晰度
- vae 潜空间latent编、解码器
许多开源模型的提示词 最好用英文(不确定语言的情况下 就用英文);
采样器的参数:控制模型扩散过程;
-
time steps
-
cfg:对提示词的契合程度
-
采样器
-
调度器
-
降噪:0仍是噪声, 1对应完全去噪的过程(改部分图像------设置为0~1之间的值)
反向提示词:你不希望发生的内容;
工作流
AnythingXL_v50.safetensors 文生图
dreamshaper_8.safetensors 图生(改)图
512-inpainting-ema.safetensors 局部重绘
- VAE编码 使用 局部重绘的
VAE编码(局部重绘)节点- 扩展遮罩:在已有遮罩基础上 向外扩充一些像素点 做过渡;
- 加载的图像,右键 点击"Open in MaskEditor | Image Canvas" 打开
遮罩编辑器;涂抹要修改的区域; - 此时降噪值需要设置为1;
512-inpainting-ema.safetensors Outpaint扩图padding
- 使用
外补画板节点,设定四周扩充的像素值,扩充的部分被视为使用了遮罩;外补画板节点可以将遮罩,连接遮罩转换节点,转换为图像,进而使用预览图像节点进行图片预览;
- 再接
VAE编码(局部重绘)节点,做vae图像编码;
4x-ESRGAN.pth 超分图像放大
- 使用
加载放大模型节点作为加载器,连接使用模型放大图像节点 - 这是一个放大4倍的模型;(色彩会变浅)
Latent图像,可以使用
缩放Latent(比例)节点进行简单缩放;
SD1_5/dreamshaper_8.ssafetensors Embedding的使用
- 需要与配套的主扩散模型一起使用;
- 需要用到插件
ComfyUI-Custom-Scripts,这个插件可以让你在文本编码器中输入embedding名称,然后自动使用,安装插件你可以检索"ComfyUI里如何安装Custom Nodes",一般使用ComfyUI-manager就可以安装(可能需要kx)- 此时在
CLIP文本编码节点输入触发词embedding:就可以选择目标embedding,如常用的embedding:SD1.5/easynegative(需要提前下载该embedding对应的pt文件 到模型embeddings 目录),对人物图像生成效果还行;
- 此时在
- 图片扩展 有些模型会对图片大小有限制,需要注意;
- 如果要对比图像生成效果,需要为不同的采样器设置相同的随机种子;
LoRA入门
- SD1.5 DreamShaper V8
- MoXin 画风
SD1.5/MoXinV1.sagetensors - Qingyi 画风
SD1.5/Qingyi.sagetensors
- MoXin 画风
- 主模型 继续接LoRA模型,之后使用和主模型类似
模型分文件夹、类型存放,方便使用;
ControlNet使用
- 是一种基于扩散模型的条件控制生成模型,通过引入多模输入条件(如边缘检测图、深度图、姿势关键点灯),显著提升图像生成的可控制性和细节还原,使用时可以使用多个ControlNet模型,以达到更好的效果;
- 由于ComfyUI Core节点不包含所有相关的预处理器模型,我们可以安装一些自定义节点工具包,以满足不同ControlNet模型的需求,如:
- ComfyUIs ControlNet Auxiliary Preprocessors 插件,Github上介绍了使用
- ComfyUI-Advanced-ControlNet 插件
- 使用
加载ControlNet模型节点- 如模型 control_v11p_sd15_openpose
- 链接
应用ControlNet(旧版高级)节点,进行条件提示控制- 使用
DWPose Estimator节点(需要下载支持模型,到自定义节点目录下的ckpt中),提取图像姿势;作为 应用ControlNet 节点的图像输入;
- 使用
- 主扩散模型 可以使用
majicmixRealistic_v7.safetensors
工作流组标记:按住Ctrl框选,再按Ctrl + g,为组命名;
ControlNet常见控制模型:
| 类型 | 名称 | 说明 |
|---|---|---|
| 线条控制类 | Canny | 通过边缘检测生成精细线稿,适合精准模仿原图结构 |
| MLSD | 仅检测直线,适用于建筑、室内设计等场景 | |
| Lineart | 新一代线稿识别,比Canny更精细,支持动漫线条提取 | |
| SoftEdge | 软边缘检测,优先识别大轮廓线,适合非精准模仿的场景 | |
| Scribble/Sketch | 涂鸦控制,支持粗略轮廓识别或手动绘制草图生成图像 | |
| 深度与结构类 | Depth | 通过亮度区分前后景深关系,白色区域靠前,黑色区域靠后 |
| NormalMap | 法线贴图,控制物体表面凹凸质感 | |
| OpenOpse | 骨架姿势识别,可自动检测或手动编辑人体姿态 | |
| 语义与分割类 | Segmentation | 语义分割,通过颜色对应物品类别生成图像 |
| Inpaint/局部重绘 | 局部修改图像,保持与原图风格一致 | |
| 风格与色彩类 | Shuffle | 随机洗牌,打乱参考图语义元素生成多样性画面 |
| Recolor | 黑白图片重新上色,支持自动或提示词定义颜色 | |
| IP-Adapter | 风格/人脸模仿,保持生成图像的一致性 | |
| 功能扩展类 | InstructP2P | 通过文本指令修改图片(如让房子着火) |
| Instant_ID | AI换脸,保持人脸一致性并支持多图融合 | |
| Tile/Blur | 模糊图片高清化与细节增强 |
OpenClaw小龙虾 配置本地大模型的推理部署:
- 本地部署 大模型框架:Ollama、oMLX(苹果),在Ollama官网可以去找到并下载大模型到本地;
- 本地配置Ollama 启动 小龙虾 接飞书
- 小龙虾聊天
/new下窗口; - 调用ComfyUI
- 本地安装ComfyUI
- 龙虾中安装技能包:
openclaw-comfyui-imagegenerate
- 最终在飞书聊天窗口 链接龙虾 调用ComfyUI完成生图,并返回;
Wan2.2 Animate ComfyUI 角色替换工作流演示:
-
动画转视频
-
模型:
- diffusion_models
- Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KL.safetensors 40系及以上显卡使用e4m3fn
- wan2.2_animate_14B_bf16.safetensors
- clip_visions
- clip_vision_h.safetensors
- loras
- lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors 一个4步加速lora
- WanAnimate_relight_lora_fp16.safetensors
- vae
- wan_2.1_vae.safetensors
- text_encoders:
- umt5_xxl_fp8_e4m3fn_scaled.safetensors
- diffusion_models
-
核心节点
WanAnimateToVideo,再接K采样器节点、TrimVideoLatent节点、VAE Decode、Get Image from Batch、Batch Images拼接、Video Combine;
模型采样位移 shift 节点,进行模型转换;Add SetNode起一个命名节点,方便模型的使用;
演示内容还是有些不太熟,链接放这以便回顾
RunningHub Nodes /comfyui-nodes节点索引,方便查阅;
多角色替换工作流:
- 一个角色 一个角色 替换视频中的人物;
- 需要用到姿态pose检测,物体yolo检测,SAM3 Track To Mask遮罩 检测、Grow Mask精细遮罩、Blockify Mask像素遮罩
- pose and face detection 只能检测1个 需要结合遮罩使用
- invert mask 遮罩反转
- draw mask on image 对图片使用遮罩
很好的教学演示;我之前确实不知道复杂工作流原来是这么做出来的。。。
和Wan Animate类似的其他模型方案:MusePose、MimicMotion、Wav Vace