ComfyUI 工作流 模型学习笔记1

ComfyUI 工作流 模型学习笔记1

已经掌握了一些基本原理,结合对AI的理解,可以快速上手工作流,但是对社区模型的组合用途尚无系统的了解,本问对此进行学习梳理,以备查阅;

ComfyUI学习

这个视频 非技术向,很多做法也不是技术人员常用的方法;

### 环境

Comfy官网有一些基础介绍,能下载安装到本地,更详细的去查Github;一些web平台如runninghub和LibLibAI可以在线编辑和运行工作流;

  • Python>=3.11,torch>=2.8 (cuda13.0);
  • 本地安装提供的可用py环境可在script目录查看(或者自己安装一个);
  • 进行必要的kx上网;各种配置就不说了,核心就是给GPU更大的可利用性;

目前是在Autodl上租的RTX5090 32G的GPU服务器;

模型下载:

  • 使用迅雷、浏览器迅雷下载支持;
  • 访问hf模型主页,copy下载link,使用迅雷下载;(不是很好用)
  • 或者把目标工作流支持拖到ComfyUI中,根据缺少模型的提示,右键悬停查看模型地址,使用迅雷下载即可;

hf默认应该是snapshot下载的,国内就去ModelScope上下载(civital、liblib-中国 等);模型入口可以参考ComfyHub上提供的工作流或其他资源去找;

model文件夹

  • checkpoint 文生图/图sheng图核心
  • clip/clip_vision/text_encoders 模态编码器
  • controlnet 提供对图像内容进行控制的各种条件(如边缘 深度 姿势等)
  • embeddings 艺术风格控制 是针对提示词的(特定提示词的embeddings化,可以直接在其他提示词中使用)
  • loras 个性化控制 可多个串起来用 是针对模型的
  • upscale_models 放大模型 增加尺寸保持清晰度
  • vae 潜空间latent编、解码器

许多开源模型的提示词 最好用英文(不确定语言的情况下 就用英文);

采样器的参数:控制模型扩散过程;

  • time steps

  • cfg:对提示词的契合程度

  • 采样器

  • 调度器

  • 降噪:0仍是噪声, 1对应完全去噪的过程(改部分图像------设置为0~1之间的值)

反向提示词:你不希望发生的内容;

工作流

AnythingXL_v50.safetensors 文生图

dreamshaper_8.safetensors 图生(改)图

512-inpainting-ema.safetensors 局部重绘

  • VAE编码 使用 局部重绘的 VAE编码(局部重绘)节点
    • 扩展遮罩:在已有遮罩基础上 向外扩充一些像素点 做过渡;
  • 加载的图像,右键 点击"Open in MaskEditor | Image Canvas" 打开遮罩编辑器;涂抹要修改的区域;
  • 此时降噪值需要设置为1;

512-inpainting-ema.safetensors Outpaint扩图padding

  • 使用外补画板节点,设定四周扩充的像素值,扩充的部分被视为使用了遮罩;
    • 外补画板节点可以将遮罩,连接遮罩转换节点,转换为图像,进而使用预览图像节点进行图片预览;
  • 再接VAE编码(局部重绘)节点,做vae图像编码;

4x-ESRGAN.pth 超分图像放大

  • 使用加载放大模型节点作为加载器,连接使用模型放大图像节点
  • 这是一个放大4倍的模型;(色彩会变浅)

Latent图像,可以使用 缩放Latent(比例)节点进行简单缩放;

SD1_5/dreamshaper_8.ssafetensors Embedding的使用

  • 需要与配套的主扩散模型一起使用;
  • 需要用到插件ComfyUI-Custom-Scripts,这个插件可以让你在文本编码器中输入embedding名称,然后自动使用,安装插件你可以检索"ComfyUI里如何安装Custom Nodes",一般使用ComfyUI-manager就可以安装(可能需要kx)
    • 此时在CLIP文本编码节点输入触发词embedding:就可以选择目标embedding,如常用的embedding:SD1.5/easynegative(需要提前下载该embedding对应的pt文件 到模型embeddings 目录),对人物图像生成效果还行;
  • 图片扩展 有些模型会对图片大小有限制,需要注意;
  • 如果要对比图像生成效果,需要为不同的采样器设置相同的随机种子;

LoRA入门

  • SD1.5 DreamShaper V8
    • MoXin 画风 SD1.5/MoXinV1.sagetensors
    • Qingyi 画风 SD1.5/Qingyi.sagetensors
  • 主模型 继续接LoRA模型,之后使用和主模型类似

模型分文件夹、类型存放,方便使用;

ControlNet使用

  • 是一种基于扩散模型的条件控制生成模型,通过引入多模输入条件(如边缘检测图、深度图、姿势关键点灯),显著提升图像生成的可控制性和细节还原,使用时可以使用多个ControlNet模型,以达到更好的效果;
  • 由于ComfyUI Core节点不包含所有相关的预处理器模型,我们可以安装一些自定义节点工具包,以满足不同ControlNet模型的需求,如:
    • ComfyUIs ControlNet Auxiliary Preprocessors 插件,Github上介绍了使用
    • ComfyUI-Advanced-ControlNet 插件
  • 使用加载ControlNet模型节点
    • 如模型 control_v11p_sd15_openpose
    • 链接应用ControlNet(旧版高级)节点,进行条件提示控制
      • 使用DWPose Estimator节点(需要下载支持模型,到自定义节点目录下的ckpt中),提取图像姿势;作为 应用ControlNet 节点的图像输入;
  • 主扩散模型 可以使用 majicmixRealistic_v7.safetensors

工作流组标记:按住Ctrl框选,再按Ctrl + g,为组命名;

ControlNet常见控制模型:

类型 名称 说明
线条控制类 Canny 通过边缘检测生成精细线稿,适合精准模仿原图结构
MLSD 仅检测直线,适用于建筑、室内设计等场景
Lineart 新一代线稿识别,比Canny更精细,支持动漫线条提取
SoftEdge 软边缘检测,优先识别大轮廓线,适合非精准模仿的场景
Scribble/Sketch 涂鸦控制,支持粗略轮廓识别或手动绘制草图生成图像
深度与结构类 Depth 通过亮度区分前后景深关系,白色区域靠前,黑色区域靠后
NormalMap 法线贴图,控制物体表面凹凸质感
OpenOpse 骨架姿势识别,可自动检测或手动编辑人体姿态
语义与分割类 Segmentation 语义分割,通过颜色对应物品类别生成图像
Inpaint/局部重绘 局部修改图像,保持与原图风格一致
风格与色彩类 Shuffle 随机洗牌,打乱参考图语义元素生成多样性画面
Recolor 黑白图片重新上色,支持自动或提示词定义颜色
IP-Adapter 风格/人脸模仿,保持生成图像的一致性
功能扩展类 InstructP2P 通过文本指令修改图片(如让房子着火)
Instant_ID AI换脸,保持人脸一致性并支持多图融合
Tile/Blur 模糊图片高清化与细节增强

OpenClaw小龙虾 配置本地大模型的推理部署:

  • 本地部署 大模型框架:Ollama、oMLX(苹果),在Ollama官网可以去找到并下载大模型到本地;
  • 本地配置Ollama 启动 小龙虾 接飞书
  • 小龙虾聊天 /new下窗口;
  • 调用ComfyUI
    • 本地安装ComfyUI
    • 龙虾中安装技能包:openclaw-comfyui-imagegenerate
  • 最终在飞书聊天窗口 链接龙虾 调用ComfyUI完成生图,并返回;

Wan2.2 Animate ComfyUI 角色替换工作流演示:

  • 动画转视频

  • 模型:

    • diffusion_models
      • Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KL.safetensors 40系及以上显卡使用e4m3fn
      • wan2.2_animate_14B_bf16.safetensors
    • clip_visions
      • clip_vision_h.safetensors
    • loras
      • lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors 一个4步加速lora
      • WanAnimate_relight_lora_fp16.safetensors
    • vae
      • wan_2.1_vae.safetensors
    • text_encoders:
      • umt5_xxl_fp8_e4m3fn_scaled.safetensors
  • 核心节点WanAnimateToVideo,再接K采样器节点、TrimVideoLatent节点、VAE Decode、Get Image from Batch、Batch Images拼接、Video Combine;

模型采样位移 shift 节点,进行模型转换;Add SetNode起一个命名节点,方便模型的使用;

演示内容还是有些不太熟,链接放这以便回顾

RunningHub Nodes /comfyui-nodes节点索引,方便查阅;

多角色替换工作流:

  • 一个角色 一个角色 替换视频中的人物;
  • 需要用到姿态pose检测,物体yolo检测,SAM3 Track To Mask遮罩 检测、Grow Mask精细遮罩、Blockify Mask像素遮罩
    • pose and face detection 只能检测1个 需要结合遮罩使用
    • invert mask 遮罩反转
    • draw mask on image 对图片使用遮罩

很好的教学演示;我之前确实不知道复杂工作流原来是这么做出来的。。。

和Wan Animate类似的其他模型方案:MusePose、MimicMotion、Wav Vace

相关推荐
AOwhisky17 小时前
Redis 学习笔记(第三期):持久化与主从复制
运维·数据库·redis·笔记·学习·云计算
问心无愧051317 小时前
ctf show web入门160 161
前端·笔记
Tbisnic18 小时前
AI大模型学习第十一天:技术选型、安全防护与金融实战
python·学习·ai·大模型·提示词工程
xmtxz19 小时前
计算机网络基础课程学习心得:从理论抽象到硬核实战的进阶之路
运维·学习
YM52e21 小时前
男孩子在外自我保护指南——用鸿蒙 ArkTS 构建交互式安全教育应用
学习·安全·华为·harmonyos·鸿蒙·鸿蒙系统
aXin_ya21 小时前
Ai Vibecoding学习(各个AI的讲解)
学习
乘~风1 天前
408考研-计组-1.2计算机系统层次结构笔记+1.3计算机性能指标
笔记·考研·408
fanged1 天前
Linux内核学习16--I2C子系统(TODO)
学习
.千余1 天前
【C++】C++继承入门(下):友元、静态成员与菱形继承的底层逻辑
开发语言·c++·笔记·学习·其他
YJlio1 天前
《Sysinternals实战指南》16.5 Ctrl2Cap 工具详解:把 Caps Lock 变成 Ctrl 的键盘改造与回退方法
linux·运维·服务器·网络·python·学习·计算机外设