ComfyUi

一、ComfyUI 是什么?

ComfyUI 是一个基于节点(Node/Graph)界面Stable Diffusion 及多模态生成模型工作流系统 ,支持图像、视频、音频、3D 等多种 AI 模型。

它以高度模块化、可视化、可编程的方式,让用户无需写代码即可构建复杂生成流程。

✅ 核心理念:"所见即所得的工作流" + "仅执行变更部分" = 高效 & 节省资源


🔧 二、核心特性

1. 可视化节点工作流

  • 拖拽式构建生成流程(类似 Blender Shader Editor)
  • 支持复杂逻辑:多阶段生成、条件分支、区域控制等

2. 广泛模型支持

类型 支持模型(部分)
图像生成 SD1.x/2.x, SDXL/Turbo, SD3/3.5, PixArt, Flux, Z Image, Qwen Image, HunyuanDiT, AuraFlow, Stable Cascade
图像编辑 Omnigen 2, Flux Kontext, Qwen Image Edit, HiDream E1.1
视频生成 Stable Video Diffusion, Mochi, LTX-Video, Wan 2.1/2.2, Hunyuan Video
音频生成 Stable Audio, ACE Step
3D 生成 Hunyuan3D 2.0
图像生成模型(Image Generation)
模型 发布时间 研发方 开源? 效果 & 特点 ComfyUI 使用方式
SD1.x / SD2.x 2022--2023 Stability AI ✅ 完全开源 社区生态最成熟,插件丰富;SD1.5 仍是主流基底 本地运行,免费
SDXL / SDXL Turbo 2023.7 / 2023.11 Stability AI ✅ 开源(非商用需授权) 1024 分辨率,细节更强;Turbo 支持 1 步出图 本地运行,需 ≥8G 显存
Stable Cascade 2023.12 Stability AI + CompVis ✅ 开源 三阶段生成,质量高、显存占用低于 SDXL 本地运行,效率高
SD3 / SD3.5 2024.6 / 2025.3 Stability AI ❌ 初期闭源 → 部分开源(SD3 Medium) 基于 DiT 架构,支持复杂提示、手写文字、多语言 SD3 可本地(需 24G+ 显存),SD3.5 多通过 API
PixArt Alpha / Sigma 2023.10 / 2024.4 华为 & 清华大学 ✅ 开源(Apache 2.0) 中文提示友好,画风接近 Midjourney,支持 1024+ 分辨率 本地运行,免费
Flux 2024.9 Black Forest Labs(原 SD 核心成员) ❌ 闭源 质量媲美 Midjourney v6,细节、光影、一致性极强 通常通过 API 插件(如 GrsAI、fal.ai)调用,按次收费
Flux 2 2025.6 Black Forest Labs ❌ 闭源 Flux 升级版,支持更长提示、更高分辨率、视频帧一致性 同上,API 调用
Z Image 2025.1 阿里通义实验室 ✅ 开源(ModelScope) 专为中文优化,16G 显存可流畅运行,兼容 SDXL 工作流 本地免费运行,强烈推荐
Qwen Image 2024.10 阿里通义千问 ✅ 部分开源 通义万相底层模型,支持手绘转图、风格迁移、中文指令 可本地部署(部分版本),也有 API
HunyuanDiT 2024.8 腾讯混元 ❌ 闭源 基于 DiT,高分辨率生成,企业级质量 主要通过腾讯云 API 调用
AuraFlow 2025.2 社区 / 初创团队(信息较少) ?(可能开源) 强调风格化控制与动态构图,实验性较强 若开源可本地运行,否则需等待插件

图像编辑模型(Image Editing)
模型 发布时间 研发方 开源? 效果 & 特点 ComfyUI 使用方式
Omnigen 2 2025.3 阿里通义实验室 ✅ 开源 全能编辑:局部重绘、扩图、换装、对象增删,效果接近 Photoshop AI 本地免费运行,ComfyUI 官方集成
Flux Kontext 2025.1 Black Forest Labs ❌ 闭源 上下文感知编辑(如"把狗换成猫,保持姿势"),智能理解场景 通过 API 插件调用(如 ComfyUI-GrsAI),收费
Qwen Image Edit 2024.12 阿里 ✅ 部分开源 支持中文指令编辑(如"给模特穿红色连衣裙") 可本地或 API
HiDream E1.1 2025.4 MiniMax ❌ 闭源 创意修图,强调艺术风格融合与细节保留 通常需 API

视频生成模型(Video Generation)
模型 发布时间 研发方 开源? 效果 & 特点 ComfyUI 使用方式
Stable Video Diffusion (SVD) 2023.11 Stability AI ✅ 开源(非商用) 从图生成 14--25 帧短视频,运动自然但时长有限 本地运行,需高端 GPU(≥24G 显存)
Mochi 2024.12 Genmo AI ❌ 闭源 高质量 3--6 秒视频,支持相机运动控制,电影感强 通过 fal.ai 或 GrsAI API 调用
LTX-Video 2025.2 Latent Lab ✅ 开源(部分) 支持 >10 秒长视频,强调时序一致性 实验性本地部署,资源消耗大
Wan 2.1 / 2.2 2024.9 / 2025.5 阿里通义万相 ✅ 部分开源 中文优化,支持文生视频、图生视频,2.2 支持 6 秒 1080p 可本地(需 A100 级别)或 API
Hunyuan Video / 1.5 2024.11 / 2025.3 腾讯 ❌ 闭源 商业级广告/短视频生成,支持多镜头一致性 腾讯云 API

音频生成模型(Audio Generation)
模型 发布时间 研发方 开源? 效果 & 特点 ComfyUI 使用方式
Stable Audio 2023.9 Stability AI ✅ 开源(部分) 可生成 45 秒立体声音频(音乐/音效),支持文本+音频条件 本地运行(需 ≥16G 显存)
ACE Step 2025.1 阿里 / 社区(待确认) ? 可能为阿里音频生成模型,用于语音合成或环境音效 若开源可本地运行,否则需插件

🔍 注:目前 ComfyUI 对音频支持较弱,多通过自定义节点或外部工具链集成。


3D 生成模型(3D Generation)
模型 发布时间 研发方 开源? 效果 & 特点 ComfyUI 使用方式
Hunyuan3D 2.0 2025.4 腾讯混元 ❌ 闭源 从单图生成带纹理的 3D mesh 或 NeRF,精度高,适合游戏/AR 通过腾讯云 API 调用,ComfyUI 有实验性插件

📌 补充:开源 3D 模型如 TripoSRInstantMesh 也已在 ComfyUI 社区插件中支持,可本地运行。


✅ 总结:如何选择?
需求 推荐模型 是否免费 是否需 GPU
中文文生图(免费) Z Image、PixArt Alpha 是(≥8G)
高质量商业出图 Flux / Flux 2 ❌(约 0.1--0.3 元/张) 否(API)
本地图像编辑 Omnigen 2 是(≥12G)
短视频生成 Wan 2.2(中文)、Mochi(创意) Wan 可本地,Mochi 需 API 高端 GPU or API
完全离线工作流 SDXL + Z Image + Omnigen 2

3. 高效执行机制

  • 增量执行:只重新运行图中发生变化的部分
  • 智能显存管理 :支持低至 1GB 显存 的 GPU(通过 offloading)
  • 完全离线运行:核心不联网,无自动下载行为

4. 强大扩展能力

  • 支持 LoRA、Textual Inversion、Hypernetworks、ControlNet、T2I-Adapter
  • 支持模型融合(Model Merging)、高清修复(Hires Fix)、区域构图(Area Composition)、Inpainting
  • 支持从 PNG/WebP 中反向加载完整工作流+种子

5. 跨平台 & 多硬件

  • 支持 Windows / Linux / macOS
  • 支持 NVIDIA / AMD / Intel / Apple Silicon / Ascend / Cambricon / Iluvatar 等 GPU/NPU

三、安装方式

1. 桌面应用(推荐新手)

2. Windows 便携版(免配置)

  • 下载地址:GitHub Releases
    • ComfyUI_windows_portable_nvidia.7z(NVIDIA)
    • ComfyUI_windows_portable_amd.7z(AMD 实验性)
  • 解压即用,模型放 ComfyUI/models/xxx 对应目录

3. 手动安装(高级用户)

bash 复制代码
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
# 放置模型到 models/checkpoints, models/vae 等
python main.py
  • 支持指定后端(PyTorch CUDA/ROCm/XPU/NPU)

⌨️ 四、常用快捷键(重要!)

快捷键 功能
Ctrl + Enter 执行当前工作流
Ctrl + S / O 保存 / 加载工作流(JSON)
Space + 拖动 移动画布
Alt + +/- 缩放画布
P 固定/取消固定节点
Ctrl + B 旁路(Bypass)选中节点
F 显示/隐藏菜单
. 适配视图到选中区域(或全图)
Double-Click 打开节点搜索面板

💡 macOS 用户将 Ctrl 替换为 Cmd


五、高级功能

1. 高画质预览(TAESD)

  • 下载 taesd_decoder.pth 等文件 → 放入 models/vae_approx
  • 启动时加参数:--preview-method taesd

2. 共享模型路径

  • 修改 extra_model_paths.yaml(重命名自 .example 文件)
  • 可复用 WebUI(如 AUTOMATIC1111)中的模型,避免重复下载

3. API 节点(可选)

  • 通过插件调用云端付费模型(如 Flux、GPT-Image)
  • 需配置 API Key,按次计费

4. 前端版本管理

  • 默认使用稳定版前端(每两周更新)
  • 可指定最新前端:--front-end-version Comfy-Org/ComfyUI_frontend@latest

六、学习资源


七、发布周期

  • Core(核心):每周一发布新稳定版(如 v0.7.0)
  • Desktop(桌面端):基于最新 Core 构建
  • Frontend(前端):独立开发,每日更新,定期合并进 Core

⚠️ 注意:非 tag 的 commit 可能不稳定,慎用于生产环境!


✅ 总结一句话:

ComfyUI 是目前最强大、最灵活、最高效的本地 AI 生成工作流引擎,适合从入门到专业级用户构建图像/视频/3D/Audio 的复杂生成管线。


如果你有具体目标(比如"想用 ComfyUI 做电商产品图"或"部署 Z Image 模型"),我可以提供详细操作指南!


非常好的问题!下面我将用通俗易懂的方式解释这四类模型的含义,并说明它们在 ComfyUI(或其他 Stable Diffusion 工具)中是否"必须加载"。


🧠 一、各类模型的作用详解

1. 文本编码器(Text Encoder)

  • 作用:把你的文字提示(Prompt)转换成 AI 能理解的"数学向量"。
  • 类比:就像翻译官,把中文"一只戴着墨镜的猫"翻译成机器语言。
  • 常见类型
    • CLIP :Stable Diffusion 默认使用(如 clip-vit-large-patch14
    • T5 / Qwen / Llama:某些高级或中文优化模型会替换 CLIP
  • 是否必须?
    是的,如果你用了文本提示(绝大多数情况都用),就必须有 Text Encoder。

💡 注意:有些主模型(.ckpt.safetensors)已经内置了 CLIP 文本编码器 ,这时你不需要单独加载。但像你之前提到的 qwen_3_4b.safetensors外置的,说明这个工作流依赖外部文本编码器。


2. 扩散模型(Main Model / Checkpoint)

  • 作用:这是生成图像的"核心大脑",负责从随机噪声一步步生成图片。
  • 文件名示例realisticVision_v60.safetensors, sd_xl_base_1.0.safetensors
  • 是否必须?
    绝对必须! 没有它,根本无法生成任何图像。

⚠️ 这是 ComfyUI 中 Load Checkpoint 节点加载的模型,通常是你下载的最大的那个文件(2~7GB)。


3. VAE 模型(Variational Autoencoder)

  • 作用:把扩散模型生成的"潜在空间图像"(latent)解码成你能看到的 RGB 图像。
  • 为什么需要?
    扩散模型其实不是直接画图,而是在一个压缩的"潜在空间"里操作,VAE 负责"解压"成真实图片。
  • 是否必须?
    技术上不是必须 ,因为大多数主模型已内置 VAE
    但建议加载 高质量 VAE(如 vae-ft-mse)来提升色彩和细节。

🔧 在 ComfyUI 中,你可以通过 VAELoader 节点显式加载,也可以让 Checkpoint 自带的 VAE 自动使用。


4. LoRA / Fine-tune 模型

  • 作用:对主模型进行"微调",添加特定风格、角色或概念(比如"皮卡丘风格"、"某明星脸")。
  • 特点
    • 文件小(几十 MB 到几百 MB)
    • 需要配合主模型使用
    • 通过 LoraLoader 节点加载
  • 是否必须?
    完全不必须!
    → 只有当你想用特定风格/角色时才加载。

🎨 举例:主模型画"女孩",加上 anime-style.lora 就变成"动漫女孩"。


✅ 二、在 ComfyUI 中,哪些是"必须"的?

模型类型 是否必须 说明
扩散模型(Checkpoint) ✅ 必须 核心生成模型
文本编码器 ⚠️ 通常已内置 如果主模型自带 CLIP,则无需单独加载;若用 Qwen/T5 等外置编码器,则需手动加载
VAE ❌ 非必须(但推荐) 主模型通常自带,可选更优 VAE 提升画质
LoRA / 微调模型 ❌ 完全可选 按需使用

🛠 三、ComfyUI 典型工作流节点对应关系

plaintext 复制代码
[Load Checkpoint] → 加载 主模型(含默认 Text Encoder + VAE)
       ↓
[CLIP Text Encode] → 使用内置 Text Encoder 编码提示词
       ↓
[KSampler] → 生成 latent 图像
       ↓
[VAEDecode] → 用 VAE 解码成图片(可用内置或外置 VAE)

如果你用的是 非标准文本编码器(如 Qwen),则需要:

  • 单独加载 qwen_3_4b.safetensors
  • 替换默认的 CLIP Text Encode 节点(可能需要自定义节点)

💡 总结一句话:

ComfyUI 最低要求 = 1个主模型(Checkpoint)

其他(VAE、LoRA、外置 Text Encoder)都是"增强项",按需加载。


如果你正在使用某个特殊工作流(比如支持中文提示的 Qwen + Turbo 模型),那它可能强制要求外置组件 。但标准 Stable Diffusion 工作流只需要一个 .safetensors.ckpt 文件就能跑起来!

需要我帮你判断某个具体工作流是否必须加载这些文件吗?可以贴出节点图或配置 😊


相关推荐
土豆.exe12 小时前
IfAI v0.3.0 - 从“文本“到“多模态“的感知升级
人工智能·编辑器
JicasdC123asd12 小时前
如何使用YOLOv10n进行台风灾害区域识别与分类——基于改进的HAFB-2模型实现
人工智能·yolo·分类
抖知书12 小时前
喂饭级AI提示词公开!帮短视频创作者写脚本大纲
人工智能
Elastic 中国社区官方博客12 小时前
JINA AI 与 Elasticsearch 的集成
大数据·人工智能·elasticsearch·搜索引擎·全文检索·jina
高洁0112 小时前
AI智能体搭建(3)
人工智能·深度学习·算法·数据挖掘·知识图谱
道可云13 小时前
道可云人工智能每日资讯|南宁市公布第二批“人工智能+制造”应用场景“机会清单”和“能力清单”
人工智能·制造
ai_top_trends13 小时前
不同 AI 生成 2026 年工作计划 PPT 的使用门槛对比
人工智能·python·powerpoint
人工智能AI技术13 小时前
开源大模型选型指南:从LLaMA3到文心ERNIE,实战适配不同业务场景
人工智能
TOWE technology13 小时前
聚焦价值 重塑增长
大数据·人工智能·企业
老顾聊技术13 小时前
“Anthropic 最新发布的 AI Skills:赋能任务自动化与跨领域应用“
运维·人工智能·自动化