一、ComfyUI 是什么?
ComfyUI 是一个基于节点(Node/Graph)界面 的 Stable Diffusion 及多模态生成模型工作流系统 ,支持图像、视频、音频、3D 等多种 AI 模型。
它以高度模块化、可视化、可编程的方式,让用户无需写代码即可构建复杂生成流程。
✅ 核心理念:"所见即所得的工作流" + "仅执行变更部分" = 高效 & 节省资源
🔧 二、核心特性
1. 可视化节点工作流
- 拖拽式构建生成流程(类似 Blender Shader Editor)
- 支持复杂逻辑:多阶段生成、条件分支、区域控制等
2. 广泛模型支持
| 类型 | 支持模型(部分) |
|---|---|
| 图像生成 | SD1.x/2.x, SDXL/Turbo, SD3/3.5, PixArt, Flux, Z Image, Qwen Image, HunyuanDiT, AuraFlow, Stable Cascade |
| 图像编辑 | Omnigen 2, Flux Kontext, Qwen Image Edit, HiDream E1.1 |
| 视频生成 | Stable Video Diffusion, Mochi, LTX-Video, Wan 2.1/2.2, Hunyuan Video |
| 音频生成 | Stable Audio, ACE Step |
| 3D 生成 | Hunyuan3D 2.0 |
图像生成模型(Image Generation)
| 模型 | 发布时间 | 研发方 | 开源? | 效果 & 特点 | ComfyUI 使用方式 |
|---|---|---|---|---|---|
| SD1.x / SD2.x | 2022--2023 | Stability AI | ✅ 完全开源 | 社区生态最成熟,插件丰富;SD1.5 仍是主流基底 | 本地运行,免费 |
| SDXL / SDXL Turbo | 2023.7 / 2023.11 | Stability AI | ✅ 开源(非商用需授权) | 1024 分辨率,细节更强;Turbo 支持 1 步出图 | 本地运行,需 ≥8G 显存 |
| Stable Cascade | 2023.12 | Stability AI + CompVis | ✅ 开源 | 三阶段生成,质量高、显存占用低于 SDXL | 本地运行,效率高 |
| SD3 / SD3.5 | 2024.6 / 2025.3 | Stability AI | ❌ 初期闭源 → 部分开源(SD3 Medium) | 基于 DiT 架构,支持复杂提示、手写文字、多语言 | SD3 可本地(需 24G+ 显存),SD3.5 多通过 API |
| PixArt Alpha / Sigma | 2023.10 / 2024.4 | 华为 & 清华大学 | ✅ 开源(Apache 2.0) | 中文提示友好,画风接近 Midjourney,支持 1024+ 分辨率 | 本地运行,免费 |
| Flux | 2024.9 | Black Forest Labs(原 SD 核心成员) | ❌ 闭源 | 质量媲美 Midjourney v6,细节、光影、一致性极强 | 通常通过 API 插件(如 GrsAI、fal.ai)调用,按次收费 |
| Flux 2 | 2025.6 | Black Forest Labs | ❌ 闭源 | Flux 升级版,支持更长提示、更高分辨率、视频帧一致性 | 同上,API 调用 |
| Z Image | 2025.1 | 阿里通义实验室 | ✅ 开源(ModelScope) | 专为中文优化,16G 显存可流畅运行,兼容 SDXL 工作流 | 本地免费运行,强烈推荐 |
| Qwen Image | 2024.10 | 阿里通义千问 | ✅ 部分开源 | 通义万相底层模型,支持手绘转图、风格迁移、中文指令 | 可本地部署(部分版本),也有 API |
| HunyuanDiT | 2024.8 | 腾讯混元 | ❌ 闭源 | 基于 DiT,高分辨率生成,企业级质量 | 主要通过腾讯云 API 调用 |
| AuraFlow | 2025.2 | 社区 / 初创团队(信息较少) | ?(可能开源) | 强调风格化控制与动态构图,实验性较强 | 若开源可本地运行,否则需等待插件 |
图像编辑模型(Image Editing)
| 模型 | 发布时间 | 研发方 | 开源? | 效果 & 特点 | ComfyUI 使用方式 |
|---|---|---|---|---|---|
| Omnigen 2 | 2025.3 | 阿里通义实验室 | ✅ 开源 | 全能编辑:局部重绘、扩图、换装、对象增删,效果接近 Photoshop AI | 本地免费运行,ComfyUI 官方集成 |
| Flux Kontext | 2025.1 | Black Forest Labs | ❌ 闭源 | 上下文感知编辑(如"把狗换成猫,保持姿势"),智能理解场景 | 通过 API 插件调用(如 ComfyUI-GrsAI),收费 |
| Qwen Image Edit | 2024.12 | 阿里 | ✅ 部分开源 | 支持中文指令编辑(如"给模特穿红色连衣裙") | 可本地或 API |
| HiDream E1.1 | 2025.4 | MiniMax | ❌ 闭源 | 创意修图,强调艺术风格融合与细节保留 | 通常需 API |
视频生成模型(Video Generation)
| 模型 | 发布时间 | 研发方 | 开源? | 效果 & 特点 | ComfyUI 使用方式 |
|---|---|---|---|---|---|
| Stable Video Diffusion (SVD) | 2023.11 | Stability AI | ✅ 开源(非商用) | 从图生成 14--25 帧短视频,运动自然但时长有限 | 本地运行,需高端 GPU(≥24G 显存) |
| Mochi | 2024.12 | Genmo AI | ❌ 闭源 | 高质量 3--6 秒视频,支持相机运动控制,电影感强 | 通过 fal.ai 或 GrsAI API 调用 |
| LTX-Video | 2025.2 | Latent Lab | ✅ 开源(部分) | 支持 >10 秒长视频,强调时序一致性 | 实验性本地部署,资源消耗大 |
| Wan 2.1 / 2.2 | 2024.9 / 2025.5 | 阿里通义万相 | ✅ 部分开源 | 中文优化,支持文生视频、图生视频,2.2 支持 6 秒 1080p | 可本地(需 A100 级别)或 API |
| Hunyuan Video / 1.5 | 2024.11 / 2025.3 | 腾讯 | ❌ 闭源 | 商业级广告/短视频生成,支持多镜头一致性 | 腾讯云 API |
音频生成模型(Audio Generation)
| 模型 | 发布时间 | 研发方 | 开源? | 效果 & 特点 | ComfyUI 使用方式 |
|---|---|---|---|---|---|
| Stable Audio | 2023.9 | Stability AI | ✅ 开源(部分) | 可生成 45 秒立体声音频(音乐/音效),支持文本+音频条件 | 本地运行(需 ≥16G 显存) |
| ACE Step | 2025.1 | 阿里 / 社区(待确认) | ? | 可能为阿里音频生成模型,用于语音合成或环境音效 | 若开源可本地运行,否则需插件 |
🔍 注:目前 ComfyUI 对音频支持较弱,多通过自定义节点或外部工具链集成。
3D 生成模型(3D Generation)
| 模型 | 发布时间 | 研发方 | 开源? | 效果 & 特点 | ComfyUI 使用方式 |
|---|---|---|---|---|---|
| Hunyuan3D 2.0 | 2025.4 | 腾讯混元 | ❌ 闭源 | 从单图生成带纹理的 3D mesh 或 NeRF,精度高,适合游戏/AR | 通过腾讯云 API 调用,ComfyUI 有实验性插件 |
📌 补充:开源 3D 模型如 TripoSR 、InstantMesh 也已在 ComfyUI 社区插件中支持,可本地运行。
✅ 总结:如何选择?
| 需求 | 推荐模型 | 是否免费 | 是否需 GPU |
|---|---|---|---|
| 中文文生图(免费) | Z Image、PixArt Alpha | ✅ | 是(≥8G) |
| 高质量商业出图 | Flux / Flux 2 | ❌(约 0.1--0.3 元/张) | 否(API) |
| 本地图像编辑 | Omnigen 2 | ✅ | 是(≥12G) |
| 短视频生成 | Wan 2.2(中文)、Mochi(创意) | Wan 可本地,Mochi 需 API | 高端 GPU or API |
| 完全离线工作流 | SDXL + Z Image + Omnigen 2 | ✅ | 是 |
3. 高效执行机制
- 增量执行:只重新运行图中发生变化的部分
- 智能显存管理 :支持低至 1GB 显存 的 GPU(通过 offloading)
- 完全离线运行:核心不联网,无自动下载行为
4. 强大扩展能力
- 支持 LoRA、Textual Inversion、Hypernetworks、ControlNet、T2I-Adapter
- 支持模型融合(Model Merging)、高清修复(Hires Fix)、区域构图(Area Composition)、Inpainting
- 支持从 PNG/WebP 中反向加载完整工作流+种子
5. 跨平台 & 多硬件
- 支持 Windows / Linux / macOS
- 支持 NVIDIA / AMD / Intel / Apple Silicon / Ascend / Cambricon / Iluvatar 等 GPU/NPU
三、安装方式
1. 桌面应用(推荐新手)
- 官网下载:https://www.comfy.org/download
- 支持 Windows & macOS,开箱即用
2. Windows 便携版(免配置)
- 下载地址:GitHub Releases
ComfyUI_windows_portable_nvidia.7z(NVIDIA)ComfyUI_windows_portable_amd.7z(AMD 实验性)
- 解压即用,模型放
ComfyUI/models/xxx对应目录
3. 手动安装(高级用户)
bash
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
# 放置模型到 models/checkpoints, models/vae 等
python main.py
- 支持指定后端(PyTorch CUDA/ROCm/XPU/NPU)
⌨️ 四、常用快捷键(重要!)
| 快捷键 | 功能 |
|---|---|
Ctrl + Enter |
执行当前工作流 |
Ctrl + S / O |
保存 / 加载工作流(JSON) |
Space + 拖动 |
移动画布 |
Alt + +/- |
缩放画布 |
P |
固定/取消固定节点 |
Ctrl + B |
旁路(Bypass)选中节点 |
F |
显示/隐藏菜单 |
. |
适配视图到选中区域(或全图) |
Double-Click |
打开节点搜索面板 |
💡 macOS 用户将
Ctrl替换为Cmd
五、高级功能
1. 高画质预览(TAESD)
- 下载
taesd_decoder.pth等文件 → 放入models/vae_approx - 启动时加参数:
--preview-method taesd
2. 共享模型路径
- 修改
extra_model_paths.yaml(重命名自.example文件) - 可复用 WebUI(如 AUTOMATIC1111)中的模型,避免重复下载
3. API 节点(可选)
- 通过插件调用云端付费模型(如 Flux、GPT-Image)
- 需配置 API Key,按次计费
4. 前端版本管理
- 默认使用稳定版前端(每两周更新)
- 可指定最新前端:
--front-end-version Comfy-Org/ComfyUI_frontend@latest
六、学习资源
- 官方示例库 :ComfyUI Examples
- 包含 SDXL、ControlNet、Flux、视频、3D 等完整工作流
- 文档 :docs.comfy.org
- 社区支持 :
- Discord: comfy.org/discord
- Matrix:
#comfyui_space:matrix.org
七、发布周期
- Core(核心):每周一发布新稳定版(如 v0.7.0)
- Desktop(桌面端):基于最新 Core 构建
- Frontend(前端):独立开发,每日更新,定期合并进 Core
⚠️ 注意:非 tag 的 commit 可能不稳定,慎用于生产环境!
✅ 总结一句话:
ComfyUI 是目前最强大、最灵活、最高效的本地 AI 生成工作流引擎,适合从入门到专业级用户构建图像/视频/3D/Audio 的复杂生成管线。
如果你有具体目标(比如"想用 ComfyUI 做电商产品图"或"部署 Z Image 模型"),我可以提供详细操作指南!
非常好的问题!下面我将用通俗易懂的方式解释这四类模型的含义,并说明它们在 ComfyUI(或其他 Stable Diffusion 工具)中是否"必须加载"。
🧠 一、各类模型的作用详解
1. 文本编码器(Text Encoder)
- 作用:把你的文字提示(Prompt)转换成 AI 能理解的"数学向量"。
- 类比:就像翻译官,把中文"一只戴着墨镜的猫"翻译成机器语言。
- 常见类型 :
- CLIP :Stable Diffusion 默认使用(如
clip-vit-large-patch14) - T5 / Qwen / Llama:某些高级或中文优化模型会替换 CLIP
- CLIP :Stable Diffusion 默认使用(如
- ✅ 是否必须?
→ 是的,如果你用了文本提示(绝大多数情况都用),就必须有 Text Encoder。
💡 注意:有些主模型(
.ckpt或.safetensors)已经内置了 CLIP 文本编码器 ,这时你不需要单独加载。但像你之前提到的qwen_3_4b.safetensors是外置的,说明这个工作流依赖外部文本编码器。
2. 扩散模型(Main Model / Checkpoint)
- 作用:这是生成图像的"核心大脑",负责从随机噪声一步步生成图片。
- 文件名示例 :
realisticVision_v60.safetensors,sd_xl_base_1.0.safetensors - ✅ 是否必须?
→ 绝对必须! 没有它,根本无法生成任何图像。
⚠️ 这是 ComfyUI 中 Load Checkpoint 节点加载的模型,通常是你下载的最大的那个文件(2~7GB)。
3. VAE 模型(Variational Autoencoder)
- 作用:把扩散模型生成的"潜在空间图像"(latent)解码成你能看到的 RGB 图像。
- 为什么需要?
扩散模型其实不是直接画图,而是在一个压缩的"潜在空间"里操作,VAE 负责"解压"成真实图片。 - ✅ 是否必须?
→ 技术上不是必须 ,因为大多数主模型已内置 VAE 。
→ 但建议加载 高质量 VAE(如vae-ft-mse)来提升色彩和细节。
🔧 在 ComfyUI 中,你可以通过 VAELoader 节点显式加载,也可以让 Checkpoint 自带的 VAE 自动使用。
4. LoRA / Fine-tune 模型
- 作用:对主模型进行"微调",添加特定风格、角色或概念(比如"皮卡丘风格"、"某明星脸")。
- 特点 :
- 文件小(几十 MB 到几百 MB)
- 需要配合主模型使用
- 通过 LoraLoader 节点加载
- ✅ 是否必须?
→ 完全不必须!
→ 只有当你想用特定风格/角色时才加载。
🎨 举例:主模型画"女孩",加上
anime-style.lora就变成"动漫女孩"。
✅ 二、在 ComfyUI 中,哪些是"必须"的?
| 模型类型 | 是否必须 | 说明 |
|---|---|---|
| 扩散模型(Checkpoint) | ✅ 必须 | 核心生成模型 |
| 文本编码器 | ⚠️ 通常已内置 | 如果主模型自带 CLIP,则无需单独加载;若用 Qwen/T5 等外置编码器,则需手动加载 |
| VAE | ❌ 非必须(但推荐) | 主模型通常自带,可选更优 VAE 提升画质 |
| LoRA / 微调模型 | ❌ 完全可选 | 按需使用 |
🛠 三、ComfyUI 典型工作流节点对应关系
plaintext
[Load Checkpoint] → 加载 主模型(含默认 Text Encoder + VAE)
↓
[CLIP Text Encode] → 使用内置 Text Encoder 编码提示词
↓
[KSampler] → 生成 latent 图像
↓
[VAEDecode] → 用 VAE 解码成图片(可用内置或外置 VAE)
如果你用的是 非标准文本编码器(如 Qwen),则需要:
- 单独加载
qwen_3_4b.safetensors- 替换默认的 CLIP Text Encode 节点(可能需要自定义节点)
💡 总结一句话:
ComfyUI 最低要求 = 1个主模型(Checkpoint) 。
其他(VAE、LoRA、外置 Text Encoder)都是"增强项",按需加载。
如果你正在使用某个特殊工作流(比如支持中文提示的 Qwen + Turbo 模型),那它可能强制要求外置组件 。但标准 Stable Diffusion 工作流只需要一个 .safetensors 或 .ckpt 文件就能跑起来!
需要我帮你判断某个具体工作流是否必须加载这些文件吗?可以贴出节点图或配置 😊