ComfyUi - 技术栈

一、ComfyUI 是什么？

ComfyUI 是一个基于节点（Node/Graph）界面 的 Stable Diffusion 及多模态生成模型工作流系统 ，支持图像、视频、音频、3D 等多种 AI 模型。

它以高度模块化、可视化、可编程的方式，让用户无需写代码即可构建复杂生成流程。

✅ 核心理念："所见即所得的工作流" + "仅执行变更部分" = 高效 & 节省资源

🔧 二、核心特性

1. 可视化节点工作流

拖拽式构建生成流程（类似 Blender Shader Editor）
支持复杂逻辑：多阶段生成、条件分支、区域控制等

2. 广泛模型支持

类型	支持模型（部分）
图像生成	SD1.x/2.x, SDXL/Turbo, SD3/3.5, PixArt, Flux, Z Image, Qwen Image, HunyuanDiT, AuraFlow, Stable Cascade
图像编辑	Omnigen 2, Flux Kontext, Qwen Image Edit, HiDream E1.1
视频生成	Stable Video Diffusion, Mochi, LTX-Video, Wan 2.1/2.2, Hunyuan Video
音频生成	Stable Audio, ACE Step
3D 生成	Hunyuan3D 2.0

图像生成模型（Image Generation）

模型	发布时间	研发方	开源？	效果 & 特点	ComfyUI 使用方式
SD1.x / SD2.x	2022--2023	Stability AI	✅ 完全开源	社区生态最成熟，插件丰富；SD1.5 仍是主流基底	本地运行，免费
SDXL / SDXL Turbo	2023.7 / 2023.11	Stability AI	✅ 开源（非商用需授权）	1024 分辨率，细节更强；Turbo 支持 1 步出图	本地运行，需 ≥8G 显存
Stable Cascade	2023.12	Stability AI + CompVis	✅ 开源	三阶段生成，质量高、显存占用低于 SDXL	本地运行，效率高
SD3 / SD3.5	2024.6 / 2025.3	Stability AI	❌ 初期闭源 → 部分开源（SD3 Medium）	基于 DiT 架构，支持复杂提示、手写文字、多语言	SD3 可本地（需 24G+ 显存），SD3.5 多通过 API
PixArt Alpha / Sigma	2023.10 / 2024.4	华为 & 清华大学	✅ 开源（Apache 2.0）	中文提示友好，画风接近 Midjourney，支持 1024+ 分辨率	本地运行，免费
Flux	2024.9	Black Forest Labs（原 SD 核心成员）	❌ 闭源	质量媲美 Midjourney v6，细节、光影、一致性极强	通常通过 API 插件（如 GrsAI、fal.ai）调用，按次收费
Flux 2	2025.6	Black Forest Labs	❌ 闭源	Flux 升级版，支持更长提示、更高分辨率、视频帧一致性	同上，API 调用
Z Image	2025.1	阿里通义实验室	✅ 开源（ModelScope）	专为中文优化，16G 显存可流畅运行，兼容 SDXL 工作流	本地免费运行，强烈推荐
Qwen Image	2024.10	阿里通义千问	✅ 部分开源	通义万相底层模型，支持手绘转图、风格迁移、中文指令	可本地部署（部分版本），也有 API
HunyuanDiT	2024.8	腾讯混元	❌ 闭源	基于 DiT，高分辨率生成，企业级质量	主要通过腾讯云 API 调用
AuraFlow	2025.2	社区 / 初创团队（信息较少）	?（可能开源）	强调风格化控制与动态构图，实验性较强	若开源可本地运行，否则需等待插件

图像编辑模型（Image Editing）

模型	发布时间	研发方	开源？	效果 & 特点	ComfyUI 使用方式
Omnigen 2	2025.3	阿里通义实验室	✅ 开源	全能编辑：局部重绘、扩图、换装、对象增删，效果接近 Photoshop AI	本地免费运行，ComfyUI 官方集成
Flux Kontext	2025.1	Black Forest Labs	❌ 闭源	上下文感知编辑（如"把狗换成猫，保持姿势"），智能理解场景	通过 API 插件调用（如 `ComfyUI-GrsAI`），收费
Qwen Image Edit	2024.12	阿里	✅ 部分开源	支持中文指令编辑（如"给模特穿红色连衣裙"）	可本地或 API
HiDream E1.1	2025.4	MiniMax	❌ 闭源	创意修图，强调艺术风格融合与细节保留	通常需 API

视频生成模型（Video Generation）

模型	发布时间	研发方	开源？	效果 & 特点	ComfyUI 使用方式
Stable Video Diffusion (SVD)	2023.11	Stability AI	✅ 开源（非商用）	从图生成 14--25 帧短视频，运动自然但时长有限	本地运行，需高端 GPU（≥24G 显存）
Mochi	2024.12	Genmo AI	❌ 闭源	高质量 3--6 秒视频，支持相机运动控制，电影感强	通过 fal.ai 或 GrsAI API 调用
LTX-Video	2025.2	Latent Lab	✅ 开源（部分）	支持 >10 秒长视频，强调时序一致性	实验性本地部署，资源消耗大
Wan 2.1 / 2.2	2024.9 / 2025.5	阿里通义万相	✅ 部分开源	中文优化，支持文生视频、图生视频，2.2 支持 6 秒 1080p	可本地（需 A100 级别）或 API
Hunyuan Video / 1.5	2024.11 / 2025.3	腾讯	❌ 闭源	商业级广告/短视频生成，支持多镜头一致性	腾讯云 API

音频生成模型（Audio Generation）

模型	发布时间	研发方	开源？	效果 & 特点	ComfyUI 使用方式
Stable Audio	2023.9	Stability AI	✅ 开源（部分）	可生成 45 秒立体声音频（音乐/音效），支持文本+音频条件	本地运行（需 ≥16G 显存）
ACE Step	2025.1	阿里 / 社区（待确认）	?	可能为阿里音频生成模型，用于语音合成或环境音效	若开源可本地运行，否则需插件

🔍 注：目前 ComfyUI 对音频支持较弱，多通过自定义节点或外部工具链集成。

3D 生成模型（3D Generation）

模型	发布时间	研发方	开源？	效果 & 特点	ComfyUI 使用方式
Hunyuan3D 2.0	2025.4	腾讯混元	❌ 闭源	从单图生成带纹理的 3D mesh 或 NeRF，精度高，适合游戏/AR	通过腾讯云 API 调用，ComfyUI 有实验性插件

📌 补充：开源 3D 模型如 TripoSR 、InstantMesh 也已在 ComfyUI 社区插件中支持，可本地运行。

✅ 总结：如何选择？

需求	推荐模型	是否免费	是否需 GPU
中文文生图（免费）	Z Image、PixArt Alpha	✅	是（≥8G）
高质量商业出图	Flux / Flux 2	❌（约 0.1--0.3 元/张）	否（API）
本地图像编辑	Omnigen 2	✅	是（≥12G）
短视频生成	Wan 2.2（中文）、Mochi（创意）	Wan 可本地，Mochi 需 API	高端 GPU or API
完全离线工作流	SDXL + Z Image + Omnigen 2	✅	是

3. 高效执行机制

增量执行：只重新运行图中发生变化的部分
智能显存管理 ：支持低至 1GB 显存 的 GPU（通过 offloading）
完全离线运行：核心不联网，无自动下载行为

4. 强大扩展能力

支持 LoRA、Textual Inversion、Hypernetworks、ControlNet、T2I-Adapter
支持模型融合（Model Merging）、高清修复（Hires Fix）、区域构图（Area Composition）、Inpainting
支持从 PNG/WebP 中反向加载完整工作流+种子

5. 跨平台 & 多硬件

支持 Windows / Linux / macOS
支持 NVIDIA / AMD / Intel / Apple Silicon / Ascend / Cambricon / Iluvatar 等 GPU/NPU

三、安装方式

1. 桌面应用（推荐新手）

官网下载：https://www.comfy.org/download
支持 Windows & macOS，开箱即用

2. Windows 便携版（免配置）

下载地址：GitHub Releases
- ComfyUI_windows_portable_nvidia.7z（NVIDIA）
- ComfyUI_windows_portable_amd.7z（AMD 实验性）
解压即用，模型放 ComfyUI/models/xxx 对应目录

3. 手动安装（高级用户）

bash 复制代码

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
# 放置模型到 models/checkpoints, models/vae 等
python main.py

支持指定后端（PyTorch CUDA/ROCm/XPU/NPU）

⌨️ 四、常用快捷键（重要！）

快捷键	功能
`Ctrl + Enter`	执行当前工作流
`Ctrl + S / O`	保存 / 加载工作流（JSON）
`Space + 拖动`	移动画布
`Alt + +/-`	缩放画布
`P`	固定/取消固定节点
`Ctrl + B`	旁路（Bypass）选中节点
`F`	显示/隐藏菜单
`.`	适配视图到选中区域（或全图）
`Double-Click`	打开节点搜索面板

💡 macOS 用户将 Ctrl 替换为 Cmd

五、高级功能

1. 高画质预览（TAESD）

下载 taesd_decoder.pth 等文件 → 放入 models/vae_approx
启动时加参数：--preview-method taesd

2. 共享模型路径

修改 extra_model_paths.yaml（重命名自 .example 文件）
可复用 WebUI（如 AUTOMATIC1111）中的模型，避免重复下载

3. API 节点（可选）

通过插件调用云端付费模型（如 Flux、GPT-Image）
需配置 API Key，按次计费

4. 前端版本管理

默认使用稳定版前端（每两周更新）
可指定最新前端：--front-end-version Comfy-Org/ComfyUI_frontend@latest

六、学习资源

官方示例库 ：ComfyUI Examples
- 包含 SDXL、ControlNet、Flux、视频、3D 等完整工作流
文档：docs.comfy.org
社区支持 ：
- Discord: comfy.org/discord
- Matrix: #comfyui_space:matrix.org

七、发布周期

Core（核心）：每周一发布新稳定版（如 v0.7.0）
Desktop（桌面端）：基于最新 Core 构建
Frontend（前端）：独立开发，每日更新，定期合并进 Core

⚠️ 注意：非 tag 的 commit 可能不稳定，慎用于生产环境！

✅ 总结一句话：

ComfyUI 是目前最强大、最灵活、最高效的本地 AI 生成工作流引擎，适合从入门到专业级用户构建图像/视频/3D/Audio 的复杂生成管线。

如果你有具体目标（比如"想用 ComfyUI 做电商产品图"或"部署 Z Image 模型"），我可以提供详细操作指南！

非常好的问题！下面我将用通俗易懂的方式解释这四类模型的含义，并说明它们在 ComfyUI（或其他 Stable Diffusion 工具）中是否"必须加载"。

🧠 一、各类模型的作用详解

1. 文本编码器（Text Encoder）

作用：把你的文字提示（Prompt）转换成 AI 能理解的"数学向量"。
类比：就像翻译官，把中文"一只戴着墨镜的猫"翻译成机器语言。
常见类型 ：
- CLIP ：Stable Diffusion 默认使用（如 clip-vit-large-patch14）
- T5 / Qwen / Llama：某些高级或中文优化模型会替换 CLIP
✅ 是否必须？
→ 是的，如果你用了文本提示（绝大多数情况都用），就必须有 Text Encoder。

💡 注意：有些主模型（.ckpt 或 .safetensors）已经内置了 CLIP 文本编码器 ，这时你不需要单独加载。但像你之前提到的 qwen_3_4b.safetensors 是外置的，说明这个工作流依赖外部文本编码器。

2. 扩散模型（Main Model / Checkpoint）

作用：这是生成图像的"核心大脑"，负责从随机噪声一步步生成图片。
文件名示例 ：realisticVision_v60.safetensors, sd_xl_base_1.0.safetensors
✅ 是否必须？
→ 绝对必须！ 没有它，根本无法生成任何图像。

⚠️ 这是 ComfyUI 中 Load Checkpoint 节点加载的模型，通常是你下载的最大的那个文件（2~7GB）。

3. VAE 模型（Variational Autoencoder）

作用：把扩散模型生成的"潜在空间图像"（latent）解码成你能看到的 RGB 图像。
为什么需要？
扩散模型其实不是直接画图，而是在一个压缩的"潜在空间"里操作，VAE 负责"解压"成真实图片。
✅ 是否必须？
→ 技术上不是必须 ，因为大多数主模型已内置 VAE 。
→ 但建议加载 高质量 VAE（如 vae-ft-mse）来提升色彩和细节。

🔧 在 ComfyUI 中，你可以通过 VAELoader 节点显式加载，也可以让 Checkpoint 自带的 VAE 自动使用。

4. LoRA / Fine-tune 模型

作用：对主模型进行"微调"，添加特定风格、角色或概念（比如"皮卡丘风格"、"某明星脸"）。
特点：
- 文件小（几十 MB 到几百 MB）
- 需要配合主模型使用
- 通过 LoraLoader 节点加载
✅ 是否必须？
→ 完全不必须！
→ 只有当你想用特定风格/角色时才加载。

🎨 举例：主模型画"女孩"，加上 anime-style.lora 就变成"动漫女孩"。

✅ 二、在 ComfyUI 中，哪些是"必须"的？

模型类型	是否必须	说明
扩散模型（Checkpoint）	✅ 必须	核心生成模型
文本编码器	⚠️ 通常已内置	如果主模型自带 CLIP，则无需单独加载；若用 Qwen/T5 等外置编码器，则需手动加载
VAE	❌ 非必须（但推荐）	主模型通常自带，可选更优 VAE 提升画质
LoRA / 微调模型	❌ 完全可选	按需使用

🛠 三、ComfyUI 典型工作流节点对应关系

plaintext 复制代码

[Load Checkpoint] → 加载 主模型（含默认 Text Encoder + VAE）
       ↓
[CLIP Text Encode] → 使用内置 Text Encoder 编码提示词
       ↓
[KSampler] → 生成 latent 图像
       ↓
[VAEDecode] → 用 VAE 解码成图片（可用内置或外置 VAE）

如果你用的是 非标准文本编码器（如 Qwen），则需要：

单独加载 qwen_3_4b.safetensors

替换默认的 CLIP Text Encode 节点（可能需要自定义节点）

💡 总结一句话：

ComfyUI 最低要求 = 1个主模型（Checkpoint） 。

其他（VAE、LoRA、外置 Text Encoder）都是"增强项"，按需加载。

如果你正在使用某个特殊工作流（比如支持中文提示的 Qwen + Turbo 模型），那它可能强制要求外置组件 。但标准 Stable Diffusion 工作流只需要一个 .safetensors 或 .ckpt 文件就能跑起来！

需要我帮你判断某个具体工作流是否必须加载这些文件吗？可以贴出节点图或配置 😊