ComfyUI 大师之路:四阶段学习图谱
下面的学习路线图为你规划了一条清晰的成长路径,你可以跟随它逐步深入。
第一阶段:核心基础与精准修改
本阶段目标是掌握静态图像生成的核心工作流与修改技术。
-
Img2Img(图生图)
-
是什么:以输入图像为起点,结合提示词生成新图像。
-
如何学 :在ComfyUI中,基础工作流是
Load Image->VAE Encode->KSampler->VAE Decode。关键参数denoise(降噪强度)控制结果与原图的偏离程度,值越高变化越大。 -
学习建议 :从提供的工作流入手,反复调整
denoise值,观察图像在"忠实原图"和"自由创造"之间的连续变化。
-
-
Inpainting(局部重绘)
-
是什么:对图像的指定区域(遮罩)进行重绘,保持其他部分不变。
-
如何学:这是重点。你需要掌握三种核心方法,它们原理不同,适用于不同场景:
-
VAE内补编码器 (
VAEEncodeForInpaint):完全重写遮罩区域,适合替换为无关的新内容。关键:必须使用此专用节点而非普通VAE编码器。 -
潜空间噪波遮罩 (
Set Latent Noise Mask):在潜空间添加噪声时保留遮罩区域原信息,适合微调(如给人像加眼镜)。 -
ControlNet Inpaint :用专用Inpaint模型(如
control_v11p_sd15_inpaint)严格约束遮罩区域的构图,适合保持姿态的大修改(如换人)。
-
-
避坑指南:
-
边缘生硬 :使用
Mask Feather节点对遮罩进行24px以上的羽化。 -
内容不符 :提高
cfg值或增加提示词权重。 -
面部畸形 :在提示词中添加负面词(如
deformed),或使用ADetailer等面部修复插件。
-
-
-
Embeddings / Textual Inversion & LoRA & Hypernetworks(模型微调)
-
是什么与区别:
-
Embeddings :本质是几个特殊的提示词向量,用于固定特征或作为负面约束。它不改变模型权重,能力较弱但使用简单。
-
LoRA :通过注入少量额外训练权重来修改模型,擅长学习特定人物、风格或物品,是主流微调方式。
-
Hypernetworks:早期通过额外网络调整模型参数的技术,已逐渐被LoRA取代。
-
-
如何学:
-
Embeddings :模型放入
models/embeddings文件夹。在提示词框中输入embedding:模型文件名即可调用。安装ComfyUI-Custom-Scripts插件可实现自动补全。 -
LoRA :使用
Lora Loader节点。将其连接到Checkpoint Loader和CLIP Text Encode节点之间。可通过模型强度和CLIP强度调节影响程度。使用efficiency-nodes-comfyui插件可方便地堆叠多个LoRA。
-
-
第二阶段:高级控制、优化与新兴架构
掌握基础后,可以学习更精细的控制和优化方法。
-
ControlNet & T2I-Adapter
-
是什么 :通过提取输入图像的边缘、深度、姿势、语义分割等特征图,在生成过程中严格约束输出图像的构图。
-
如何学 :工作流核心是
ControlNet Apply节点。从最常用的Canny(线稿)和OpenPose(姿态)开始。strength参数控制约束强度。
-
-
Upscale Models(超分辨率)
-
是什么 :如
ESRGAN、Real-ESRGAN等,用于提升图像分辨率和细节。 -
如何学 :在生成流程末端,使用
UltimateSDUpscale等节点,加载.pth格式的超分模型进行放大。
-
-
新兴图像生成架构
-
SDXL & SD3 :Stability AI 的主力模型。SDXL 采用两阶段(Base+Refiner)流程,对提示词理解更好。SD3 是更新的扩散模型。
-
Flux / Flux 2 :Stability AI 的下一代架构,采用"流匹配"范式,在提示词跟随和图像质量上表现优异,正逐渐成为新的工业标准。
-
LCM & SDXL Turbo :实时生成技术。通过极少的采样步数(1-4步)快速生成图像,牺牲少量多样性换取速度,适合快速迭代。
-
Stable Cascade :三阶段模型,在极低显存下实现高质量生成,研究其工作流有助于理解级联生成思想。
-
第三阶段:动态生成、3D与前沿探索
这是目前AIGC研究最活跃的领域。
-
视频生成
-
Stable Video Diffusion (SVD):将图像扩展为短视频片段。工作流涉及加载SVD专用模型和时序采样器。
-
AnimateDiff :将静态图像模型动画化的核心技术。通过注入运动模块,让任何SD模型产出短视频。
-
新兴模型 :你提到的
Mochi、Hunyuan Video、Nvidia Cosmos等都是各家发布的最新视频生成模型,架构和性能各异,需关注其官方文档和社区工作流。
-
-
3D生成
-
核心任务:从单图或文本生成3D网格或神经辐射场(NeRF)。
-
相关技术 :
Hunyuan3D、Stable Zero123等。在ComfyUI中通常通过特定插件(如ComfyUI-3D-Pack)实现,流程复杂,涉及多视角生成与重建。
-
-
音频及其他跨模态模型
- 目前音频生成(如
Stable Audio)在ComfyUI中集成较少,更多使用独立工具或WebUI插件。
- 目前音频生成(如
🎯 综合学习与进阶建议
-
学习资源策略:
-
系统学习:对于第一阶段的基础知识,可以寻找一本系统性书籍,例如搜索结果中提到的《ComfyUI+FLUX+SDXL商业应用入门到精通》,它涵盖了从基础到SDXL、FLUX等内容。
-
前沿追踪 :对于第二阶段及之后的新模型和技术,最好的方式是关注GitHub官方仓库、Hugging Face模型页面和英文社区(如ComfyUI Reddit)。这些技术迭代极快,中文教程常有滞后。
-
-
动手实践项目 :
要融合多项技术,可以尝试这个综合项目:"修复并重塑一张旧照片"。
-
步骤1(修复) :使用
Inpainting中的VAE内补编码器或潜空间噪波遮罩修复照片破损处。 -
步骤2(风格转换) :使用
Img2Img结合一个艺术风格LoRA,将照片转为油画或漫画风。 -
步骤3(局部精修) :用
ControlNet Inpaint锁定人物姿势,通过提示词尝试为人物更换服装。 -
步骤4(高清化) :最后使用
UltimateSDUpscale节点进行高清放大。 -
步骤5(动画化 - 高阶) :尝试使用
AnimateDiff工作流,让生成的照片人物动起来。
-
这个路线图涵盖了从基础到前沿的主要方向。技术日新月异,最重要的是建立核心概念体系(如潜空间、噪声调度、条件控制),这样无论新模型叫什么名字,你都能快速理解其原理并上手。
核心技术对比一览表
下表涵盖了图像生成、控制、微调和视频等主流技术,你可以快速了解其核心特点。
| 技术名称 | 技术类型 / 所属模型 | 核心原理 / 特点 | 优势 | 劣势 / 挑战 | 效率特点 | 硬件要求 (推理/训练) |
|---|---|---|---|---|---|---|
| Img2Img | 基础图像转换 | 基于输入图像与噪声,在潜空间中进行有引导的重绘。 | 创意发散、风格转换的起点。 | 对原图依赖强,改变过大易导致崩坏。 | 与传统文生图接近。 | 消费级显卡 (如RTX 3060 12G)。 |
| img2img-turbo | 快速图像转换 | 单步扩散,将多步采样压缩为一次前向传播,实现毫秒级转换。 | 速度极快 (A100上约0.11秒),质量尚可。 | 复杂场景细节保真度不如多步模型。 | 推理效率极高,适合实时应用。 | 训练需较大显存(建议≥16GB),推理要求低。 |
| Inpainting | 图像修复/补全 | 利用深度学习(CNN, GAN, Diffusion)预测并填充图像缺失区域。 | 可智能修复、去水印、修改局部内容。 | 复杂结构、大区域修复易出现不合理内容。 | 取决于具体算法与修复区域大小。 | 消费级到专业级,区域越大、要求越高。 |
| LoRA | 模型微调 | 低秩适配,通过训练少量额外参数(低秩矩阵)来微调大模型。 | 高效节省资源,模型小,切换方便,效果好。 | 对复杂概念学习能力有限,可能过拟合。 | 训练快,参数少,对显存要求低。 | 极低,可在消费级显卡(如8GB)上训练大模型。 |
| Hypernetworks | 模型微调 | 训练一个小型外部网络,动态生成主网络的权重参数。 | 灵活,可动态调整模型行为。 | 通常图像质量略低,训练相对复杂。 | 推理有额外计算开销。 | 中等,高于LoRA。 |
| Embeddings/ Textual Inversion | 模型微调 | 将新概念反转编码为文本嵌入向量,通过提示词调用。 | 文件极小,无需改变模型,适合学习特定风格。 | 对物体、人物的精确重现能力弱。 | 训练慢,但使用无额外开销。 | 训练对显存要求低,但需要大量迭代和数据。 |
| ControlNet / T2I-Adapter | 图像生成控制 | 额外网络,以边缘、姿态、深度等图为条件,精确控制生成构图。 | 控制力极强,解锁精准绘图、姿态复刻等能力。 | 需准备条件图,调试参数需经验。 | 显著增加计算量,降低生成速度。 | 显存要求高,尤其大图或多单元组合。 |
| Upscale Models | 图像超分辨率 | 如ESRGAN,使用GAN网络从低清图生成高清细节。 | 显著提升图像分辨率和细节。 | 可能产生虚假纹理,计算量大。 | 模型参数量大,推理耗时。 | 依赖显存与算力,4x以上放大需要好显卡。 |
| SDXL | 基础生成模型 | Stable Diffusion 的升级版,两阶段(Base+Refiner)架构,生成质量更高。 | 画质、提示词理解、构图均有显著提升。 | 模型更大,计算更慢,显存消耗更高。 | 比SD1.5慢约50%-100%。 | 建议8G以上显存,理想是12G+。 |
| LCM | 加速采样器 | 潜空间一致性模型,通过大幅减少采样步数实现快速生成。 | 极速生成,5-10步即可得到可接受效果。 | 图像质量与多样性有损失。 | 速度提升一个数量级。 | 显著降低对显存和算力的即时需求。 |
| SDXL Turbo | 快速生成模型 | 基于对抗性扩散蒸馏技术,1步即可生成图像。 | 实时生成速度,体验革命。 | 图像质量、细节和多样性牺牲明显。 | 单步生成,速度最快。 | 要求较低,但因架构差异仍需适配。 |
| Stable Cascade | 多阶段生成模型 | 三阶段(A/B/C)架构,先在极低维潜空间生成,再逐步解码上采样。 | 质量高,理论上可在低显存下训练极大模型。 | 工作流复杂,总生成步骤可能更多。 | 因多阶段,端到端时间未必最快。 | 推理要求友好,训练阶段C对硬件要求高。 |
| Stable Video Diffusion | 视频生成模型 | 图像扩散模型的时序扩展,生成短视频片段。 | 实现图生视频,动作相对连贯。 | 时长短,分辨率低,可控性弱。 | 计算密集,生成数秒视频需大量算力。 | 极高,通常需要专业级显卡(如A100)。 |
| Wan (万相) 2.1 | 视频生成模型 | 基于DiT架构,采用因果3D VAE与特征缓存支持长视频。 | 运动表现复杂,开源且消费级显卡可运行(1.3B版)。 | 作为较新模型,社区生态和工具链待完善。 | 优化了长视频生成的效率。 | 亲民 ,1.3B版本仅需约8.2GB显存。 |
| GLIGEN | 生成控制 | 通过** grounding token** 实现精准的开放式空间控制(如将特定物体放于指定框内)。 | 实现传统ControlNet难以做到的开放词汇物体定位。 | 训练数据要求高,应用不如ControlNet普及。 | 推理有额外开销。 | 高,类似ControlNet。 |
| unCLIP | 模型架构 | 如DALL-E 2,以CLIP图像嵌入为条件,实现"画风模仿"等高级图生图。 | 对画面整体风格、氛围控制力强。 | 对具体细节控制力较弱。 | 模型通常较大。 | 高。 |
| Model Merging | 模型操作 | 将多个模型的权重按比例合并,创造新模型。 | 快速融合不同能力(如画风+ prompt理解)。 | 结果不稳定,需大量实验,易产生"尸块"。 | 合并过程本身快,但测试筛选耗时。 | 取决于被合并模型的大小。 |
🔍 技术选型与补充说明
面对众多技术,你可以根据需求,参考以下思路进行选择:
-
明确你的核心目标:
-
追求最高质量与可控性 :首选 SDXL 作为基础模型,结合 ControlNet 进行精准控制,再用 LoRA 定制风格或主体。
-
追求速度与实时交互 :探索 SDXL Turbo 或 LCM,它们能以牺牲少量质量为代价,换取数十倍的生成速度。
-
进行局部修改或修复 :Inpainting 是你的核心工具,需熟练掌握。
-
从图片生成短视频 :可从 Stable Video Diffusion 或对硬件更友好的 Wan 2.1 入手。
-
微调个性化模型 :LoRA 是效率最高、最普及的首选方案。
-
-
关于未详尽列入的模型 :
你列表中的许多模型(如 SD3、Flux、Flux 2、Hunyuan系列、Omnigen2、Mochi、Cosmos、HiDream、Qwen Image、Z Image、Audio Models 等)属于以下情况,因此难以进行公平、量化的横向对比:
-
闭源或未全面开源:缺乏公开的基准测试和硬件要求数据。
-
发布极为前沿:尚未形成稳定的社区评测共识。
-
属于不同公司的竞品:官方数据宣称各异,缺乏统一测试。
-
专用领域模型 :如3D(Hunyuan3D 2.0)、音频,与2D图像生成范式不同。
-
-
硬件要求通识:
-
推理 :多数技术可在RTX 3060 12GB 这类显卡上运行。使用LCM、Turbo等加速技术可大幅降低门槛。
-
训练/微调 :LoRA 技术让消费级显卡训练大模型成为可能。全模型训练或视频生成训练,仍需RTX 4090 24GB及以上级别的专业硬件。
-
关键瓶颈 :除了GPU,大容量内存(32GB+) 、高速固态硬盘 和稳定的电源对大规模工作流同样重要。
-
💎 总结与建议
掌握AI图像生成,关键在于构建 "基础模型 + 控制技术 + 微调方法" 的三层知识体系。建议你先从 SDXL 的基础文生图、Img2Img 、Inpainting 开始,再逐步攻克 ControlNet 和 LoRA。待熟悉这些核心工具后,前沿模型的新特性