ComfyUI 之路:学习图谱

ComfyUI 大师之路:四阶段学习图谱

下面的学习路线图为你规划了一条清晰的成长路径,你可以跟随它逐步深入。

第一阶段:核心基础与精准修改

本阶段目标是掌握静态图像生成的核心工作流与修改技术。

  1. Img2Img(图生图)

    • 是什么:以输入图像为起点,结合提示词生成新图像。

    • 如何学 :在ComfyUI中,基础工作流是 Load Image -> VAE Encode -> KSampler -> VAE Decode。关键参数 denoise(降噪强度)控制结果与原图的偏离程度,值越高变化越大。

    • 学习建议 :从提供的工作流入手,反复调整 denoise 值,观察图像在"忠实原图"和"自由创造"之间的连续变化。

  2. Inpainting(局部重绘)

    • 是什么:对图像的指定区域(遮罩)进行重绘,保持其他部分不变。

    • 如何学:这是重点。你需要掌握三种核心方法,它们原理不同,适用于不同场景:

      • VAE内补编码器 (VAEEncodeForInpaint):完全重写遮罩区域,适合替换为无关的新内容。关键:必须使用此专用节点而非普通VAE编码器。

      • 潜空间噪波遮罩 (Set Latent Noise Mask):在潜空间添加噪声时保留遮罩区域原信息,适合微调(如给人像加眼镜)。

      • ControlNet Inpaint :用专用Inpaint模型(如 control_v11p_sd15_inpaint)严格约束遮罩区域的构图,适合保持姿态的大修改(如换人)。

    • 避坑指南

      • 边缘生硬 :使用 Mask Feather 节点对遮罩进行24px以上的羽化。

      • 内容不符 :提高 cfg 值或增加提示词权重。

      • 面部畸形 :在提示词中添加负面词(如 deformed),或使用 ADetailer 等面部修复插件。

  3. Embeddings / Textual Inversion & LoRA & Hypernetworks(模型微调)

    • 是什么与区别

      • Embeddings :本质是几个特殊的提示词向量,用于固定特征或作为负面约束。它不改变模型权重,能力较弱但使用简单。

      • LoRA :通过注入少量额外训练权重来修改模型,擅长学习特定人物、风格或物品,是主流微调方式。

      • Hypernetworks:早期通过额外网络调整模型参数的技术,已逐渐被LoRA取代。

    • 如何学

      • Embeddings :模型放入 models/embeddings 文件夹。在提示词框中输入 embedding:模型文件名 即可调用。安装 ComfyUI-Custom-Scripts 插件可实现自动补全。

      • LoRA :使用 Lora Loader 节点。将其连接到 Checkpoint LoaderCLIP Text Encode 节点之间。可通过 模型强度CLIP强度 调节影响程度。使用 efficiency-nodes-comfyui 插件可方便地堆叠多个LoRA。

第二阶段:高级控制、优化与新兴架构

掌握基础后,可以学习更精细的控制和优化方法。

  1. ControlNet & T2I-Adapter

    • 是什么 :通过提取输入图像的边缘、深度、姿势、语义分割等特征图,在生成过程中严格约束输出图像的构图。

    • 如何学 :工作流核心是 ControlNet Apply 节点。从最常用的 Canny(线稿)和 OpenPose(姿态)开始。strength 参数控制约束强度。

  2. Upscale Models(超分辨率)

    • 是什么 :如 ESRGANReal-ESRGAN 等,用于提升图像分辨率和细节。

    • 如何学 :在生成流程末端,使用 UltimateSDUpscale 等节点,加载 .pth 格式的超分模型进行放大。

  3. 新兴图像生成架构

    • SDXL & SD3 :Stability AI 的主力模型。SDXL 采用两阶段(Base+Refiner)流程,对提示词理解更好。SD3 是更新的扩散模型。

    • Flux / Flux 2 :Stability AI 的下一代架构,采用"流匹配"范式,在提示词跟随和图像质量上表现优异,正逐渐成为新的工业标准。

    • LCM & SDXL Turbo实时生成技术。通过极少的采样步数(1-4步)快速生成图像,牺牲少量多样性换取速度,适合快速迭代。

    • Stable Cascade三阶段模型,在极低显存下实现高质量生成,研究其工作流有助于理解级联生成思想。

第三阶段:动态生成、3D与前沿探索

这是目前AIGC研究最活跃的领域。

  1. 视频生成

    • Stable Video Diffusion (SVD):将图像扩展为短视频片段。工作流涉及加载SVD专用模型和时序采样器。

    • AnimateDiff将静态图像模型动画化的核心技术。通过注入运动模块,让任何SD模型产出短视频。

    • 新兴模型 :你提到的 MochiHunyuan VideoNvidia Cosmos 等都是各家发布的最新视频生成模型,架构和性能各异,需关注其官方文档和社区工作流。

  2. 3D生成

    • 核心任务:从单图或文本生成3D网格或神经辐射场(NeRF)。

    • 相关技术Hunyuan3DStable Zero123 等。在ComfyUI中通常通过特定插件(如 ComfyUI-3D-Pack)实现,流程复杂,涉及多视角生成与重建。

  3. 音频及其他跨模态模型

    • 目前音频生成(如 Stable Audio)在ComfyUI中集成较少,更多使用独立工具或WebUI插件。

🎯 综合学习与进阶建议

  1. 学习资源策略

    • 系统学习:对于第一阶段的基础知识,可以寻找一本系统性书籍,例如搜索结果中提到的《ComfyUI+FLUX+SDXL商业应用入门到精通》,它涵盖了从基础到SDXL、FLUX等内容。

    • 前沿追踪 :对于第二阶段及之后的新模型和技术,最好的方式是关注GitHub官方仓库、Hugging Face模型页面和英文社区(如ComfyUI Reddit)。这些技术迭代极快,中文教程常有滞后。

  2. 动手实践项目

    要融合多项技术,可以尝试这个综合项目:"修复并重塑一张旧照片"

    • 步骤1(修复) :使用 Inpainting 中的 VAE内补编码器潜空间噪波遮罩 修复照片破损处。

    • 步骤2(风格转换) :使用 Img2Img 结合一个艺术风格LoRA,将照片转为油画或漫画风。

    • 步骤3(局部精修) :用 ControlNet Inpaint 锁定人物姿势,通过提示词尝试为人物更换服装。

    • 步骤4(高清化) :最后使用 UltimateSDUpscale 节点进行高清放大。

    • 步骤5(动画化 - 高阶) :尝试使用 AnimateDiff 工作流,让生成的照片人物动起来。

这个路线图涵盖了从基础到前沿的主要方向。技术日新月异,最重要的是建立核心概念体系(如潜空间、噪声调度、条件控制),这样无论新模型叫什么名字,你都能快速理解其原理并上手。

核心技术对比一览表

下表涵盖了图像生成、控制、微调和视频等主流技术,你可以快速了解其核心特点。

技术名称 技术类型 / 所属模型 核心原理 / 特点 优势 劣势 / 挑战 效率特点 硬件要求 (推理/训练)
Img2Img 基础图像转换 基于输入图像与噪声,在潜空间中进行有引导的重绘。 创意发散、风格转换的起点。 对原图依赖强,改变过大易导致崩坏。 与传统文生图接近。 消费级显卡 (如RTX 3060 12G)。
img2img-turbo 快速图像转换 单步扩散,将多步采样压缩为一次前向传播,实现毫秒级转换。 速度极快 (A100上约0.11秒),质量尚可。 复杂场景细节保真度不如多步模型。 推理效率极高,适合实时应用。 训练需较大显存(建议≥16GB),推理要求低。
Inpainting 图像修复/补全 利用深度学习(CNN, GAN, Diffusion)预测并填充图像缺失区域。 可智能修复、去水印、修改局部内容。 复杂结构、大区域修复易出现不合理内容。 取决于具体算法与修复区域大小。 消费级到专业级,区域越大、要求越高。
LoRA 模型微调 低秩适配,通过训练少量额外参数(低秩矩阵)来微调大模型。 高效节省资源,模型小,切换方便,效果好。 对复杂概念学习能力有限,可能过拟合。 训练快,参数少,对显存要求低 极低,可在消费级显卡(如8GB)上训练大模型。
Hypernetworks 模型微调 训练一个小型外部网络,动态生成主网络的权重参数。 灵活,可动态调整模型行为。 通常图像质量略低,训练相对复杂。 推理有额外计算开销。 中等,高于LoRA。
Embeddings/ Textual Inversion 模型微调 将新概念反转编码为文本嵌入向量,通过提示词调用。 文件极小,无需改变模型,适合学习特定风格。 对物体、人物的精确重现能力弱。 训练慢,但使用无额外开销。 训练对显存要求低,但需要大量迭代和数据。
ControlNet / T2I-Adapter 图像生成控制 额外网络,以边缘、姿态、深度等图为条件,精确控制生成构图 控制力极强,解锁精准绘图、姿态复刻等能力。 需准备条件图,调试参数需经验。 显著增加计算量,降低生成速度。 显存要求高,尤其大图或多单元组合。
Upscale Models 图像超分辨率 如ESRGAN,使用GAN网络从低清图生成高清细节。 显著提升图像分辨率和细节。 可能产生虚假纹理,计算量大。 模型参数量大,推理耗时。 依赖显存与算力,4x以上放大需要好显卡。
SDXL 基础生成模型 Stable Diffusion 的升级版,两阶段(Base+Refiner)架构,生成质量更高。 画质、提示词理解、构图均有显著提升。 模型更大,计算更慢,显存消耗更高。 比SD1.5慢约50%-100%。 建议8G以上显存,理想是12G+。
LCM 加速采样器 潜空间一致性模型,通过大幅减少采样步数实现快速生成。 极速生成,5-10步即可得到可接受效果。 图像质量与多样性有损失。 速度提升一个数量级 显著降低对显存和算力的即时需求。
SDXL Turbo 快速生成模型 基于对抗性扩散蒸馏技术,1步即可生成图像 实时生成速度,体验革命。 图像质量、细节和多样性牺牲明显。 单步生成,速度最快。 要求较低,但因架构差异仍需适配。
Stable Cascade 多阶段生成模型 三阶段(A/B/C)架构,先在极低维潜空间生成,再逐步解码上采样。 质量高,理论上可在低显存下训练极大模型 工作流复杂,总生成步骤可能更多。 因多阶段,端到端时间未必最快。 推理要求友好,训练阶段C对硬件要求高。
Stable Video Diffusion 视频生成模型 图像扩散模型的时序扩展,生成短视频片段。 实现图生视频,动作相对连贯。 时长短,分辨率低,可控性弱。 计算密集,生成数秒视频需大量算力。 极高,通常需要专业级显卡(如A100)。
Wan (万相) 2.1 视频生成模型 基于DiT架构,采用因果3D VAE与特征缓存支持长视频。 运动表现复杂,开源且消费级显卡可运行(1.3B版)。 作为较新模型,社区生态和工具链待完善。 优化了长视频生成的效率。 亲民 ,1.3B版本仅需约8.2GB显存
GLIGEN 生成控制 通过** grounding token** 实现精准的开放式空间控制(如将特定物体放于指定框内)。 实现传统ControlNet难以做到的开放词汇物体定位 训练数据要求高,应用不如ControlNet普及。 推理有额外开销。 高,类似ControlNet。
unCLIP 模型架构 如DALL-E 2,以CLIP图像嵌入为条件,实现"画风模仿"等高级图生图。 对画面整体风格、氛围控制力强。 对具体细节控制力较弱。 模型通常较大。 高。
Model Merging 模型操作 将多个模型的权重按比例合并,创造新模型。 快速融合不同能力(如画风+ prompt理解)。 结果不稳定,需大量实验,易产生"尸块"。 合并过程本身快,但测试筛选耗时。 取决于被合并模型的大小。

🔍 技术选型与补充说明

面对众多技术,你可以根据需求,参考以下思路进行选择:

  1. 明确你的核心目标

    • 追求最高质量与可控性 :首选 SDXL 作为基础模型,结合 ControlNet 进行精准控制,再用 LoRA 定制风格或主体。

    • 追求速度与实时交互 :探索 SDXL TurboLCM,它们能以牺牲少量质量为代价,换取数十倍的生成速度。

    • 进行局部修改或修复Inpainting 是你的核心工具,需熟练掌握。

    • 从图片生成短视频 :可从 Stable Video Diffusion 或对硬件更友好的 Wan 2.1 入手。

    • 微调个性化模型LoRA 是效率最高、最普及的首选方案。

  2. 关于未详尽列入的模型

    你列表中的许多模型(如 SD3、Flux、Flux 2、Hunyuan系列、Omnigen2、Mochi、Cosmos、HiDream、Qwen Image、Z Image、Audio Models 等)属于以下情况,因此难以进行公平、量化的横向对比:

    • 闭源或未全面开源:缺乏公开的基准测试和硬件要求数据。

    • 发布极为前沿:尚未形成稳定的社区评测共识。

    • 属于不同公司的竞品:官方数据宣称各异,缺乏统一测试。

    • 专用领域模型 :如3D(Hunyuan3D 2.0)、音频,与2D图像生成范式不同。

  3. 硬件要求通识

    • 推理 :多数技术可在RTX 3060 12GB 这类显卡上运行。使用LCM、Turbo等加速技术可大幅降低门槛。

    • 训练/微调LoRA 技术让消费级显卡训练大模型成为可能。全模型训练或视频生成训练,仍需RTX 4090 24GB及以上级别的专业硬件。

    • 关键瓶颈 :除了GPU,大容量内存(32GB+)高速固态硬盘稳定的电源对大规模工作流同样重要。

💎 总结与建议

掌握AI图像生成,关键在于构建 "基础模型 + 控制技术 + 微调方法" 的三层知识体系。建议你先从 SDXL 的基础文生图、Img2ImgInpainting 开始,再逐步攻克 ControlNetLoRA。待熟悉这些核心工具后,前沿模型的新特性

相关推荐
Mr数据杨1 天前
【ComfyUI】Wan2.2 Smooth Mix 通用主题电影质感图生视频
comfyui
Mr数据杨2 天前
【ComfyUI】Wan2.2 Animate 背景保留动作迁移视频生成
comfyui
feasibility.2 天前
混元3D-dit-v2-mv-turbo生成3D模型初体验(ComfyUI)
人工智能·3d·aigc·三维建模·comfyui
Mr数据杨3 天前
【ComfyUI】FluxKontext 人物服装平铺重构
comfyui
Mr数据杨4 天前
【ComfyUI】WanVACE 视频扩展重绘
comfyui
Mr数据杨5 天前
【ComfyUI】Flux2 万物转材质图像生成
comfyui
jiang_changsheng10 天前
comfyui节点插件笔记总结新增加
人工智能·算法·计算机视觉·comfyui
海棠AI实验室10 天前
第 7 篇:ComfyUI 电商工作流骨架
comfyui·shopify
亿风行11 天前
ComfyUI跨平台兼容性测试:Windows/Linux/macOS表现对比
comfyui· 跨平台兼容性· windows