Comfyui 教程-2 - 技术栈

ComfyUI支持的 基础 模型类型

ComfyUI 采用模块化设计，通过不同的加载节点支持多种模型类型 ++++https://docs.comfy.org/development/core-concepts/models++++ ：

|---------------------------|-----------------------------|--------------|
| 模型类型 | 说明 | 典型大小 |
| Checkpoint（大模型/底模） | 主生成模型，如 SD 1.5、SDXL、Flux 等 | 2--23 GB |
| LoRA | 轻量级微调模型，用于风格/人物/概念 | 几十 MB--几百 MB |
| VAE | 变分自编码器，影响图像色彩和细节 | 几百 MB |
| ControlNet | 控制生成结构的模型（姿态、边缘、深度等） | 1--2 GB |
| Embedding | 文本嵌入，用于优化提示词效果 | 几十 KB--几 MB |
| Upscale 模型 | 图像放大模型（如 RealESRGAN、SwinIR） | 几十 MB |
| IP-Adapter / FaceSwap | 图像参考/换脸模型 | 几百 MB--几 GB |
| GGUF 量化模型 | 社区支持的量化格式（需安装自定义节点） | 视量化精度而定 |

3.1 Checkpoint（大模型/底模）

3.1.1Checkpoint 简介

一、定义

Checkpoint（检查点/大模型/底模）是 Stable Diffusion 及 ComfyUI 生态中的核心主模型 ，是经过完整训练保存的神经网络权重文件。它包含了图像生成所需的全部核心参数，是整个 AI 绘画流程的"大脑"和"基石"。

二、文件特征

|----------|---------------------------------------------------------|
| 特征 | 说明 |
| 文件大小 | 2GB -- 23GB（SD 1.5 约 4GB，SDXL 约 6--7GB，Flux Dev 约 23GB） |
| 文件格式 | .safetensors（推荐，安全快速）/ .ckpt（旧格式，有安全风险）/ .gguf（量化格式） |
| 命名习惯 | 通常以模型名 + 版本号命名，如 flux1-dev.safetensors |
| 存放路径 | ComfyUI 的 models/checkpoints/ 目录下 |

三、核心组成

Checkpoint 内部包含以下关键模块：

|-------------------------|--------|------------------------|
| 模块 | 功能 | 说明 |
| U-Net（去噪网络） | 核心生成引擎 | 负责从噪声逐步还原出图像，决定画质和细节 |
| 文本编码器（Text Encoder） | 理解提示词 | 将文字描述转换为模型可理解的语义向量 |
| VAE（变分自编码器） | 图像编解码 | 负责潜空间与像素空间的转换，影响色彩和清晰度 |

注：部分 Checkpoint 将 VAE 内置，部分需外接独立 VAE 模型。

四、核心作用

|--------------|-----------------------------------------------|
| 作用 | 说明 |
| 决定基础画风 | 写实、二次元、插画、3D 等整体视觉方向 |
| 控制语义理解 | 对提示词的理解深度和准确度 |
| 限定分辨率能力 | 原生支持 512²、1024² 或更高 |
| 影响生成质量上限 | 模型的训练质量和架构决定最终出图天花板 |
| 承载其他模型 | LoRA、ControlNet、Embedding 等都依附于 Checkpoint 运行 |

五、与其他模型的关系

比喻：Checkpoint 是"地基和主体结构"，其他模型是"装修、家具和软装"。没有 Checkpoint，其他模型无法独立工作。

六、使用方式

在 ComfyUI 中，通过 Load Checkpoint 节点加载：

一个工作流只能有一个主 Checkpoint （可通过切换节点更换）
更换 Checkpoint 会完全改变 生成结果的基础风格和质量
可通过 CheckpointLoaderSimple 或带 VAE 选择的 CheckpointLoader 节点加载

七、选择要点

|------------|----------------------------------------------------|
| 考虑因素 | 建议 |
| 显存大小 | 4GB 选 SD 1.5，8GB 选 SDXL，12GB+ 选 Flux |
| 目标风格 | 写实选 Realistic Vision/Juggernaut，二次元选 Pony/MeinaMix |
| 文字生成需求 | 需要生成文字选 Flux 或 SD3.5 |
| 商用需求 | 确认模型许可协议（Flux Dev/Schnell、SD 1.5/SDXL 通常可商用） |
| 生态资源 | 需要大量 LoRA 配套选 SD 1.5 或 SDXL，Flux 生态快速增长中 |

八、一句话总结

Checkpoint 是 ComfyUI 图像生成的"操作系统" ------它决定了你能画出什么质量、什么风格的图，是所有其他模型和功能得以运行的基础平台。选对 Checkpoint，是成功出图的第一步。

常见模型

|---------------------------|-------------------------------|---------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------|-----------------------------------------|---------------------------|
| 系列 | 侧重点 | 代表模型 | 现状 | 是否可商用 | 是否支持自然语言 |
| SD 1.5 | 生态最成熟、入门门槛低、特定风格资源丰富 | v1-5-pruned-emaonly（官方）、Realistic Vision、DreamShaper、MeinaMix、ChilloutMix | 架构老旧但生态庞大，大量特定风格微调模型仍基于此，适合低显存和特定需求场景 | ✅ 可商用（官方协议允许） | ❌ 不支持，需结构化提示词（括号权重、关键词堆砌） |
| SDXL | 1024 原生分辨率、提示词理解大幅提升、写实与通用质量高 | SDXL Base + Refiner（官方）、Juggernaut XL、Pony Diffusion V6 XL、DreamShaper XL、RealVisXL、SDXL Lightning/Turbo | 2023--2024 年主流，生态丰富，现逐渐被 Flux 替代，但仍是性价比之选，大量工作流基于此 | ✅ 可商用 | ⚠️ 有限支持，比 1.5 强但仍需一定技巧 |
| SD3 / SD3.5 | 全新 DiT 架构、文字生成能力极强、多分辨率灵活 | SD3 Medium、SD3 Large、SD3.5 Large、SD3.5 Large Turbo | 架构革新但社区生态建设较慢，LoRA 和微调资源少于 SDXL 和 Flux，部分版本商用受限 | ⚠️ 部分受限（需查看具体版本许可） | ✅ 支持，理解能力显著提升 |
| Flux.1 | 当前开源质量天花板、提示词理解极佳、文字渲染顶尖 | Flux.1 $Dev$ 、Flux.1 $Schnell$ 、Flux.1 $Pro$ （仅 API）、Flux.1 $Fill$ （扩图/重绘）、Flux.1 $Canny/Depth$ （ControlNet 版） | 2024 下半年至今的社区主流，生态快速增长，大量基于 Flux 的微调模型和 LoRA 涌现，当前首选 | ✅ Dev/Schnell 可商用（Apache 2.0），Pro 仅 API | ✅ 优秀支持，自然语言描述效果极佳 |
| Kolors | 中文理解优秀、国人审美优化、中文场景生成 | Kolors（快手官方） | 国产开源模型，中文提示词效果好，但国际社区资源相对少，主要在国内活跃 | ✅ 可商用 | ✅ 支持，中文自然语言效果突出 |
| 混元-DiT | 中文场景优化、DiT 架构、多分辨率 | HunyuanDiT（腾讯官方） | 腾讯开源，中文理解好，但社区生态和微调资源不如 Flux 丰富 | ✅ 可商用 | ✅ 支持 |
| Wan 2.1 / Wan 2.2 | 视频生成为主，兼顾图像、多模态理解 | Wan 2.1（阿里官方）、Wan 2.2（阿里官方，待发布/已发布） | 阿里开源的视频生成模型，Wan 2.1 已是当前开源视频生成 SOTA 之一，Wan 2.2 为下一代升级版本，图像生成能力同步提升，社区快速跟进中 | ✅ 可商用 | ✅ 支持，自然语言理解能力强 |
| PixArt | 高效轻量 DiT、快速推理、成本优化 | PixArt-α、PixArt-Σ（华为诺亚） | 主打高效和低成本，适合资源受限场景，社区资源一般，更多用于研究参考 | ✅ 可商用 | ✅ 支持 |
| UltraPixel | 超高分辨率生成、细节极致 | UltraPixel（华为） | 专攻高分辨率（4K+）图像生成，应用场景较窄，社区资源有限 | 需查看具体许可 | ⚠️ 有限支持 |
| Playground v2.5 / v3 | 美学优化、色彩丰富、设计感强 | Playground v2.5、Playground v3 | 由 Playground AI 发布，美学风格独特，社区资源一般，更多用于特定风格探索 | 需查看具体许可 | ✅ 支持 |
| Ideogram 类模型 | 文字渲染、海报设计 | 部分社区移植版本 | 闭源产品 Ideogram 的开源替代尝试，效果不及官方，生态极弱 | 视具体移植版本 | ✅ 支持 |
| Segmind Vega / SSD-1B | 轻量高速、SDXL 蒸馏版 | Segmind Vega、SSD-1B | 针对速度和效率优化的蒸馏模型，质量略低于完整 SDXL，适合快速预览和低端设备 | ✅ 可商用 | ⚠️ 有限支持 |

补充说明

|-------------|-----------------------------------------------------------------------------------------------------------|
| 项目 | 说明 |
| 自然语言支持 | 指模型是否能理解流畅的句子描述（如"一个穿着红色连衣裙的女孩站在樱花树下"），而非必须依赖逗号分隔的关键词堆砌。Flux、SD3、Kolors、混元、Wan 系列在此方面表现优秀。 |
| 商用许可 | 大部分开源模型（SD 1.5、SDXL、Flux Dev/Schnell、Kolors、混元、Wan）采用宽松许可可商用；SD3 部分版本、Playground、UltraPixel 等需仔细查看具体许可协议。 |
| Wan 2.2 | 截至 2026 年 6 月，Wan 2.2 为阿里万相大模型的最新迭代版本，在视频生成和图像理解/生成上进一步升级，具体发布时间需以官方公告为准，社区已有预热和适配准备。 |
| 当前首选推荐 | Flux.1 Dev 为图像生成首选（质量+生态+商用）；Wan 2.1/2.2 为视频生成首选；显存有限选 SDXL 或 Flux Schnell 。 |