Comfyui 教程-2

  1. ComfyUI支持的 基础 模型类型

ComfyUI 采用模块化设计,通过不同的加载节点支持多种模型类型 ++++https://docs.comfy.org/development/core-concepts/models++++ :

|---------------------------|-----------------------------|--------------|
| 模型类型 | 说明 | 典型大小 |
| Checkpoint(大模型/底模) | 主生成模型,如 SD 1.5、SDXL、Flux 等 | 2--23 GB |
| LoRA | 轻量级微调模型,用于风格/人物/概念 | 几十 MB--几百 MB |
| VAE | 变分自编码器,影响图像色彩和细节 | 几百 MB |
| ControlNet | 控制生成结构的模型(姿态、边缘、深度等) | 1--2 GB |
| Embedding | 文本嵌入,用于优化提示词效果 | 几十 KB--几 MB |
| Upscale 模型 | 图像放大模型(如 RealESRGAN、SwinIR) | 几十 MB |
| IP-Adapter / FaceSwap | 图像参考/换脸模型 | 几百 MB--几 GB |
| GGUF 量化模型 | 社区支持的量化格式(需安装自定义节点) | 视量化精度而定 |

3.1 Checkpoint(大模型/底模)

3.1.1Checkpoint 简介

一、定义

Checkpoint(检查点/大模型/底模)是 Stable Diffusion 及 ComfyUI 生态中的核心主模型 ,是经过完整训练保存的神经网络权重文件。它包含了图像生成所需的全部核心参数,是整个 AI 绘画流程的"大脑"和"基石"。

二、文件特征

|----------|---------------------------------------------------------|
| 特征 | 说明 |
| 文件大小 | 2GB -- 23GB(SD 1.5 约 4GB,SDXL 约 6--7GB,Flux Dev 约 23GB) |
| 文件格式 | .safetensors(推荐,安全快速)/ .ckpt(旧格式,有安全风险)/ .gguf(量化格式) |
| 命名习惯 | 通常以模型名 + 版本号命名,如 flux1-dev.safetensors |
| 存放路径 | ComfyUI 的 models/checkpoints/ 目录下 |

三、核心组成

Checkpoint 内部包含以下关键模块:

|-------------------------|--------|------------------------|
| 模块 | 功能 | 说明 |
| U-Net(去噪网络) | 核心生成引擎 | 负责从噪声逐步还原出图像,决定画质和细节 |
| 文本编码器(Text Encoder) | 理解提示词 | 将文字描述转换为模型可理解的语义向量 |
| VAE(变分自编码器) | 图像编解码 | 负责潜空间与像素空间的转换,影响色彩和清晰度 |

注:部分 Checkpoint 将 VAE 内置,部分需外接独立 VAE 模型。

四、核心作用

|--------------|-----------------------------------------------|
| 作用 | 说明 |
| 决定基础画风 | 写实、二次元、插画、3D 等整体视觉方向 |
| 控制语义理解 | 对提示词的理解深度和准确度 |
| 限定分辨率能力 | 原生支持 512²、1024² 或更高 |
| 影响生成质量上限 | 模型的训练质量和架构决定最终出图天花板 |
| 承载其他模型 | LoRA、ControlNet、Embedding 等都依附于 Checkpoint 运行 |

五、与其他模型的关系

比喻 :Checkpoint 是"地基和主体结构",其他模型是"装修、家具和软装"。没有 Checkpoint,其他模型无法独立工作。

六、使用方式

在 ComfyUI 中,通过 Load Checkpoint 节点加载:

  1. 一个工作流只能有一个主 Checkpoint (可通过切换节点更换)
  2. 更换 Checkpoint 会完全改变 生成结果的基础风格和质量
  3. 可通过 CheckpointLoaderSimple 或带 VAE 选择的 CheckpointLoader 节点加载

七、选择要点

|------------|----------------------------------------------------|
| 考虑因素 | 建议 |
| 显存大小 | 4GB 选 SD 1.5,8GB 选 SDXL,12GB+ 选 Flux |
| 目标风格 | 写实选 Realistic Vision/Juggernaut,二次元选 Pony/MeinaMix |
| 文字生成需求 | 需要生成文字选 Flux 或 SD3.5 |
| 商用需求 | 确认模型许可协议(Flux Dev/Schnell、SD 1.5/SDXL 通常可商用) |
| 生态资源 | 需要大量 LoRA 配套选 SD 1.5 或 SDXL,Flux 生态快速增长中 |

八、一句话总结

Checkpoint 是 ComfyUI 图像生成的"操作系统" ------它决定了你能画出什么质量、什么风格的图,是所有其他模型和功能得以运行的基础平台。选对 Checkpoint,是成功出图的第一步。

常见模型

|---------------------------|-------------------------------|---------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------|-----------------------------------------|---------------------------|
| 系列 | 侧重点 | 代表模型 | 现状 | 是否可商用 | 是否支持自然语言 |
| SD 1.5 | 生态最成熟、入门门槛低、特定风格资源丰富 | v1-5-pruned-emaonly(官方)、Realistic Vision、DreamShaper、MeinaMix、ChilloutMix | 架构老旧但生态庞大,大量特定风格微调模型仍基于此,适合低显存和特定需求场景 | ✅ 可商用(官方协议允许) | ❌ 不支持,需结构化提示词(括号权重、关键词堆砌) |
| SDXL | 1024 原生分辨率、提示词理解大幅提升、写实与通用质量高 | SDXL Base + Refiner(官方)、Juggernaut XL、Pony Diffusion V6 XL、DreamShaper XL、RealVisXL、SDXL Lightning/Turbo | 2023--2024 年主流,生态丰富,现逐渐被 Flux 替代,但仍是性价比之选,大量工作流基于此 | ✅ 可商用 | ⚠️ 有限支持,比 1.5 强但仍需一定技巧 |
| SD3 / SD3.5 | 全新 DiT 架构、文字生成能力极强、多分辨率灵活 | SD3 Medium、SD3 Large、SD3.5 Large、SD3.5 Large Turbo | 架构革新但社区生态建设较慢,LoRA 和微调资源少于 SDXL 和 Flux,部分版本商用受限 | ⚠️ 部分受限(需查看具体版本许可) | ✅ 支持,理解能力显著提升 |
| Flux.1 | 当前开源质量天花板、提示词理解极佳、文字渲染顶尖 | Flux.1 Dev、Flux.1 Schnell、Flux.1 Pro(仅 API)、Flux.1 Fill(扩图/重绘)、Flux.1 Canny/Depth(ControlNet 版) | 2024 下半年至今的社区主流,生态快速增长,大量基于 Flux 的微调模型和 LoRA 涌现,当前首选 | ✅ Dev/Schnell 可商用(Apache 2.0),Pro 仅 API | ✅ 优秀支持,自然语言描述效果极佳 |
| Kolors | 中文理解优秀、国人审美优化、中文场景生成 | Kolors(快手官方) | 国产开源模型,中文提示词效果好,但国际社区资源相对少,主要在国内活跃 | ✅ 可商用 | ✅ 支持,中文自然语言效果突出 |
| 混元-DiT | 中文场景优化、DiT 架构、多分辨率 | HunyuanDiT(腾讯官方) | 腾讯开源,中文理解好,但社区生态和微调资源不如 Flux 丰富 | ✅ 可商用 | ✅ 支持 |
| Wan 2.1 / Wan 2.2 | 视频生成为主,兼顾图像、多模态理解 | Wan 2.1(阿里官方)、Wan 2.2(阿里官方,待发布/已发布) | 阿里开源的视频生成模型,Wan 2.1 已是当前开源视频生成 SOTA 之一,Wan 2.2 为下一代升级版本,图像生成能力同步提升,社区快速跟进中 | ✅ 可商用 | ✅ 支持,自然语言理解能力强 |
| PixArt | 高效轻量 DiT、快速推理、成本优化 | PixArt-α、PixArt-Σ(华为诺亚) | 主打高效和低成本,适合资源受限场景,社区资源一般,更多用于研究参考 | ✅ 可商用 | ✅ 支持 |
| UltraPixel | 超高分辨率生成、细节极致 | UltraPixel(华为) | 专攻高分辨率(4K+)图像生成,应用场景较窄,社区资源有限 | 需查看具体许可 | ⚠️ 有限支持 |
| Playground v2.5 / v3 | 美学优化、色彩丰富、设计感强 | Playground v2.5、Playground v3 | 由 Playground AI 发布,美学风格独特,社区资源一般,更多用于特定风格探索 | 需查看具体许可 | ✅ 支持 |
| Ideogram 类模型 | 文字渲染、海报设计 | 部分社区移植版本 | 闭源产品 Ideogram 的开源替代尝试,效果不及官方,生态极弱 | 视具体移植版本 | ✅ 支持 |
| Segmind Vega / SSD-1B | 轻量高速、SDXL 蒸馏版 | Segmind Vega、SSD-1B | 针对速度和效率优化的蒸馏模型,质量略低于完整 SDXL,适合快速预览和低端设备 | ✅ 可商用 | ⚠️ 有限支持 |

补充说明

|-------------|-----------------------------------------------------------------------------------------------------------|
| 项目 | 说明 |
| 自然语言支持 | 指模型是否能理解流畅的句子描述(如"一个穿着红色连衣裙的女孩站在樱花树下"),而非必须依赖逗号分隔的关键词堆砌。Flux、SD3、Kolors、混元、Wan 系列在此方面表现优秀。 |
| 商用许可 | 大部分开源模型(SD 1.5、SDXL、Flux Dev/Schnell、Kolors、混元、Wan)采用宽松许可可商用;SD3 部分版本、Playground、UltraPixel 等需仔细查看具体许可协议。 |
| Wan 2.2 | 截至 2026 年 6 月,Wan 2.2 为阿里万相大模型的最新迭代版本,在视频生成和图像理解/生成上进一步升级,具体发布时间需以官方公告为准,社区已有预热和适配准备。 |
| 当前首选推荐 | Flux.1 Dev 为图像生成首选(质量+生态+商用);Wan 2.1/2.2 为视频生成首选;显存有限选 SDXLFlux Schnell 。 |

相关推荐
NantongZhuoLIDa-Chen3 小时前
电铸雾化片的制造工艺流程是怎样的?
人工智能·制造·电铸·精密电铸·电铸喷孔板
Sam09273 小时前
AI Agent 沙箱怎么做:从文件、网络、工具到权限边界的工程实践
人工智能·ai
大嘴皮猴儿3 小时前
跨境电商运营笔记:我是如何用工具解决多语言素材问题的
大数据·人工智能·新媒体运营·自动翻译·教育电商
JS菌3 小时前
Skills 动态加载系统:让 AI Agent 按需获取领域知识
前端·人工智能·后端
赤龙ERP3 小时前
赤龙一周观察 · 6月第2周
大数据·人工智能·ai·erp
qq_291579253 小时前
霍客引擎与电商图片AI:智能视觉营销的新范式
人工智能
JGDT_3 小时前
ERP重塑与未来趋势:SAP的实践及大一统格局(上)
大数据·人工智能·安全·架构·开源
洛星核3 小时前
CrewAI 安装、使用方法详细全解
人工智能·github·人机交互·ai编程·agi·智能体