
Stable Diffusion 3.5 (SD 3.5) 的原生架构与 ComfyUI 的节点式逻辑高度契合。得益于其对 MMDiT 架构的深度支持,ComfyUI 成为目前发挥 SD 3.5 潜力的最佳平台。本章将带你从基础环境搭建出发,深度调优采样参数,并掌握 Large 与 Medium 模型联动的进阶工作流。
3.1 快速上手:安装与官方示例工作流载入
与前代模型不同,SD 3.5 采用三文本编码器系统,这要求我们在 ComfyUI 中正确配置节点以确保逻辑完整。
核心节点配置:Load Checkpoint 与 TripleCLIPLoader
SD 3.5 支持"权重分离"的工作流,这意味着你可以分别加载主模型和文本编码器,以节省显存或复用现有的 CLIP 模型。
- Load Checkpoint :加载主模型文件(如
sd3.5_large.safetensors)。如果你显存有限,建议使用内置了文本编码器的 FP8 Scaled 一体化模型。 - TripleCLIPLoader :这是 SD 3.5 的核心节点。你需要同时载入三个编码器文件:
clip_g.safetensors(OpenCLIP-ViT/G)clip_l.safetensors(CLIP-ViT/L)t5xxl_fp16.safetensors(内存低于 32GB 的用户请务必使用t5xxl_fp8_e4m3fn.safetensors量化版)。
操作小贴士 :确保将这些文件放入 ComfyUI/models/clip 目录。在配置 EmptySD3LatentImage 节点时,请保证分辨率是 64 的倍数,官方推荐初始比例为 1024x1024(1:1)或 1344x768(16:9)。
3.2 采样参数深度调优
SD 3.5 对采样器的敏感度与以往模型大不相同。不合理的参数会导致画面出现噪点或色彩过饱和。
采样器与调度器推荐
- 首选采样器:Euler。这是目前 Large 模型最通用、兼容性最好的采样器。
- 高画质选项:DPM++ 2S Ancestral。如果你追求极致的光影细节和结构准确度,这个采样器表现最出色,但缺点是生成速度比 Euler 慢约 2 倍。
- 调度器 (Scheduler) :推荐使用 SGM Uniform。它能确保在每一步迭代中保持稳定的噪声分布,防止画面在最后阶段出现崩坏。
CFG Scale 的黄金区间
在 SD 1.5 或 SDXL 中,我们习惯将 CFG 设为 7.0。但在 SD 3.5 中,推荐区间是 3.5 - 4.5。
- 为什么调低? 较高的 CFG 会导致画面色彩极度过饱和,并产生明显的伪影。
- Turbo 版本特殊说明 :如果你使用的是 Large Turbo 蒸馏模型,CFG 必须设为 1.0 ,步数仅需 4 步 即可成像。

3.3 高阶技巧:从 Large 到 Medium 的混合超分流
这是一个结合了两个模型原生优势的实战技巧。Large 模型 在 100 万像素(1MP)下拥有顶级提示词遵循能力,而 Medium 模型 的架构经过优化,支持高达 200 万像素(2MP)的生成。
工作流逻辑:Large 构图 + Medium 放大
由于 Large 模型在生成超过其原生分辨率的图像时容易出现结构瓦解(如出现多肢体),我们可以利用 Medium 的 MMDiT-X 架构来处理高清细节。
实现步骤简述:
- 第一阶段 (Base Pass) :使用 SD 3.5 Large 生成一张 1024x1024 的基础图。
- 潜空间放大 (Latent Upscale) :将第一步生成的 Latent 数据通过
Upscale Latent放大。 - 第二阶段 (Refine Pass) :切换模型为 SD 3.5 Medium。
- 采样设置 :使用
KSampler (Advanced)节点,重绘强度(Denoise)建议设在 0.35 - 0.45 之间。
示例配置(伪代码逻辑):
python
# 采样第一阶段 (Large 模型)
pass1_latent = KSampler(
model=SD3.5_Large,
steps=30,
cfg=4.5,
sampler="euler",
scheduler="sgm_uniform",
denoise=1.0 # 全程生成
)
# 潜空间放大并进入第二阶段 (Medium 模型)
pass2_latent = KSamplerAdvanced(
model=SD3.5_Medium,
add_noise="enable",
steps=60, # 这里的 60 步对应重绘后的细腻程度
start_at_step=30, # 从第一阶段结束的地方开始
end_at_step=1000,
latent_image=UpscaleLatent(pass1_latent, scale_by=1.5),
denoise=0.45
)
实际效果:这种混合工作流能让你在保留 Large 模型精准构图的同时,通过 Medium 模型获得更高分辨率且不失真的精美大图。
本章小结:理解"双向交互"的模拟
如果把 ComfyUI 里的工作流比作建筑工程:
- TripleCLIPLoader 就像是雇佣了三位精通不同语言的设计师(理解长达 256 token 的描述)。
- Large 构图 是由经验丰富的总工画出最准确的蓝图(决定物体摆放位置)。
- Medium 放大 则像是细节丰富的装修团队,在蓝图基础上把每一块砖瓦的质感(200 万像素细节)推向极致。