（三）Stable Diffusion 3.5 与 ComfyUI

Stable Diffusion 3.5 (SD 3.5) 的原生架构与 ComfyUI 的节点式逻辑高度契合。得益于其对 MMDiT 架构的深度支持，ComfyUI 成为目前发挥 SD 3.5 潜力的最佳平台。本章将带你从基础环境搭建出发，深度调优采样参数，并掌握 Large 与 Medium 模型联动的进阶工作流。

3.1 快速上手：安装与官方示例工作流载入

与前代模型不同，SD 3.5 采用三文本编码器系统，这要求我们在 ComfyUI 中正确配置节点以确保逻辑完整。

核心节点配置：Load Checkpoint 与 TripleCLIPLoader

SD 3.5 支持"权重分离"的工作流，这意味着你可以分别加载主模型和文本编码器，以节省显存或复用现有的 CLIP 模型。

Load Checkpoint ：加载主模型文件（如 sd3.5_large.safetensors）。如果你显存有限，建议使用内置了文本编码器的 FP8 Scaled 一体化模型。
TripleCLIPLoader ：这是 SD 3.5 的核心节点。你需要同时载入三个编码器文件：
1. clip_g.safetensors (OpenCLIP-ViT/G)
2. clip_l.safetensors (CLIP-ViT/L)
3. t5xxl_fp16.safetensors（内存低于 32GB 的用户请务必使用 t5xxl_fp8_e4m3fn.safetensors 量化版）。

操作小贴士 ：确保将这些文件放入 ComfyUI/models/clip 目录。在配置 EmptySD3LatentImage 节点时，请保证分辨率是 64 的倍数，官方推荐初始比例为 1024x1024（1:1）或 1344x768（16:9）。

3.2 采样参数深度调优

SD 3.5 对采样器的敏感度与以往模型大不相同。不合理的参数会导致画面出现噪点或色彩过饱和。

采样器与调度器推荐

首选采样器：Euler。这是目前 Large 模型最通用、兼容性最好的采样器。
高画质选项：DPM++ 2S Ancestral。如果你追求极致的光影细节和结构准确度，这个采样器表现最出色，但缺点是生成速度比 Euler 慢约 2 倍。
调度器 (Scheduler) ：推荐使用 SGM Uniform。它能确保在每一步迭代中保持稳定的噪声分布，防止画面在最后阶段出现崩坏。

CFG Scale 的黄金区间

在 SD 1.5 或 SDXL 中，我们习惯将 CFG 设为 7.0。但在 SD 3.5 中，推荐区间是 3.5 - 4.5。

为什么调低？ 较高的 CFG 会导致画面色彩极度过饱和，并产生明显的伪影。
Turbo 版本特殊说明 ：如果你使用的是 Large Turbo 蒸馏模型，CFG 必须设为 1.0 ，步数仅需 4 步 即可成像。

3.3 高阶技巧：从 Large 到 Medium 的混合超分流

这是一个结合了两个模型原生优势的实战技巧。Large 模型 在 100 万像素（1MP）下拥有顶级提示词遵循能力，而 Medium 模型 的架构经过优化，支持高达 200 万像素（2MP）的生成。

工作流逻辑：Large 构图 + Medium 放大

由于 Large 模型在生成超过其原生分辨率的图像时容易出现结构瓦解（如出现多肢体），我们可以利用 Medium 的 MMDiT-X 架构来处理高清细节。

实现步骤简述：

第一阶段 (Base Pass) ：使用 SD 3.5 Large 生成一张 1024x1024 的基础图。
潜空间放大 (Latent Upscale) ：将第一步生成的 Latent 数据通过 Upscale Latent 放大。
第二阶段 (Refine Pass) ：切换模型为 SD 3.5 Medium。
采样设置 ：使用 KSampler (Advanced) 节点，重绘强度（Denoise）建议设在 0.35 - 0.45 之间。

示例配置（伪代码逻辑）：

python 复制代码

# 采样第一阶段 (Large 模型)
pass1_latent = KSampler(
    model=SD3.5_Large,
    steps=30,
    cfg=4.5,
    sampler="euler",
    scheduler="sgm_uniform",
    denoise=1.0  # 全程生成
)

# 潜空间放大并进入第二阶段 (Medium 模型)
pass2_latent = KSamplerAdvanced(
    model=SD3.5_Medium,
    add_noise="enable",
    steps=60,  # 这里的 60 步对应重绘后的细腻程度
    start_at_step=30,  # 从第一阶段结束的地方开始
    end_at_step=1000,
    latent_image=UpscaleLatent(pass1_latent, scale_by=1.5),
    denoise=0.45
)

实际效果：这种混合工作流能让你在保留 Large 模型精准构图的同时，通过 Medium 模型获得更高分辨率且不失真的精美大图。

本章小结：理解"双向交互"的模拟

如果把 ComfyUI 里的工作流比作建筑工程：

TripleCLIPLoader 就像是雇佣了三位精通不同语言的设计师（理解长达 256 token 的描述）。
Large 构图 是由经验丰富的总工画出最准确的蓝图（决定物体摆放位置）。
Medium 放大 则像是细节丰富的装修团队，在蓝图基础上把每一块砖瓦的质感（200 万像素细节）推向极致。