（四）Stable Diffusion 3.5-WebUI Forge 与 SwarmUI 实战

在掌握了 ComfyUI 的节点逻辑后，许多用户可能会追求更直观、自动化程度更高的操作体验。本章将重点介绍 Stable Diffusion 3.5 (SD 3.5) 在两个主流 Web 界面下的实战技巧：WebUI Forge (及其演进版 Forge Neo) 与目前推理效率最高的 SwarmUI。

4.1 Forge Neo：自动化的低比特管理

WebUI Forge 由著名的开发者 lllyasviel 开发，其核心优势在于对显存（VRAM）的极致优化。对于那些不希望手动计算量化参数的用户，Forge Neo 提供了一套近乎"黑盒"的自动化方案。

使用"Diffusion in low bits"模式

Forge Neo 的杀手锏功能是 "Diffusion in low bits"。这个设置能根据用户显卡的实际 VRAM 容量，自动检测并应用最合适的量化策略（如 FP8 或 NF4）。

显存自适应：如果你拥有 8GB 显存，Forge 会自动将 SD 3.5 Large 压缩至低位运行，确保不会因为显存溢出而导致报错。
LoRA 的智能加载：在传统界面中，频繁切换 LoRA 会产生巨大的显存开销。Forge 的"自动"模式允许 LoRA 仅在初始时加载一次，这显著减少了迭代生成时的等待时间。

关键优化技巧：GPU Weights 权重滑块

在 Forge 的设置中，不要将 "GPU Weights" 滑块推到最大值。

留白艺术：建议保留大约 4GB (4096MB) 的空间用于"图像蒸馏（Image Distillation）"。
计算公式 ：设置值 = 总显存(MB) - 4096。
例如，16GB 显卡建议设置为 12288。这样做可以有效避免生成超大分辨率画布时出现的系统崩溃。

4.2 SwarmUI：目前最高效的开源推理平台

SwarmUI 被公认为运行 SD 3.5 和 Flux 模型最先进、最稳定的界面。它将底层的 ComfyUI 性能与简洁的多卡管理界面完美结合。

自动化下载配置 Scaled FP8 模型

SwarmUI 支持通过高度优化的自动化下载脚本来配置模型。对于显存低于 24GB 的用户，强烈建议使用 "Scaled FP8" 版本。

什么是 Scaled FP8？ 它通过在量化前对权重进行缩放（例如乘以 448），最大限度利用 8 位浮点数的动态范围。实验证明，Scaled FP8 的提示词遵循能力有时甚至优于原始的 FP16 版本。
自动化配置：使用 SwarmUI 专用的下载脚本（如下面的 Windows 示例），你可以直接选择下载集成好的 FP8 文本编码器和主模型。

多显卡 (Multi-GPU) 并行生成实战

SwarmUI 的核心竞争力在于其原生的并行处理能力。如果你拥有一台装有多张显卡（如两张 RTX 3060）的机器，SwarmUI 可以让它们同时工作。

配置步骤：

进入 Server -> Backends 选项卡。
添加一个新的 ComfyUI Self-Starting 后端。
在设置中为不同的后端指定不同的 GPU ID。
如果你使用的是 RTX 40/50 系列，务必在命令行参数中添加 --fast 以启用 TensorRT 加速。

代码与脚本实战

1. SwarmUI 模型自动化下载脚本（Windows 逻辑演示）

虽然这是一个交互式 .bat 脚本，但其核心逻辑可以通过以下步骤理解：

batch 复制代码

@echo off
:: 启动 SwarmUI 专用下载器
:: 推荐选择以下编号获取 SD 3.5 最佳配置：
:: 4 -> SD 3.5 Large Scaled FP8 (极高提示词遵循力)
:: 6 -> FP8 T5 Scaled (大幅节省显存，画质近乎无损)

swarm_downloader.exe --option 4 --option 6

2. 配置多显卡后端的参数示例

在 SwarmUI 的 Backend 配置文件中，你可以这样定义两个 GPU 节点：

json 复制代码

// Backend 0 (显卡 0)
{
    "type": "comfyui_self_starting",
    "gpu_id": 0,
    "args": ["--fast", "--lowvram"]
}

// Backend 1 (显卡 1)
{
    "type": "comfyui_self_starting",
    "gpu_id": 1,
    "args": ["--fast"]
}

实际应用建议

追求快速预览？ 使用 SwarmUI 配合 SD 3.5 Large Turbo 。将采样器设为 Euler ，步数设为 4 步 ，CFG 设为 1.0。这种配置在多卡并行下可以达到秒级出图。
显存极其受限（< 6GB）？ 在 Forge 中启用 NF4 量化 ，并结合 CPU Offloading 将文本编码器（T5-XXL）移至系统内存运行。虽然生成速度会变慢，但它是目前运行 80 亿参数大模型的唯一可行路径。

理解多卡并行的类比

如果说 ComfyUI 是一个精密的实验室 ，SwarmUI 则更像是一个现代化工厂。在一个实验室里，你只能亲手操作一台显微镜（一张显卡）；而在 SwarmUI 这个工厂里，你可以同时开启多条流水线（多张显卡），让它们各自独立生成不同的图片。你只需要下达一次指令，所有显卡