Stable Diffusion 中各种模型的对比与详解

在 Stable Diffusion 中，不同的模型（Checkpoint）具有不同的功能和生成风格。它们的区别主要体现在以下几个方面：

1. 基础模型（Base Model）

官方核心模型

模型名称	特点	适用场景
SD 1.4/1.5	- 最早的通用模型 - 兼容性强，插件生态丰富	通用创作、LoRA/ControlNet 扩展
SD 2.0/2.1	- 支持更高分辨率（768x768） - 去除了 NSFW 内容限制	需要高分辨率的场景
SDXL 1.0	- 更高分辨率（1024x1024+） - 更复杂的模型架构	商业级图像生成、细节要求高的场景

对比总结

SD 1.5：社区支持最多，插件兼容性最佳。
SDXL：生成质量更高，但需要更强硬件（显存 ≥8GB）。

2. 微调模型（Fine-Tuned Model）

按风格分类

模型类型	代表模型	特点
动漫风格	Anything V5、Counterfeit V3	专攻二次元角色、场景
写实风格	Realistic Vision、Deliberate	生成照片级人像、物体
艺术风格	DreamShaper、Rev Animated	模仿油画、水彩等艺术流派
科幻风格	CyberRealistic、Protogen	赛博朋克、机甲、未来场景

按功能分类

模型类型	代表模型	特点
高分辨率模型	SDXL Refiner	与 SDXL 配合使用，优化细节
轻量模型	TinySD	压缩版模型，适合低显存设备（如移动端）

3. 适配模型（Adapter Model）

轻量级扩展模型

类型	功能	文件格式
LoRA	通过小模型修改风格/细节（如服装、画风）	`.safetensors`
Textual Inversion	通过关键词嵌入特定概念（如角色、物体）	`.pt`
ControlNet	控制生成过程（姿势、边缘、深度等）	`.pth`/`.safetensors`

特点对比

LoRA：灵活性强，可叠加多个使用。
Textual Inversion：仅需关键词触发，不修改模型权重。
ControlNet：精确控制构图，但显存占用较高。

4. 模型格式区别

格式	特点
.ckpt	PyTorch 标准格式，可能包含潜在风险代码（需谨慎下载）
.safetensors	安全格式，不包含可执行代码，推荐使用
.pt	通常用于 Textual Inversion 或小型适配模型

5. 模型选择指南

根据需求选择

通用创作：SD 1.5 + LoRA（兼容性强，资源丰富）。
高分辨率/商业用途：SDXL 1.0 + Refiner。
动漫创作：Anything V5 + 动漫专用 LoRA。
写实人像：Realistic Vision + ADetailer 插件。
硬件限制 ：TinySD 或显存优化版模型（如 --medvram 模式）。

根据硬件选择

显存 ≤6GB：SD 1.5 + 512x512 分辨率。
显存 8-12GB：SDXL（1024x1024）。
显存 ≥16GB：SDXL + ControlNet 多条件控制。

6. 多模型协作示例

复制代码

# 生成流程示例
基础模型 = "sd_xl_base_1.0.safetensors"
LoRA模型 = "anime_style_v3.safetensors"
ControlNet模型 = "control_v11p_sd15_openpose.safetensors"

生成结果 = 基础模型.load() \
               .apply_lora(LoRA模型, weight=0.7) \
               .apply_controlnet(ControlNet模型, input_pose_image)

总结

基础模型：决定生成的基本能力和风格方向。
微调模型：针对特定领域优化，需按需选择。
适配模型（LoRA/ControlNet）：扩展功能，实现精细控制。

选择模型时需平衡 生成质量、硬件需求、灵活性，建议从 SD 1.5 生态入门，逐步过渡到 SDXL 和高级控制技术。