Stable Diffusion本地部署教程及模型包

开源图像模型 Stable Diffusion 入门手册

一、模型简介

Stable Diffusion 是 2022 年由 Stability AI 联合 Runway、CompVis 等机构共同发布的开源深度学习文生图模型，基于潜在扩散模型（Latent Diffusion Model）技术构建。它的核心能力是将自然语言描述转化为细节丰富、风格多样的数字图像，同时支持图生图、局部重绘、超分辨率、风格迁移等多种衍生功能。

与闭源的 MidJourney、DALL-E 相比，Stable Diffusion 最大的优势在于完全开源、可本地运行、高度可定制：用户无需依赖云端服务，在普通消费级电脑上即可部署使用；可以自由下载社区分享的海量模型、插件和训练素材，根据需求定制专属的生成效果。凭借这些特性，它已成为全球最受欢迎的 AI 绘画工具，广泛应用于艺术创作、平面设计、游戏美术、影视概念设计、教育科普等多个领域。

html 复制代码

文章参考：
https://www.ruanxiangshe.com/#/article/07041b26-7ebb-45f2-b16a-4665fbef6f91

二、硬件要求详解

2.1 基础配置要求

（1）核心硬件指标

硬件类型	最低要求	推荐配置	进阶配置（SDXL / 高分辨率）
显存	4GB（N 卡，仅支持 512×512 低参数生成）	8GB（N 卡，流畅运行 SD 1.5，支持 768×768 生成）	16GB 及以上（流畅运行 SDXL，支持 1024×1024 以上高分辨率、批量生成和大模型加载）
内存	8GB	16GB	32GB 及以上
硬盘空间	40GB	60GB 以上	100GB 以上（SSD 固态硬盘优先，可大幅提升模型加载和生成速度）
显卡	NVIDIA GTX 1060 6GB（支持 CUDA 11.8 及以上）	NVIDIA RTX 3060 Ti 及以上	NVIDIA RTX 4070 Ti 及以上

（2）显卡兼容性说明

- 优先推荐 NVIDIA 显卡：完美支持 CUDA 加速，是目前运行 Stable Diffusion 速度最快、兼容性最好的选择。
- AMD 显卡 ：社区已提供基于 ROCm 的支持方案，但运算速度明显慢于同级别 N 卡，且部分插件和功能存在兼容性问题。AMD 显卡专属安装指南可参考：
  
  Install and Run on AMD GPUs · AUTOMATIC1111/stable-diffusion-webui Wiki
- Intel 核显 / Arc 显卡：支持度较低，仅能满足最基础的生成需求，不推荐使用。
- macOS 设备：M1/M2/M3 系列芯片的 Mac 可通过 Metal 加速运行，但速度慢于同级别 N 卡，且部分插件不兼容。

2.2 主流显卡生成速度对比

以下为生成单张 512×512 分辨率基础图像的耗时对比（单位：秒），数据基于 Stable Diffusion v1.5 模型、20 步采样、默认参数测试：

表格

显卡型号	生成耗时（秒）	显卡型号	生成耗时（秒）
RTX 4090	3-4	RTX 3060	17
RTX 3090 Ti	7	RTX 2060	30
RTX 3080	7	GTX 1080	35
RTX 3070 Ti	8	GTX 1070 Ti	38
RTX 3070 Mobile	10	GTX 1070	44
RTX 2080 Ti	11	GTX 1060 6GB	75
RTX 2060 Super	12	GTX 970	82
RTX 3060 Ti	13	M2 Pro（16 核）	25-30
Tesla T4	13	M1 Pro（10 核）	35-40

注：SDXL 模型生成 1024×1024 图像的耗时约为 SD 1.5 模型的 3-5 倍，8GB 显存显卡需开启低显存优化才能运行。

2.3 低显存优化方案

对于显存不足 8GB 的用户，可通过以下方式提升运行效率：

1. 启用 --xformers 启动参数：可降低 30%-50% 的显存占用，同时提升生成速度
2. 开启低显存模式：添加 --lowvram（4GB 显存）或 --medvram（6GB 显存）启动参数
3. 降低生成分辨率：优先使用 512×512 或 640×640 分辨率，避免直接生成高分辨率图像
4. 关闭不必要的功能：生成时暂时禁用 ControlNet、超分辨率等占用显存的插件

2.4 硬件风险提示

过度使用存在显卡损坏风险。长时间让显卡处于 100% 满负载运行状态，可能导致显卡过热、电子元件老化加速，甚至出现显存损坏、核心烧毁等硬件故障。建议：

- 使用过程中实时监控显卡温度，保持在 85℃以下，超过 90℃ 立即停止运行
- 确保机箱通风良好，定期清理显卡风扇和散热片上的灰尘，必要时增加机箱风扇
- 避免连续 6 小时以上不间断高负载运行，每运行 3-4 小时休息 30 分钟
- 笔记本电脑使用时建议垫高底部，使用散热底座，避免在高温环境下使用
- 不要对显卡进行超频操作，超频会大幅增加硬件故障风险

三、环境部署指南

目前最主流的 Stable Diffusion 运行环境是 AUTOMATIC1111 开发的 stable-diffusion-webui，它提供了直观的图形界面、丰富的功能插件和活跃的社区支持。以下介绍三种常见的部署方式：

3.1 手动部署（推荐进阶用户）

手动部署可获得最大的灵活性，方便后续自定义配置、安装第三方插件和进行二次开发。完整官方部署步骤可参考：

Home · AUTOMATIC1111/stable-diffusion-webui Wiki

详细部署步骤（Windows 系统）

1.安装前置依赖

安装 Python 3.10.6（必须使用此版本，其他版本可能存在兼容性问题），安装时勾选 "Add Python 3.10 to PATH"

安装 Git 工具，下载地址：https://git-scm.com/download/win，安装时保持默认选项即可

2.克隆仓库

选择一个空间充足的磁盘分区（如 D 盘），右键点击空白处选择 "Git Bash Here"

输入以下命令克隆仓库：

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

3.配置启动参数（可选但推荐）

进入 stable-diffusion-webui 文件夹，找到 webui-user.bat 文件

右键选择 "编辑"，在 set COMMANDLINE_ARGS= 后添加启动参数，例如：

set COMMANDLINE_ARGS=--xformers --autolaunch

--xformers：启用 xformers 优化，降低显存占用

--autolaunch：启动后自动打开浏览器访问界面

--lowvram：4GB 显存用户添加此参数

--medvram：6GB 显存用户添加此参数

4.启动程序

双击运行 webui-user.bat

首次启动会自动下载依赖包和基础模型文件，耗时较长（10-30 分钟）

当看到 "Running on local URL: http://127.0.0.1:7860" 时，说明启动成功，在浏览器中输入该地址即可访问界面

手动部署注意事项

完整环境占用空间极大，可达几十 GB，确保磁盘有足够的可用空间

部署过程需要联网下载大量依赖包和基础模型文件，境内网络环境下下载速度极慢，建议自备科学上网工具

若遇到依赖安装失败，可尝试使用国内镜像源加速：在 webui-user.bat 中添加 --pip-index-url https://pypi.tuna.tsinghua.edu.cn/simple 参数

若启动时提示 "CUDA out of memory"，说明显存不足，需添加低显存启动参数

3.2 一键部署（推荐新手用户）

对于零基础用户，更推荐使用国内开发者制作的一键部署整合包，无需手动配置环境变量和依赖，解压后双击运行即可启动。

常见可靠整合包

- 秋叶整合包：国内最受欢迎的整合包，更新及时，内置大量常用插件和基础模型，针对国内网络环境进行了优化
- 星空整合包：功能全面，支持一键切换模型和插件，提供详细的使用教程
- NovelAI 整合包：专门针对二次元风格生成优化的整合包，内置大量二次元模型和素材

一键部署步骤

1. 从官方渠道下载最新版整合包（注意避免下载带病毒的修改版）
2. 将压缩包解压到空间充足的磁盘分区（路径中不要包含中文和空格）
3. 双击运行 启动器.exe 或 webui.bat
4. 等待程序自动完成初始化，首次启动可能需要 5-10 分钟
5. 启动成功后会自动打开浏览器界面，即可开始使用

整合包优势

- 预安装了常用插件（如 ControlNet、LoRA、超分辨率、面部修复等）
- 内置了基础模型和 VAE 文件，无需额外下载即可开始生成
- 提供可视化的启动参数配置界面，无需手动修改 bat 文件
- 支持国内模型源下载，可直接在界面内下载模型和插件
- 提供详细的使用说明和常见问题解答

3.3 macOS 部署指南

M1/M2/M3 系列芯片的 Mac 设备可通过以下步骤部署：

安装 Homebrew：打开终端，输入以下命令：

复制代码

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装依赖：

复制代码

brew install python@3.10 git cmake protobuf rust

克隆仓库：

复制代码

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

进入目录并启动：

复制代码

cd stable-diffusion-webui
./webui.sh --no-half --opt-split-attention

注：macOS 设备运行速度较慢，且部分插件不兼容，建议优先使用 N 卡 Windows 设备。

四、核心模型与资源下载

Stable Diffusion 的生成效果高度依赖模型，社区已分享了海量不同风格和用途的模型资源。以下是常见模型类型及下载使用方法：

4.1 模型类型及作用

表格

模型类型	文件格式	存放路径	作用说明
基础大模型	.ckpt/.safetensors	models/Stable-diffusion	决定生成图像的整体风格和基础质量，如写实、二次元、动漫、插画等
LoRA 模型	.safetensors/.pt	models/Lora	用于微调特定风格、人物、物体或场景，体积小（几十 MB 到几百 MB），使用灵活
ControlNet 模型	.pth/.safetensors	models/ControlNet	用于控制生成图像的构图、姿态、线条、深度等，实现精准的图像控制
VAE 模型	.pt/.safetensors	models/VAE	用于优化图像的色彩和细节，提升生成图像的整体质量
Embedding 模型	.pt/.bin	embeddings	用于添加特定的风格或元素，或用于生成负面提示词，过滤不良内容

安全提示：优先使用 .safetensors 格式的模型，.ckpt 格式可能包含恶意代码，存在安全风险。

4.2 常用资源下载平台

1. Civitai ：https://civitai.com/
  
  全球最大的 Stable Diffusion 模型分享平台，拥有海量的模型、LoRA、ControlNet 资源，支持按风格、用途、评分筛选。
2. Hugging Face ：https://huggingface.co/
  
  官方模型发布平台，主要提供基础大模型和官方训练的模型资源，安全性高。
3. LiblibAI ：https://www.liblibai.com/
  
  国内最大的 AI 绘画资源平台，无需科学上网即可下载，资源丰富，更新及时。
4. Tensor.Art ：https://tensor.art/
  
  国内优质的模型分享平台，提供大量高质量的二次元和写实风格模型。

4.3 模型使用方法

1. 下载对应类型的模型文件
2. 将文件放置到上述对应的存放路径中
3. 重启 Stable Diffusion webui，或点击界面右上角的 "刷新" 按钮
4. 在界面顶部的模型下拉菜单中选择需要使用的模型
5. LoRA 模型可在提示词中通过 <lora:模型名:权重> 的方式调用，例如 <lora:shuimo:0.7> 表示调用名为 "shuimo" 的 LoRA 模型，权重为 0.7

五、基础操作与核心参数详解

5.1 WebUI 界面介绍

Stable Diffusion webui 界面主要分为以下几个功能模块：

1. 文生图（txt2img）：根据文字描述生成全新的图像，是最常用的功能
2. 图生图（img2img）：基于上传的参考图像进行修改和重绘，支持整体重绘、局部重绘、放大等功能
3. 后期处理（Extras）：对生成的图像进行超分辨率放大、面部修复、降噪等后期处理
4. PNG 信息（PNG Info）：查看生成图像的提示词、参数等元数据，可直接将参数加载到生成界面
5. 扩展（Extensions）：用于安装、管理和更新第三方插件
6. 设置（Settings）：对 webui 的各项参数进行全局配置

5.2 第一次生成图像

1. 打开 webui 界面，默认进入 "文生图" 标签页
2. 在 "正向提示词" 输入框中输入描述，例如：masterpiece, best quality, 1girl, long hair, blue eyes, white dress, garden, sunlight
3. 在 "反向提示词" 输入框中输入需要避免的内容，例如：lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality
4. 设置生成参数：采样方法选择 "DPM++ 2M Karras"，采样步数设置为 20，CFG Scale 设置为 7，分辨率设置为 512×512
5. 点击 "生成" 按钮，等待几秒钟即可看到生成的图像
6. 生成完成后，可点击图像下方的 "保存" 按钮保存图像，或点击 "发送到图生图" 进行进一步修改

5.3 核心参数详解

表格

参数名称	作用说明	推荐值范围
采样方法	决定图像生成的算法，不同方法的生成速度和效果不同	DPM++ 2M Karras（高质量）、Euler a（快速出图）
采样步数	生成图像的迭代次数，步数越多图像越精细，但生成时间越长	20-30（SD 1.5）、30-40（SDXL）
CFG Scale	提示词引导强度，值越高图像越符合提示词，但过高会导致图像失真	5-10（常用 7）
宽度 / 高度	生成图像的分辨率，分辨率越高细节越丰富，但显存占用和生成时间越长	512×512、768×768（SD 1.5）、1024×1024（SDXL）
批量计数 / 批量大小	一次性生成的图像数量，批量大小是每次并行生成的数量	批量计数 1-4，批量大小 1（低显存）
种子（Seed）	随机数种子，相同的种子和参数会生成完全相同的图像，用于复现和微调效果	-1（随机生成）
重绘幅度（Denoising strength）	图生图专用，决定参考图像的保留程度，值越高修改越大，值越低越接近原图	0.3-0.7

5.4 提示词编写技巧

提示词是决定生成图像质量的关键，掌握正确的提示词编写方法可以大幅提升生成效果。

（1）基础提示词结构

[质量词] + [主体描述] + [细节描述] + [风格描述] + [环境描述] + [构图描述]

示例：

复制代码

masterpiece, best quality, ultra-detailed, 1girl, solo, long black hair, red eyes, wearing a black gothic dress, standing in a dark castle, moonlight, cinematic lighting, depth of field, 8k

（2）反向提示词

反向提示词用于过滤不需要的内容，避免生成低质量、畸形或不符合要求的图像。通用反向提示词模板：

复制代码

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

（3）提示词权重语法

增加权重：(关键词:权重)，例如 (red eyes:1.2) 表示红色眼睛的权重增加 20%
降低权重：(关键词:权重)，例如 (blurry:0.5) 表示模糊的权重降低 50%
多层括号：((关键词)) 等同于 (关键词:1.21)，权重逐层叠加

六、核心进阶功能入门

6.1 图生图（img2img）

图生图是 Stable Diffusion 最实用的功能之一，可以基于参考图像进行修改和创作。常见用法：

1. 风格转换：将照片转换为油画、动漫、素描等不同风格
2. 图像重绘：修改现有图像的内容，例如更换人物的衣服、发型、背景
3. 局部重绘：只修改图像的特定区域，保留其他部分不变，常用于修复生成缺陷
4. 图像放大：将低分辨率图像放大为高分辨率图像

使用方法：

1. 进入 "图生图" 标签页，上传参考图像
2. 输入正向和反向提示词
3. 设置重绘幅度（0.3-0.7 效果最佳）
4. 点击 "生成" 按钮

6.2 ControlNet 基础使用

ControlNet 是 Stable Diffusion 最重要的插件之一，它可以通过参考图像的姿态、线条、深度、边缘等信息，精准控制生成图像的构图和结构，解决了传统文生图构图不可控的问题。

常用 ControlNet 模型

- Canny：基于边缘检测，提取参考图像的轮廓线条，控制生成图像的整体结构
- OpenPose：提取参考图像的人体姿态，控制生成人物的动作和姿势
- Depth：提取参考图像的深度信息，控制生成图像的空间关系和透视
- Lineart：提取参考图像的线稿，用于将线稿上色或生成完整图像

使用方法

1. 确保已安装 ControlNet 插件（整合包通常已预安装）
2. 进入 "文生图" 或 "图生图" 标签页，展开下方的 "ControlNet" 面板
3. 勾选 "Enable" 启用 ControlNet
4. 上传参考图像，选择对应的 ControlNet 模型和预处理方法
5. 设置控制权重（0.5-1.0 效果最佳）
6. 输入提示词并生成图像

七、常见问题排查

7.1 启动失败问题

- 问题：双击 webui-user.bat 后闪退
  - 解决方案：检查 Python 版本是否为 3.10.6，是否已添加到系统环境变量；检查路径中是否包含中文和空格
- 问题：提示 "CUDA out of memory"
  - 解决方案：添加 --lowvram 或 --medvram 启动参数；降低生成分辨率；关闭不必要的插件
- 问题：依赖安装失败
  - 解决方案：使用国内 pip 镜像源；手动安装失败的依赖包；检查网络连接

7.2 生成图像问题

- 问题：生成的图像模糊、细节差
  - 解决方案：增加采样步数；使用更好的采样方法；提高 CFG Scale；使用高质量的基础模型和 VAE
- 问题：生成的人物有畸形的手、脚或面部
  - 解决方案：在反向提示词中添加相关的负面描述；使用面部修复插件；使用专门训练的人物模型；结合 ControlNet OpenPose 控制姿态
- 问题：生成的图像与提示词不符
  - 解决方案：调整 CFG Scale；优化提示词，增加关键词的权重；更换基础模型；降低 LoRA 权重

7.3 模型加载问题

- 问题：下载的模型在界面中不显示
  - 解决方案：检查模型是否放置在正确的路径中；点击界面右上角的 "刷新" 按钮；检查模型格式是否正确
- 问题：加载模型时提示 "Model load failed"
  - 解决方案：检查模型文件是否损坏；重新下载模型；确保有足够的内存和显存

八、重要合规提醒

1. 严格遵守国家相关法律法规，不得生成违法、违规、低俗、色情、暴力、恐怖、侵权的内容
2. 使用他人发布的模型、LoRA、插件和作品时，请尊重原作者的版权和使用协议，不得用于商业用途（除非获得授权）
3. 不得生成他人的肖像图像用于商业用途，避免侵犯他人的肖像权和隐私权
4. 不得将生成的内容用于商业欺诈、虚假宣传、造谣传谣等非法用途
5. 定期备份重要的模型、配置文件和生成作品，避免因环境损坏或硬盘故障导致数据丢失
6. 不要传播和使用包含恶意代码的模型和整合包，保护电脑安全

九、进阶学习方向

掌握基础操作后，你可以继续深入学习以下内容：

1. LoRA 模型训练：训练自己专属的人物、风格或物体模型
2. ControlNet 高级用法：使用多个 ControlNet 模型组合控制，实现更复杂的生成效果
3. 插件开发与使用：安装和使用更多第三方插件，拓展 Stable Diffusion 的功能
4. 模型合并与微调：合并多个模型，创造独特的风格效果
5. 批量生成与自动化：使用脚本实现批量生成和自动化处理