开源图像模型 Stable Diffusion 入门手册
一、模型简介
Stable Diffusion 是 2022 年由 Stability AI 联合 Runway、CompVis 等机构共同发布的开源深度学习文生图模型,基于潜在扩散模型(Latent Diffusion Model)技术构建。它的核心能力是将自然语言描述转化为细节丰富、风格多样的数字图像,同时支持图生图、局部重绘、超分辨率、风格迁移等多种衍生功能。
与闭源的 MidJourney、DALL-E 相比,Stable Diffusion 最大的优势在于完全开源、可本地运行、高度可定制:用户无需依赖云端服务,在普通消费级电脑上即可部署使用;可以自由下载社区分享的海量模型、插件和训练素材,根据需求定制专属的生成效果。凭借这些特性,它已成为全球最受欢迎的 AI 绘画工具,广泛应用于艺术创作、平面设计、游戏美术、影视概念设计、教育科普等多个领域。
html
文章参考:
https://www.ruanxiangshe.com/#/article/07041b26-7ebb-45f2-b16a-4665fbef6f91
二、硬件要求详解
2.1 基础配置要求
(1)核心硬件指标
| 硬件类型 | 最低要求 | 推荐配置 | 进阶配置(SDXL / 高分辨率) |
|---|---|---|---|
| 显存 | 4GB(N 卡,仅支持 512×512 低参数生成) | 8GB(N 卡,流畅运行 SD 1.5, 支持 768×768 生成) | 16GB 及以上(流畅运行 SDXL,支持 1024×1024 以上高分辨率、批量生成和大模型加载) |
| 内存 | 8GB | 16GB | 32GB 及以上 |
| 硬盘空间 | 40GB | 60GB 以上 | 100GB 以上(SSD 固态硬盘优先,可大幅提升模型加载和生成速度) |
| 显卡 | NVIDIA GTX 1060 6GB(支持 CUDA 11.8 及以上) | NVIDIA RTX 3060 Ti 及以上 | NVIDIA RTX 4070 Ti 及以上 |
(2)显卡兼容性说明
-
-
优先推荐 NVIDIA 显卡:完美支持 CUDA 加速,是目前运行 Stable Diffusion 速度最快、兼容性最好的选择。
-
AMD 显卡 :社区已提供基于 ROCm 的支持方案,但运算速度明显慢于同级别 N 卡,且部分插件和功能存在兼容性问题。AMD 显卡专属安装指南可参考:
Install and Run on AMD GPUs · AUTOMATIC1111/stable-diffusion-webui Wiki
-
Intel 核显 / Arc 显卡:支持度较低,仅能满足最基础的生成需求,不推荐使用。
-
macOS 设备:M1/M2/M3 系列芯片的 Mac 可通过 Metal 加速运行,但速度慢于同级别 N 卡,且部分插件不兼容。
-
2.2 主流显卡生成速度对比
以下为生成单张 512×512 分辨率基础图像的耗时对比(单位:秒),数据基于 Stable Diffusion v1.5 模型、20 步采样、默认参数测试:
表格
| 显卡型号 | 生成耗时(秒) | 显卡型号 | 生成耗时(秒) |
|---|---|---|---|
| RTX 4090 | 3-4 | RTX 3060 | 17 |
| RTX 3090 Ti | 7 | RTX 2060 | 30 |
| RTX 3080 | 7 | GTX 1080 | 35 |
| RTX 3070 Ti | 8 | GTX 1070 Ti | 38 |
| RTX 3070 Mobile | 10 | GTX 1070 | 44 |
| RTX 2080 Ti | 11 | GTX 1060 6GB | 75 |
| RTX 2060 Super | 12 | GTX 970 | 82 |
| RTX 3060 Ti | 13 | M2 Pro(16 核) | 25-30 |
| Tesla T4 | 13 | M1 Pro(10 核) | 35-40 |
注:SDXL 模型生成 1024×1024 图像的耗时约为 SD 1.5 模型的 3-5 倍,8GB 显存显卡需开启低显存优化才能运行。
2.3 低显存优化方案
对于显存不足 8GB 的用户,可通过以下方式提升运行效率:
-
- 启用
--xformers启动参数:可降低 30%-50% 的显存占用,同时提升生成速度 - 开启低显存模式:添加
--lowvram(4GB 显存)或--medvram(6GB 显存)启动参数 - 降低生成分辨率:优先使用 512×512 或 640×640 分辨率,避免直接生成高分辨率图像
- 关闭不必要的功能:生成时暂时禁用 ControlNet、超分辨率等占用显存的插件
- 启用
2.4 硬件风险提示
过度使用存在显卡损坏风险。长时间让显卡处于 100% 满负载运行状态,可能导致显卡过热、电子元件老化加速,甚至出现显存损坏、核心烧毁等硬件故障。建议:
-
- 使用过程中实时监控显卡温度,保持在 85℃以下,超过 90℃ 立即停止运行
- 确保机箱通风良好,定期清理显卡风扇和散热片上的灰尘,必要时增加机箱风扇
- 避免连续 6 小时以上不间断高负载运行,每运行 3-4 小时休息 30 分钟
- 笔记本电脑使用时建议垫高底部,使用散热底座,避免在高温环境下使用
- 不要对显卡进行超频操作,超频会大幅增加硬件故障风险
三、环境部署指南
目前最主流的 Stable Diffusion 运行环境是 AUTOMATIC1111 开发的 stable-diffusion-webui,它提供了直观的图形界面、丰富的功能插件和活跃的社区支持。以下介绍三种常见的部署方式:
3.1 手动部署(推荐进阶用户)
手动部署可获得最大的灵活性,方便后续自定义配置、安装第三方插件和进行二次开发。完整官方部署步骤可参考:
Home · AUTOMATIC1111/stable-diffusion-webui Wiki
详细部署步骤(Windows 系统)
1.安装前置依赖
安装 Python 3.10.6(必须使用此版本,其他版本可能存在兼容性问题),安装时勾选 "Add Python 3.10 to PATH"
安装 Git 工具,下载地址:https://git-scm.com/download/win,安装时保持默认选项即可
2.克隆仓库
选择一个空间充足的磁盘分区(如 D 盘),右键点击空白处选择 "Git Bash Here"
输入以下命令克隆仓库:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
3.配置启动参数(可选但推荐)
进入 stable-diffusion-webui 文件夹,找到 webui-user.bat 文件
右键选择 "编辑",在 set COMMANDLINE_ARGS= 后添加启动参数,例如:
set COMMANDLINE_ARGS=--xformers --autolaunch
--xformers:启用 xformers 优化,降低显存占用
--autolaunch:启动后自动打开浏览器访问界面
--lowvram:4GB 显存用户添加此参数
--medvram:6GB 显存用户添加此参数
4.启动程序
双击运行 webui-user.bat
首次启动会自动下载依赖包和基础模型文件,耗时较长(10-30 分钟)
当看到 "Running on local URL: http://127.0.0.1:7860" 时,说明启动成功,在浏览器中输入该地址即可访问界面
手动部署注意事项
完整环境占用空间极大,可达几十 GB,确保磁盘有足够的可用空间
部署过程需要联网下载大量依赖包和基础模型文件,境内网络环境下下载速度极慢,建议自备科学上网工具
若遇到依赖安装失败,可尝试使用国内镜像源加速:在 webui-user.bat 中添加 --pip-index-url https://pypi.tuna.tsinghua.edu.cn/simple 参数
若启动时提示 "CUDA out of memory",说明显存不足,需添加低显存启动参数
3.2 一键部署(推荐新手用户)
对于零基础用户,更推荐使用国内开发者制作的一键部署整合包,无需手动配置环境变量和依赖,解压后双击运行即可启动。
常见可靠整合包
-
- 秋叶整合包:国内最受欢迎的整合包,更新及时,内置大量常用插件和基础模型,针对国内网络环境进行了优化
- 星空整合包:功能全面,支持一键切换模型和插件,提供详细的使用教程
- NovelAI 整合包:专门针对二次元风格生成优化的整合包,内置大量二次元模型和素材
一键部署步骤
-
- 从官方渠道下载最新版整合包(注意避免下载带病毒的修改版)
- 将压缩包解压到空间充足的磁盘分区(路径中不要包含中文和空格)
- 双击运行
启动器.exe或webui.bat - 等待程序自动完成初始化,首次启动可能需要 5-10 分钟
- 启动成功后会自动打开浏览器界面,即可开始使用
整合包优势
-
- 预安装了常用插件(如 ControlNet、LoRA、超分辨率、面部修复等)
- 内置了基础模型和 VAE 文件,无需额外下载即可开始生成
- 提供可视化的启动参数配置界面,无需手动修改 bat 文件
- 支持国内模型源下载,可直接在界面内下载模型和插件
- 提供详细的使用说明和常见问题解答
3.3 macOS 部署指南
M1/M2/M3 系列芯片的 Mac 设备可通过以下步骤部署:
-
-
-
安装 Homebrew:打开终端,输入以下命令:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" -
安装依赖:
brew install python@3.10 git cmake protobuf rust -
克隆仓库:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
-
-
进入目录并启动:
cd stable-diffusion-webui ./webui.sh --no-half --opt-split-attention
-
注:macOS 设备运行速度较慢,且部分插件不兼容,建议优先使用 N 卡 Windows 设备。
四、核心模型与资源下载
Stable Diffusion 的生成效果高度依赖模型,社区已分享了海量不同风格和用途的模型资源。以下是常见模型类型及下载使用方法:
4.1 模型类型及作用
表格
| 模型类型 | 文件格式 | 存放路径 | 作用说明 |
|---|---|---|---|
| 基础大模型 | .ckpt/.safetensors | models/Stable-diffusion | 决定生成图像的整体风格和基础质量,如写实、二次元、动漫、插画等 |
| LoRA 模型 | .safetensors/.pt | models/Lora | 用于微调特定风格、人物、物体或场景,体积小(几十 MB 到几百 MB),使用灵活 |
| ControlNet 模型 | .pth/.safetensors | models/ControlNet | 用于控制生成图像的构图、姿态、线条、深度等,实现精准的图像控制 |
| VAE 模型 | .pt/.safetensors | models/VAE | 用于优化图像的色彩和细节,提升生成图像的整体质量 |
| Embedding 模型 | .pt/.bin | embeddings | 用于添加特定的风格或元素,或用于生成负面提示词,过滤不良内容 |
安全提示:优先使用
.safetensors格式的模型,.ckpt格式可能包含恶意代码,存在安全风险。
4.2 常用资源下载平台
-
-
Civitai :https://civitai.com/
全球最大的 Stable Diffusion 模型分享平台,拥有海量的模型、LoRA、ControlNet 资源,支持按风格、用途、评分筛选。
-
Hugging Face :https://huggingface.co/
官方模型发布平台,主要提供基础大模型和官方训练的模型资源,安全性高。
-
LiblibAI :https://www.liblibai.com/
国内最大的 AI 绘画资源平台,无需科学上网即可下载,资源丰富,更新及时。
-
Tensor.Art :https://tensor.art/
国内优质的模型分享平台,提供大量高质量的二次元和写实风格模型。
-
4.3 模型使用方法
-
- 下载对应类型的模型文件
- 将文件放置到上述对应的存放路径中
- 重启 Stable Diffusion webui,或点击界面右上角的 "刷新" 按钮
- 在界面顶部的模型下拉菜单中选择需要使用的模型
- LoRA 模型可在提示词中通过
<lora:模型名:权重>的方式调用,例如<lora:shuimo:0.7>表示调用名为 "shuimo" 的 LoRA 模型,权重为 0.7
五、基础操作与核心参数详解
5.1 WebUI 界面介绍
Stable Diffusion webui 界面主要分为以下几个功能模块:
-
- 文生图(txt2img):根据文字描述生成全新的图像,是最常用的功能
- 图生图(img2img):基于上传的参考图像进行修改和重绘,支持整体重绘、局部重绘、放大等功能
- 后期处理(Extras):对生成的图像进行超分辨率放大、面部修复、降噪等后期处理
- PNG 信息(PNG Info):查看生成图像的提示词、参数等元数据,可直接将参数加载到生成界面
- 扩展(Extensions):用于安装、管理和更新第三方插件
- 设置(Settings):对 webui 的各项参数进行全局配置
5.2 第一次生成图像
-
- 打开 webui 界面,默认进入 "文生图" 标签页
- 在 "正向提示词" 输入框中输入描述,例如:
masterpiece, best quality, 1girl, long hair, blue eyes, white dress, garden, sunlight - 在 "反向提示词" 输入框中输入需要避免的内容,例如:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality - 设置生成参数:采样方法选择 "DPM++ 2M Karras",采样步数设置为 20,CFG Scale 设置为 7,分辨率设置为 512×512
- 点击 "生成" 按钮,等待几秒钟即可看到生成的图像
- 生成完成后,可点击图像下方的 "保存" 按钮保存图像,或点击 "发送到图生图" 进行进一步修改
5.3 核心参数详解
表格
| 参数名称 | 作用说明 | 推荐值范围 |
|---|---|---|
| 采样方法 | 决定图像生成的算法,不同方法的生成速度和效果不同 | DPM++ 2M Karras(高质量)、Euler a(快速出图) |
| 采样步数 | 生成图像的迭代次数,步数越多图像越精细,但生成时间越长 | 20-30(SD 1.5)、30-40(SDXL) |
| CFG Scale | 提示词引导强度,值越高图像越符合提示词,但过高会导致图像失真 | 5-10(常用 7) |
| 宽度 / 高度 | 生成图像的分辨率,分辨率越高细节越丰富,但显存占用和生成时间越长 | 512×512、768×768(SD 1.5)、1024×1024(SDXL) |
| 批量计数 / 批量大小 | 一次性生成的图像数量,批量大小是每次并行生成的数量 | 批量计数 1-4,批量大小 1(低显存) |
| 种子(Seed) | 随机数种子,相同的种子和参数会生成完全相同的图像,用于复现和微调效果 | -1(随机生成) |
| 重绘幅度(Denoising strength) | 图生图专用,决定参考图像的保留程度,值越高修改越大,值越低越接近原图 | 0.3-0.7 |
5.4 提示词编写技巧
提示词是决定生成图像质量的关键,掌握正确的提示词编写方法可以大幅提升生成效果。
(1)基础提示词结构
[质量词] + [主体描述] + [细节描述] + [风格描述] + [环境描述] + [构图描述]
示例:
masterpiece, best quality, ultra-detailed, 1girl, solo, long black hair, red eyes, wearing a black gothic dress, standing in a dark castle, moonlight, cinematic lighting, depth of field, 8k
(2)反向提示词
反向提示词用于过滤不需要的内容,避免生成低质量、畸形或不符合要求的图像。通用反向提示词模板:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
(3)提示词权重语法
- 增加权重:(关键词:权重),例如 (red eyes:1.2) 表示红色眼睛的权重增加 20%
- 降低权重:(关键词:权重),例如 (blurry:0.5) 表示模糊的权重降低 50%
- 多层括号:((关键词)) 等同于 (关键词:1.21),权重逐层叠加
六、核心进阶功能入门
6.1 图生图(img2img)
图生图是 Stable Diffusion 最实用的功能之一,可以基于参考图像进行修改和创作。常见用法:
-
- 风格转换:将照片转换为油画、动漫、素描等不同风格
- 图像重绘:修改现有图像的内容,例如更换人物的衣服、发型、背景
- 局部重绘:只修改图像的特定区域,保留其他部分不变,常用于修复生成缺陷
- 图像放大:将低分辨率图像放大为高分辨率图像
使用方法:
-
- 进入 "图生图" 标签页,上传参考图像
- 输入正向和反向提示词
- 设置重绘幅度(0.3-0.7 效果最佳)
- 点击 "生成" 按钮
6.2 ControlNet 基础使用
ControlNet 是 Stable Diffusion 最重要的插件之一,它可以通过参考图像的姿态、线条、深度、边缘等信息,精准控制生成图像的构图和结构,解决了传统文生图构图不可控的问题。
常用 ControlNet 模型
-
- Canny:基于边缘检测,提取参考图像的轮廓线条,控制生成图像的整体结构
- OpenPose:提取参考图像的人体姿态,控制生成人物的动作和姿势
- Depth:提取参考图像的深度信息,控制生成图像的空间关系和透视
- Lineart:提取参考图像的线稿,用于将线稿上色或生成完整图像
使用方法
-
- 确保已安装 ControlNet 插件(整合包通常已预安装)
- 进入 "文生图" 或 "图生图" 标签页,展开下方的 "ControlNet" 面板
- 勾选 "Enable" 启用 ControlNet
- 上传参考图像,选择对应的 ControlNet 模型和预处理方法
- 设置控制权重(0.5-1.0 效果最佳)
- 输入提示词并生成图像
七、常见问题排查
7.1 启动失败问题
-
- 问题 :双击
webui-user.bat后闪退- 解决方案:检查 Python 版本是否为 3.10.6,是否已添加到系统环境变量;检查路径中是否包含中文和空格
- 问题 :提示 "CUDA out of memory"
- 解决方案:添加
--lowvram或--medvram启动参数;降低生成分辨率;关闭不必要的插件
- 解决方案:添加
- 问题 :依赖安装失败
- 解决方案:使用国内 pip 镜像源;手动安装失败的依赖包;检查网络连接
- 问题 :双击
7.2 生成图像问题
-
- 问题 :生成的图像模糊、细节差
- 解决方案:增加采样步数;使用更好的采样方法;提高 CFG Scale;使用高质量的基础模型和 VAE
- 问题 :生成的人物有畸形的手、脚或面部
- 解决方案:在反向提示词中添加相关的负面描述;使用面部修复插件;使用专门训练的人物模型;结合 ControlNet OpenPose 控制姿态
- 问题 :生成的图像与提示词不符
- 解决方案:调整 CFG Scale;优化提示词,增加关键词的权重;更换基础模型;降低 LoRA 权重
- 问题 :生成的图像模糊、细节差
7.3 模型加载问题
-
- 问题 :下载的模型在界面中不显示
- 解决方案:检查模型是否放置在正确的路径中;点击界面右上角的 "刷新" 按钮;检查模型格式是否正确
- 问题 :加载模型时提示 "Model load failed"
- 解决方案:检查模型文件是否损坏;重新下载模型;确保有足够的内存和显存
- 问题 :下载的模型在界面中不显示
八、重要合规提醒
-
- 严格遵守国家相关法律法规,不得生成违法、违规、低俗、色情、暴力、恐怖、侵权的内容
- 使用他人发布的模型、LoRA、插件和作品时,请尊重原作者的版权和使用协议,不得用于商业用途(除非获得授权)
- 不得生成他人的肖像图像用于商业用途,避免侵犯他人的肖像权和隐私权
- 不得将生成的内容用于商业欺诈、虚假宣传、造谣传谣等非法用途
- 定期备份重要的模型、配置文件和生成作品,避免因环境损坏或硬盘故障导致数据丢失
- 不要传播和使用包含恶意代码的模型和整合包,保护电脑安全
九、进阶学习方向
掌握基础操作后,你可以继续深入学习以下内容:
-
- LoRA 模型训练:训练自己专属的人物、风格或物体模型
- ControlNet 高级用法:使用多个 ControlNet 模型组合控制,实现更复杂的生成效果
- 插件开发与使用:安装和使用更多第三方插件,拓展 Stable Diffusion 的功能
- 模型合并与微调:合并多个模型,创造独特的风格效果
- 批量生成与自动化:使用脚本实现批量生成和自动化处理