【AI大模型入门】B02:Stable Diffusion——开源绘图,让AI绘画飞入寻常百姓家

【AI大模型入门】B02:Stable Diffusion------开源绘图,让AI绘画飞入寻常百姓家

📖 阅读时长 :约9分钟

🎯 适合人群 :对AI绘画感兴趣、想了解开源AI图像生成的新手

💡 你将学到:Stable Diffusion是什么、和Midjourney有什么区别、能做什么、怎么上手


一、AI绘图的"两条路"

在AI绘图领域,存在两种截然不同的产品路线:

复制代码
路线A:云端闭源(Midjourney)
  优点:简单好用,质量稳定
  缺点:需要付费,上传数据到云端,受内容限制

路线B:开源可本地(Stable Diffusion)
  优点:免费,数据留本地,可完全定制
  缺点:需要一定技术门槛,初次配置麻烦

Stable Diffusion 就是路线B的代表,而且是目前最重要的开源AI绘图模型。


二、Stable Diffusion 是什么?

Stable Diffusion 是由德国公司 Stability AI 开发,并于2022年8月完全开源发布的AI图像生成模型。

📄 核心论文High-Resolution Image Synthesis with Latent Diffusion Models(Rombach et al., CVPR 2022)

📄 论文解读专栏:敬请期待 《LDM论文解读:潜空间扩散模型如何生成高清图像》


▲ 图1:Latent Diffusion Model(LDM,潜在扩散模型)架构图。关键创新是将扩散过程从像素空间移到压缩的潜在空间(Latent Space),大幅降低计算成本。图片来源:原论文 / CompVis GitHub

"Diffusion(扩散)"这个名字来自它的工作原理:

复制代码
图像生成过程(扩散模型):
  纯噪声图像(随机像素点)
       ↓ 一步步去噪
       ↓ 根据文字描述引导去噪方向
       ↓ 每一步让图像更清晰
  最终生成符合描述的图像

可以想象成:从一张布满雪花的电视屏幕开始,一步步把"雪花"变成你描述的画面。


三、为什么 Stable Diffusion 的开源意义重大?

2022年8月,Stable Diffusion 开源发布,整个AI绘图领域发生了地震。

之前:AI绘图要么需要昂贵的专业服务,要么只有大公司才能玩。

之后 :只要有一台有不错显卡的电脑,任何人都可以免费、本地运行AI绘图。

复制代码
开源之后1个月内发生的事:
  • 数千名开发者下载研究
  • 各种界面工具(WebUI)涌现
  • 用户开始训练自定义风格模型
  • 出现了专门用于"画人物"的模型
  • 出现了风景、建筑、产品设计等垂直方向模型

现在,基于Stable Diffusion的生态已经有了数万个各种风格的模型可以下载使用。


四、Stable Diffusion 能做什么?

🎨 文生图(Text to Image)

复制代码
提示词:a fantasy castle on a floating island, 
        surrounded by clouds, sunset lighting, 
        digital art style, highly detailed

(输出:一张精美的奇幻城堡插画)

🔄 图生图(Image to Image)

上传一张图,告诉它你想改成什么风格或内容:

复制代码
输入:你的一张照片
提示:"把这张照片转成水彩画风格"
输出:水彩画风格的同一场景

🖊️ 局部重绘(Inpainting)

圈出图片的一部分,让AI重新绘制那个区域:

复制代码
原图:一张室内照片,墙上有难看的裂缝
操作:圈选裂缝区域
提示:"完整的白色墙面"
结果:裂缝消失,被完好的墙面取代

🔍 图像超分辨率(Upscaling)

把模糊的小图变成清晰的大图。

🎭 人物一致性(LoRA微调)

训练一个专门的小模型,让AI"认识"某个特定的人或风格,之后就能持续生成该人物/风格的图像。


五、Stable Diffusion 的版本进化

复制代码
Stable Diffusion v1.4/1.5 (2022)
  ├── 最经典版本,生态最丰富
  └── 大量LoRA和自定义模型基于此版本

Stable Diffusion 2.0/2.1 (2022年底)
  ├── 分辨率提升到768×768
  └── 改变了训练数据(过滤了部分内容)

SDXL(Stable Diffusion XL,2023)
  ├── 参数量增大,图像质量大幅提升
  ├── 默认分辨率1024×1024
  └── 对提示词的理解更准确

SD 3.0/3.5 (2024)
  ├── 采用全新架构,质量再次大幅提升
  ├── 文字生成更准确(AI生成图片中文字一直是难题)
  └── 支持更复杂的场景构图

六、使用 Stable Diffusion 的三种方式

方式一:在线体验(零门槛)

很多网站提供免费的SD在线体验:

  • Hugging Face 的各类SD演示空间
  • Civitai (专门的AI绘图社区,也有在线生成功能)
  • LiblibAI 哩布哩布 (国内最大的SD模型社区,支持在线生成)

方式二:本地部署(功能最全)

推荐使用 AUTOMATIC1111 WebUIComfyUI

复制代码
硬件要求:
  推荐:NVIDIA 显卡,显存 ≥ 8GB(RTX 3060或以上)
  最低:显存 4GB(质量较差,速度慢)
  CPU模式:理论可行,但每张图要等几分钟

安装步骤(概要):
1. 安装 Python 3.10
2. 下载 AUTOMATIC1111 WebUI
3. 下载模型文件(.safetensors,几GB大小)
4. 运行,浏览器打开即可使用

方式三:使用整合包(最适合国内新手)

国内有很多开发者做好了"整合包"------下载解压就能用,不需要自己配置环境。

在B站搜索"Stable Diffusion整合包"可以找到很多教程。


七、Civitai:AI绘图的"应用商店"

civitai.com 是全球最大的AI绘图模型分享社区,就像是SD的"应用商店":

复制代码
Civitai 上有什么:
  • 数万个风格各异的基础模型(Checkpoint)
  • LoRA微调模型(特定人物、特定风格)
  • 提示词(Prompt)分享
  • 社区用户的作品展示
  • 模型使用教程

比如你想要一个专门生成"浮世绘风格"插画的模型,或者一个擅长画"赛博朋克城市"的模型,都能在Civitai上找到。


八、AI绘图的提示词(Prompt)入门

Stable Diffusion 非常依赖提示词的质量。

基本结构

复制代码
[主题内容], [风格关键词], [质量关键词], [镜头/光线]

质量提升关键词(常用咒语)

复制代码
正向提示词(加这些提高质量):
masterpiece, best quality, ultra detailed,
8K, HDR, photorealistic, sharp focus

反向提示词(排除这些避免糟糕结果):
lowres, bad anatomy, bad hands, ugly,
blurry, worst quality, text, watermark

实战示例

复制代码
正向提示词:
"1girl, solo, long hair, blue dress, 
 standing in a garden, cherry blossoms, 
 soft sunlight, anime style, 
 masterpiece, best quality, detailed"

反向提示词:
"lowres, bad anatomy, blurry, 
 worst quality, ugly"

九、Stable Diffusion vs. Midjourney

对比项 Stable Diffusion Midjourney
费用 完全免费(本地运行) 约$10/月起
上手难度 ⭐⭐⭐⭐(需要配置) ⭐(超简单)
画面质量 取决于模型和提示词 稳定高质量
可定制性 极高(训练LoRA等) 较低
数据隐私 完全本地,安全 上传到云端
生态丰富度 极其丰富 封闭生态
商用限制 视具体模型协议 付费版可商用

十、总结

Stable Diffusion 是AI绘图领域的"民主化"力量:

  • 🆓 完全免费:本地运行无需付费
  • 🔓 完全开源:可修改、可商用(看具体模型协议)
  • 🎨 极高可定制性:数万个风格模型,训练专属LoRA
  • 🔒 数据安全:本地运行,隐私有保障
  • 🌍 最大的开源社区:全球最活跃的AI绘图社区

如果你有一台带独立显卡的电脑,愿意花几个小时折腾配置,Stable Diffusion 会给你打开一扇新世界的大门。


🔔 下一篇预告

【AI大模型入门】B03:Midjourney------最惊艳的AI绘图工具,无需任何技术背景


本文为【AI大模型百科专栏】第B02篇 · 爆发时代
作者:[孤岛站岗]
更新时间:2026年4月

相关推荐
智星云算力2 小时前
从创作到训练:Stable Diffusion WebUI全链路实战
人工智能·深度学习·stable diffusion·智星云·gpu算力租用
m0_647057962 小时前
【无标题】
前端·人工智能
renhongxia12 小时前
基于角色的大型语言模型框架,用于从健康食品政策中提取结构化信息
人工智能·深度学习·游戏·microsoft·语言模型·自然语言处理·transformer
AI探知-阿薇2 小时前
从获取OpenAI API key到Ollama本地部署:Cherry Studio 全栈AI工作站底层架构与生态战略分析
人工智能·架构
志栋智能2 小时前
小而美的选择:低成本超自动化巡检工具
数据库·人工智能
2501_933329552 小时前
企业级舆情监测系统技术选型指南:Infoseek AI中台架构解析与实践评估
人工智能·分布式·重构·架构
杀生丸学AI2 小时前
【世界模型】Captain Safari:位姿对齐3D记忆的世界引擎(CVPR 2026)
人工智能·大模型·aigc·safari·三维重建·3dgs·世界模型
Fleshy数模2 小时前
基于 dlib 与 OpenCV 的人脸检测实战:图片与视频场景全解析
人工智能·opencv·音视频
奇思智算2 小时前
在GPU平台上训练CNN 图像分类完整实践教程
人工智能·智星云·gpu算力租用