Stable Diffusion 入门：架构、空间与生成流程概览

一、引言

在人工智能绘画的技术版图中，Stable Diffusion（SD）凭借其开源、高效与高可控性，成为了当之无愧的基础设施。如果不深入底层代码，仅从系统架构层面看，Stable Diffusion 的本质是一个跨空间的生成映射系统。

它的核心任务很简单：将人类的语言描述，转化为计算机能理解的向量，最终还原成肉眼可见的像素图像。

在这个转化过程中，像素空间（Pixel Space） 与 潜在空间（Latent Space） 是两个决定性的运算舞台。前者是图像的最终形态，后者是模型内部高效计算的核心载体。而贯穿在这两个空间之间的，是 Stable Diffusion 由外到内、由表及里的三大功能模块。

本文将不纠结于 U-Net 的具体残差结构或 CLIP 的文本编码细节，而是站在架构分层的角度，清晰拆解这三大模块如何协同工作，完成从 "输入" 到 "输出" 的完整生成闭环。

二、模型分类

当前 AI 大模型领域，主流的分类方式是按功能模态划分，常见类别如下：

大语言模型（LLM）：核心能力是「文生文」，典型场景为对话、文本生成，代表模型如 Qwen、ChatGLM3、LLaMA3 等；
文本嵌入模型：核心能力是「内容向量化」，用于检索、微调等场景，代表如 bge、text2vec 等；
重排模型：核心能力是「向量数据优化」，用于提升检索精度，代表如 bge-reranker 系列；
多模态模型：核心能力是「跨模态理解与生成」，支持图文 / 音视频输入输出，代表如 Qwen-VL、LLaVA 等；
语音识别 / 播报模型：核心能力是「音频 - 文本互转」，用于语音合成、ASR，代表如 Whisper、StyleTTS 2 等；
扩散模型（Diffusion Model）：核心能力是「文生图 / 文生视频」，是图像生成领域的主流技术，代表如 StabilityAI 系列、AnimateDiff 等。

在上述分类中，扩散模型是专门负责视觉内容生成的核心技术分支。而从生成范式的角度，扩散模型又被称为「扩展模型」。

三、扩展模型

在了解 Stable Diffusion 架构之前，必须先明确一个核心定位：Stable Diffusion 并不是一种全新的生成模型，而是对传统扩散模型的一次关键扩展与改进。它在原始扩散模型的基础上，引入了隐空间（Latent Space）思想，解决了原始扩散模型计算开销过大、难以落地的问题，从而成为了工业级可用的文生图框架。

3.1 定义

在深度学习生成模型的发展脉络里，扩展模型 并不是某一个具体模型的名字，而是一类基于逐步迭代、逐步修正、逐步构建的生成范式的统称。

它的核心思想是：不从零直接生成完整数据，而是从噪声开始，通过多步迭代，一步步 "扩展" 出清晰、结构化的真实数据。

这种 "从无序到有序、从模糊到清晰、逐步修正" 的生成方式，就是扩展式生成模型的本质。

3.2 扩散模型

扩展模型是一个 "生成范式"，不是具体模型。

它描述的是一类通过逐步迭代、逐步修正、从无序到有序的生成方式。

扩散模型是扩展模型思想下的一种具体算法。

它严格遵循扩展模型 "逐步迭代" 的范式，同时有自己独特的机制：

前向过程：对图像逐步加噪，把真实图扩展成纯噪声
反向过程：从纯噪声逐步去噪，扩展回清晰图像

3.2.1 前向扩散

前向过程是固定、无需学习、纯数学操作的过程。

对一张清晰的真实图像，在T 个时间步内逐步加入高斯噪声，直到图像完全变成纯高斯噪声。

简单来说，就是：图片转为马赛克。

特点

固定规则，不需要训练
一步步破坏结构，把有序数据扩展为无序噪声
对应 "扩展模型" 中从数据扩展到噪声的过程

3.2.2 反向扩散

反向过程是扩散模型真正需要学习的部分。

从最终的纯噪声 xT 出发，通过神经网络预测每一步应该去掉的噪声，逐步还原出清晰图像 x0。

简单来说，就是：马赛克转为图像。

特点

这是模型真正学习的部分
从无序噪声逐步扩展出结构化、语义清晰的图像
完全符合扩展模型"逐步构建" 的范式

3.3 局限

原始扩散模型（Denoising Diffusion Probabilistic Models, DDPM）直接在像素空间进行迭代去噪。一张 512×512 的图像包含数十万个像素点，每一步去噪都需要对整张图的高维像素特征进行建模，导致：

参数量巨大
训练与推理速度极慢
显存占用极高
难以在普通设备上运行

3.4 扩展方向

为了解放计算效率，研究者开始对扩散模型进行结构性扩展 ，核心思路是：不再对像素直接去噪，而是先把图像压缩到低维隐空间，在隐空间中做扩散，最后再还原回像素图。

这一扩展思路带来了三个关键收益：

数据维度大幅降低，计算量指数级下降
保留图像的高阶语义信息，忽略细粒度噪声
模型更易收敛，生成速度显著提升

基于这一思想，Latent Diffusion Model（LDM）被正式提出，而 Stable Diffusion 正是 LDM 面向文本引导图像生成的完整工程化实现。

四、Stable Diffusion

4.1 定义

Stable Diffusion 是由 CompVis、Stability AI 与 LAION 等机构联合推出的开源文本生成图像模型 ，其本质是基于隐空间扩散模型（Latent Diffusion Model, LDM） 架构的工程化实现，也是当前最具代表性的扩展式生成模型落地成果之一。

与早期直接在像素空间进行去噪的传统扩散模型不同，Stable Diffusion 最大的创新在于将扩散过程从高维像素空间转移到低维隐空间，在显著降低计算开销的同时，保留了扩散模型生成质量高、训练稳定、多样性强的优势。它通过引入文本条件、视觉结构条件等多种引导信号，实现了从文本描述、参考图像、结构约束到高质量图像的精准映射，成为 AIGC 领域里程碑式的开源基座模型。

从模型定位上看：

它继承了扩散模型的扩展式生成范式，以逐步去噪的方式构建图像；
它基于隐空间扩散的架构改进，解决了传统扩散模型速度慢、耗资源的问题；
它通过CLIP 文本编码器实现文本语义对齐，让模型能够理解并遵循人类语言描述；
凭借开源开放的特性，它迅速发展出 LoRA、ControlNet 等大量扩展生态，成为多模态生成领域的基础设施。

4.2 运用场景

扩散模型凭借生成质量高、可控性强的优势，已广泛落地各领域，而 Stable Diffusion 作为其开源标杆，更是凭借轻量化、可扩展的特性，成为最实用的 AIGC 工具之一，核心应用场景集中在以下几个方向：

在创意设计领域 ，它是设计师的高效辅助工具，可快速生成插画、海报、UI 素材、电商配图等，大幅降低前期创作成本、提升迭代效率；在影视游戏行业，用于生成游戏场景、角色立绘、影视概念图，辅助数字内容生产流程。

在日常与文娱场景 ，可生成个性化头像、壁纸，实现照片修复、风格转换，满足普通人的创作需求；在科研与工业领域，用于数据增强（如医学、遥感图像扩充）、建筑 / 产品效果图渲染，助力科研与设计落地。

简言之，从专业的商业设计到日常娱乐，从工业生产到科研辅助，Stable Diffusion 作为扩散模型的实用化实现，已成为降低视觉内容生产门槛、提升效率的核心工具。

五、核心运算空间

与传统扩散模型直接在像素层面进行迭代去噪不同，Stable Diffusion 的核心创新的是将扩散过程迁移至低维隐空间，通过 "空间转换" 实现算力与生成质量的平衡，而这一创新的核心，就离不开两个关键的运算与存储空间 ------ 像素空间（Pixel Space）与潜在空间（Latent Space）。

5.1 像素空间

像素空间是我们肉眼可见、计算机直接存储的图像空间，是图像的「物理载体」。

核心特点

高维、直观 一张 512×512 的 RGB 图像，像素空间维度为 512×512×3 = 786432 维，每一个维度对应一个像素的颜色值（R/G/B 三通道），直接对应我们看到的画面细节。
计算成本极高传统扩散模型（DDPM）直接在像素空间做前向加噪、反向去噪，每一步都要处理近百万维的特征，导致训练 / 推理速度极慢、显存占用爆炸，难以工程化落地。
冗余信息多像素空间包含大量细粒度的噪声、纹理冗余，这些信息对图像的核心语义（比如「沙滩、船」的主体结构）贡献极低，却占用了绝大部分计算资源。

5.2 潜在空间

潜在空间是通过编码器压缩得到的低维特征空间，是图像的「语义载体」，也是 Stable Diffusion 的核心创新所在。

核心特点

低维、抽象 Stable Diffusion 中，VAE 编码器会将 512×512 的像素图像，压缩为 64×64×4 的潜在特征（维度仅为 64×64×4 = 16384 维），维度仅为像素空间的 1/48，大幅降低计算量。
保留核心语义压缩过程会丢弃像素级的冗余噪声，只保留图像的核心结构、语义信息（比如物体的形状、布局、风格），确保后续扩散过程只需要处理「有效信息」。
不可直接可视化潜在空间的特征是抽象的高维向量，无法直接用肉眼观看，必须通过 VAE 解码器解码回像素空间，才能生成我们看到的图像。

5.3 区别

对比维度	像素空间（Pixel Space）	潜在空间（Latent Space）
本质	图像的物理存储形式，对应肉眼可见的像素点	图像的抽象特征空间，对应图像的核心语义
维度大小	极高（512×512×3≈78 万维）	极低（64×64×4≈1.6 万维，仅为像素空间的 1/48）
计算成本	极高，传统扩散模型直接在此空间运算，速度慢、显存占用大	极低，Stable Diffusion 在此空间做扩散，速度提升数十倍
信息特点	包含大量像素级冗余、噪声，细节完整	仅保留核心语义、结构信息，丢弃冗余噪声
可视化性	可直接肉眼观看	不可直接观看，需解码器还原为像素图
在 SD 中的作用	最终输出的载体，仅在 VAE 解码阶段参与	扩散去噪的核心运算空间，U-Net 全程在此工作

5.4 潜空间的作用

这是 Stable Diffusion 能从「实验室模型」变成「工业级可用工具」的关键：

算力爆炸式下降维度缩小 48 倍，意味着 U-Net 的计算量、显存占用同步大幅降低，普通消费级 GPU 也能运行，实现了本地部署的可能。
生成效率大幅提升低维空间的迭代去噪速度远快于像素空间，原本需要数分钟的生成过程，压缩到几秒即可完成。
生成质量不受损VAE 编码器 / 解码器经过专门训练，能在压缩 - 还原过程中几乎无损地保留图像细节，既降本又保质。
生态扩展性更强潜在空间的抽象特征更适合注入文本条件（CLIP）、结构条件（ControlNet）等引导信号，为后续 LoRA、ControlNet 等扩展模型提供了基础。

六、组成部分

在明确了像素空间与潜在空间的核心作用后，我们可以进一步梳理 Stable Diffusion 的完整架构逻辑：模型的整个生成流程，本质就是「输入信息编码 → 潜在空间生成 → 像素空间解码」的闭环。基于这一流程，Stable Diffusion 从功能上可划分为三大核心组成部分，三者协同完成从文本提示到可视化图像的全链路生成：

6.1 输入编码器（Input Encoder）

输入编码器是 Stable Diffusion 的「信息入口」，核心作用是将用户输入的自然语言提示词（Prompt），转换为模型可理解的高维语义向量。

技术本质：对应 CLIP 文本编码器，通过预训练的语言模型，对提示词进行分词、编码，提取出蕴含文本语义的特征向量；
空间作用：为后续潜在空间的生成过程提供「引导信号」，让模型的去噪过程严格遵循用户的文本描述；
补充说明：若为图生图（Img2Img）任务，输入编码器还会包含 VAE 图像编码器，将像素空间的参考图像压缩至潜在空间，作为生成的初始条件。

6.2 图片生成器（Image Generator）

图片生成器是 Stable Diffusion 的「核心大脑」，也是整个扩散过程的执行主体。

技术本质：对应 U-Net 去噪网络 + 反向扩散过程；
核心逻辑：接收输入编码器输出的语义向量，在潜在空间中，以纯高斯噪声为起点，通过多步迭代预测并去除噪声，逐步生成符合文本语义的潜在空间特征图；
关键价值：在低维潜在空间完成运算，大幅降低计算成本，同时保证生成图像的语义准确性与结构完整性。

6.3 图片解码器（Image Decoder）

图片解码器是 Stable Diffusion 的「输出出口」，负责完成从「模型特征」到「可视化图像」的最终转换。

技术本质：对应 VAE 解码器；
核心作用：将图片生成器在潜在空间中生成的抽象特征图，解码还原至像素空间，输出我们肉眼可见的、高分辨率的最终图像；
补充说明：VAE 解码器经过专门训练，可在解码过程中最大程度保留图像细节，确保潜在空间的语义特征无损映射为像素空间的视觉效果。

6.4 与空间的关系

三大组成模块与像素空间、潜在空间的流转完全对应：

输入编码器：负责将「像素空间的文本 / 图像输入」，转换为「潜在空间可处理的语义特征」；
图片生成器：全程在「潜在空间」执行扩散去噪，完成核心生成；
图片解码器：负责将「潜在空间的生成特征」，还原为「像素空间的可视化图像」。

七、总结

综上所述，Stable Diffusion 并非一个单一的黑盒模型，而是一套设计精妙的空间转换系统。

两大空间 ：像素空间 负责最终的视觉呈现，潜在空间负责高效的特征运算与生成。
三大模块 ：
- 输入编码器 负责信息的入口与语义化；
- 图片生成器 负责潜空间的核心扩散与构建；
- 图片解码器 负责特征的还原与可视化输出。

这三个模块紧密配合，形成了一个完整的生成闭环：输入编码 → 潜空间生成 → 像素空间解码。

至此，我们在宏观层面彻底理清了 Stable Diffusion 的骨架。 但你可能会好奇：

输入编码器具体是如何将文字转化为向量的？
图片生成器在潜空间里是如何预测噪声、一步步把噪声变成图像的？
VAE 解码器究竟是如何做到无损还原的？

这些关于核心算法细节 的深度解析，将在我的下一篇博客 中展开。我们将逐一拆解 CLIP 文本编码器 的语义对齐机制，深入分析 U-Net 去噪网络 的反向扩散原理，并详解 VAE 的编解码过程。让我们继续深入技术底层，揭开 Stable Diffusion 的核心算法面纱。