一、技术溯源:扩散模型的诞生(2020--2021)
- 2020:DDPM(去噪扩散概率模型) 谷歌提出,奠定扩散模型理论基础:通过正向加噪 (从清晰图到纯噪声)、逆向去噪 (从噪声还原图像)的马尔可夫链生成图像。
- 优势:训练稳定、生成质量高;
- 劣势:像素级计算,显存 / 算力需求极高,无法消费级部署。
- 2021:DDIM/PLMS 等快速采样器把采样步数从 1000 步压缩到 50 步内,大幅提升推理速度。
二、Stable Diffusion 1.x 时代:开源奠基(2022)
1. 核心突破:潜空间扩散(LDM)
- 用VAE 自编码器 将 512×512 图像压缩到 64×64 潜空间(维度降 64 倍),在潜空间做扩散,显存需求从专业卡降至4GB 消费级 GPU可用。
- 架构三模块:CLIP 文本编码器 (文本→嵌入)、U-Net (潜空间去噪)、VAE(潜空间→图像)。
2. 版本演进(2022)
表格
| 版本 | 时间 | 核心改进 | 关键特性 |
|---|---|---|---|
| SD 1.0--1.4 | 2022.08 | 首次开源 LDM | 512×512,FID≈10,引爆社区Stable Diffusion |
| SD 1.5 | 2022.10 | RunwayML 优化 | 噪声调度(cosine)、LoRA 微调、FID≈9.5,社区主流Stable Diffusion |
| SD 2.0/2.1 | 2022.11--12 | 重训 + OpenCLIP | 768×768,文本对齐更强,NSFW 过滤更严Stable Diffusion |
三、SDXL 时代:高清与多模态(2023)
1. SDXL 1.0(2023.07)
- 双文本编码器:CLIP ViT-L/14(风格)+ T5-XXL(细粒度语义)。
- DiT 架构:U-Net 升级为 Diffusion Transformer,全局注意力提升细节与构图。
- 高分辨率:原生 1024×1024,支持 2K/4K 超分,参数 3.5B+6.6B。
- 成为商用首选,生态最完善。
2. 速度与模态扩展(2023 下半年)
- SDXL Turbo:蒸馏技术,1--4 步实时生成,速度提升 100 倍 +Stable Diffusion。
- Stable Video Diffusion(SVD):文生视频,14--25 帧,时序一致性优化Stable Diffusion。
- Stable Zero123:3D 多视角生成,从单图生成 3D 物体Stable Diffusion。
四、SD3/3.5 与下一代:Transformer 大一统(2024)
1. SD3(2024.02)
- MM-DiT:多模态扩散 Transformer,三编码器(CLIP+T5+FLUX)联合交叉注意力。
- Flow Matching:替代传统噪声预测,训练更稳、收敛更快。
- 语义理解提升 300%,原生支持复杂逻辑与多语言,百万像素级生成。
2. SD3.5(2024.10)
- 进一步优化速度与质量,支持更长文本、更强构图与细节,适配专业创作。
3. 轻量化与级联(2024)
- SD Cascade:三段式生成(低清→高清→超清),兼顾速度与质量。
- SDXL Lightning:4--8 步达商用级,适配实时交互。
五、技术路线总览(核心演进方向)
- 架构升级:U-Net → DiT → MM-DiT(Transformer 全面接管)。
- 文本理解:单 CLIP → 双编码器(CLIP+T5) → 三编码器(+FLUX)。
- 分辨率:512 → 768 → 1024 → 百万像素Stable Diffusion。
- 速度:50 + 步 → 20 步 → 1--4 步(蒸馏 / Flow Matching)Stable Diffusion。
- 模态扩展:图像 → 视频 → 3D → 多模态融合Stable Diffusion。
- 部署:专业卡 → 消费级 GPU → 移动端 / 边缘端。
六、生态与影响
- 开源民主化:首个完全开源的高质量文生图模型,打破巨头垄断,社区贡献 LoRA/ControlNet/Embedding 等工具。
- 应用爆发:覆盖设计、游戏、影视、广告、教育等,成为 AIGC 基础设施。