SD稳定扩散模型理论基础的探索

Stable Diffusion是潜扩散模型的一个杰出代表,是目前多模态LLM的基础。

这里系统梳理Stable Diffusion模型的理论基础DDPM,并重点推导其扩散公式。

所用示例参考和修改自网络资料。

1 去噪扩散概率模型

DDPM(Denoising Diffusion Probabilistic Models)是Stable Diffusion的理论基础,定义一个前向扩散过程和一个反向去噪过程。

1.1 前向扩散过程-加噪

DDPM是一个马尔可夫链过程,逐步向原始数据添加高斯噪声,直到完全变为纯噪声

其中是预设的噪声方差表,随时间t增加。

这里可以通过重参数化技巧,直接从计算出第t步的,而无需逐步迭代。

那么:

经过一系列递归代入和推理,可以得到:

其中

具体推理和迭代过程参考如下链接

https://blog.csdn.net/liliang199/article/details/156341403

这就是前向扩散的核心公式:

当T足够大时,就几乎是纯高斯噪声。

1.2 反向去噪过程-生成

这是SD扩散模型需要学习的部分。

简单说,就是如果能逆转上述过程,即,就可以从噪声中逐步还原出数据

1)学习目标:

因为反向转移难以直接计算,所以这里学习一个参数化的模型来近似。

2)关键推导:

足够小时,真实的反向过程也是一个高斯分布。

依据贝叶斯公式,过程如下

由于是马尔可夫链,上式简化为

其中每一项都是高斯分布,并且都已知。

代入高斯分布的概率密度函数,经过复杂的推导过程,可以得到如下结论。

其中:

这里的是在前向过程中从生成时加入的噪声。

3)模型训练目标

我们发现这个分布的均值依赖于未知的和噪声

由于在训练时我们有,前向公式

因此,可以表示为

代入 表达式,经过化简,最终可以表示为仅包含和其包含噪声的函数。

因此,我们用一个神经网络来预测这个噪声

模型的均值就设为:

方差可以固定为

通过最小化模型分布与真实后验分布q的 KL 散度,推导出简洁的训练目标,即损失函数。

其中

1.3. 采样-生成图像

训练好噪声预测器后,采样过程从随机噪声开始,执行以下循环:

其中是方差(对应 )。从迭代到,最终得到

2 Stable Diffusion 的核心创新

直接在像素空间(如512x512x3)进行扩散计算量巨大,Stable Diffusion采用如下机制。

2.1 在潜空间进行扩散

首先,使用一个预训练好的VAE 编码器将图像压缩到一个更低维的潜变量。通常维度从数百万像素降低到约 64x64x4,极大减少了计算负担。

然后,整个 DDPM 的前向和反向过程都在这个潜空间中进行,而不是在原始像素空间中。

最后,生成过程结束时,使用VAE 解码器将潜变量解码回像素空间图像

2.2 条件引导机制

为了实现"文生图",需要将文本提示(如"一只可爱的猫")作为条件注入到去噪过程中。

具体做法是,用一个 CLIP 文本编码器(如 BERT 或 CLIP 的文本编码器)将文本提示编码成特征向量。

在UNet噪声预测器中,通过交叉注意力机制将文本特征注入到模型的中间层。

此时,噪声预测器变为条件型:

训练目标变为:

其中是文本编码器

3 Stable Diffusion总结

Stable Diffusion 模型的理论基础与公式推导可以概括为如下几方面。

3.1 理论基础

建立在去噪扩散概率模型之上,通过定义一个可学习的马尔可夫链来逆转逐步加噪的过程,核心是训练一个噪声预测网络。

3.2 核心公式推导

前向:

反向真实后验:

模型参数化:用预测 ,从而得到

训练目标:简化的均方误差

3.3 Stable Diffusion 的创新

将高维像素空间的扩散转移至由 VAE 编码的低维、信息密集的潜空间,大幅提升效率。

通过交叉注意力机制,将文本、图像等条件信息无缝集成到扩散模型的 U-Net 噪声预测器中,实现了高度可控的生成。

这种结合使得 Stable Diffusion 能够在消费级 GPU 上高效生成高质量、符合复杂语义描述的图像,成为扩散模型发展的里程碑。

reference


一文读懂Stable Diffusion 论文原理+代码超详细解读

https://zhuanlan.zhihu.com/p/640545463

Stable Diffusion扩散模型推导公式的基础知识

https://blog.csdn.net/qq_23022733/article/details/137350492

DDPM前向加噪过程详细推导

https://blog.csdn.net/liliang199/article/details/156341403

相关推荐
智驱力人工智能6 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144876 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile6 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算
人工不智能5776 小时前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert
盟接之桥6 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
kfyty7256 小时前
集成 spring-ai 2.x 实践中遇到的一些问题及解决方案
java·人工智能·spring-ai
h64648564h6 小时前
CANN 性能剖析与调优全指南:从 Profiling 到 Kernel 级优化
人工智能·深度学习
数据与后端架构提升之路6 小时前
论系统安全架构设计及其应用(基于AI大模型项目)
人工智能·安全·系统安全
忆~遂愿6 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
Liue612312316 小时前
YOLO11-C3k2-MBRConv3改进提升金属表面缺陷检测与分类性能_焊接裂纹气孔飞溅物焊接线识别
人工智能·分类·数据挖掘