SD稳定扩散模型理论基础的探索

Stable Diffusion是潜扩散模型的一个杰出代表,是目前多模态LLM的基础。

这里系统梳理Stable Diffusion模型的理论基础DDPM,并重点推导其扩散公式。

所用示例参考和修改自网络资料。

1 去噪扩散概率模型

DDPM(Denoising Diffusion Probabilistic Models)是Stable Diffusion的理论基础,定义一个前向扩散过程和一个反向去噪过程。

1.1 前向扩散过程-加噪

DDPM是一个马尔可夫链过程,逐步向原始数据添加高斯噪声,直到完全变为纯噪声

其中是预设的噪声方差表,随时间t增加。

这里可以通过重参数化技巧,直接从计算出第t步的,而无需逐步迭代。

那么:

经过一系列递归代入和推理,可以得到:

其中

具体推理和迭代过程参考如下链接

https://blog.csdn.net/liliang199/article/details/156341403

这就是前向扩散的核心公式:

当T足够大时,就几乎是纯高斯噪声。

1.2 反向去噪过程-生成

这是SD扩散模型需要学习的部分。

简单说,就是如果能逆转上述过程,即,就可以从噪声中逐步还原出数据

1)学习目标:

因为反向转移难以直接计算,所以这里学习一个参数化的模型来近似。

2)关键推导:

足够小时,真实的反向过程也是一个高斯分布。

依据贝叶斯公式,过程如下

由于是马尔可夫链,上式简化为

其中每一项都是高斯分布,并且都已知。

代入高斯分布的概率密度函数,经过复杂的推导过程,可以得到如下结论。

其中:

这里的是在前向过程中从生成时加入的噪声。

3)模型训练目标

我们发现这个分布的均值依赖于未知的和噪声

由于在训练时我们有,前向公式

因此,可以表示为

代入 表达式,经过化简,最终可以表示为仅包含和其包含噪声的函数。

因此,我们用一个神经网络来预测这个噪声

模型的均值就设为:

方差可以固定为

通过最小化模型分布与真实后验分布q的 KL 散度,推导出简洁的训练目标,即损失函数。

其中

1.3. 采样-生成图像

训练好噪声预测器后,采样过程从随机噪声开始,执行以下循环:

其中是方差(对应 )。从迭代到,最终得到

2 Stable Diffusion 的核心创新

直接在像素空间(如512x512x3)进行扩散计算量巨大,Stable Diffusion采用如下机制。

2.1 在潜空间进行扩散

首先,使用一个预训练好的VAE 编码器将图像压缩到一个更低维的潜变量。通常维度从数百万像素降低到约 64x64x4,极大减少了计算负担。

然后,整个 DDPM 的前向和反向过程都在这个潜空间中进行,而不是在原始像素空间中。

最后,生成过程结束时,使用VAE 解码器将潜变量解码回像素空间图像

2.2 条件引导机制

为了实现"文生图",需要将文本提示(如"一只可爱的猫")作为条件注入到去噪过程中。

具体做法是,用一个 CLIP 文本编码器(如 BERT 或 CLIP 的文本编码器)将文本提示编码成特征向量。

在UNet噪声预测器中,通过交叉注意力机制将文本特征注入到模型的中间层。

此时,噪声预测器变为条件型:

训练目标变为:

其中是文本编码器

3 Stable Diffusion总结

Stable Diffusion 模型的理论基础与公式推导可以概括为如下几方面。

3.1 理论基础

建立在去噪扩散概率模型之上,通过定义一个可学习的马尔可夫链来逆转逐步加噪的过程,核心是训练一个噪声预测网络。

3.2 核心公式推导

前向:

反向真实后验:

模型参数化:用预测 ,从而得到

训练目标:简化的均方误差

3.3 Stable Diffusion 的创新

将高维像素空间的扩散转移至由 VAE 编码的低维、信息密集的潜空间,大幅提升效率。

通过交叉注意力机制,将文本、图像等条件信息无缝集成到扩散模型的 U-Net 噪声预测器中,实现了高度可控的生成。

这种结合使得 Stable Diffusion 能够在消费级 GPU 上高效生成高质量、符合复杂语义描述的图像,成为扩散模型发展的里程碑。

reference


一文读懂Stable Diffusion 论文原理+代码超详细解读

https://zhuanlan.zhihu.com/p/640545463

Stable Diffusion扩散模型推导公式的基础知识

https://blog.csdn.net/qq_23022733/article/details/137350492

DDPM前向加噪过程详细推导

https://blog.csdn.net/liliang199/article/details/156341403

相关推荐
GISer_Jing2 小时前
Taro打造电商项目实战
前端·javascript·人工智能·aigc·taro
deephub2 小时前
dLLM:复用自回归模型权重快速训练扩散语言模型
人工智能·python·语言模型·大语言模型
智算菩萨2 小时前
【Python机器学习】支持向量机(SVM)完全指南:从理论到实践的深度探索
算法·机器学习·支持向量机
中國龍在廣州2 小时前
2025,具身智能正在惩罚“持有者”
人工智能·深度学习·算法·自然语言处理·chatgpt
阿部多瑞 ABU2 小时前
第五章:林心
人工智能·ai·ai写作
itwangyang5202 小时前
AIDD-人工智能药物设计-字节跳动 PXDesign:AI 设计蛋白,82% 命中率惊艳业界
人工智能·python
ToB营销学堂2 小时前
百格活动《大型会议管理 & 执行指南》:大型会议如何从“事务交付”向“资产运营”转型?
人工智能·大会管理系统·会议活动执行·活动管理·大会执行·会议策划
微风企2 小时前
智能体重塑金融财税,我意识到人类对AI 助手的开发不足1%
人工智能
说私域2 小时前
基于AI大模型与AI智能名片S2B2C商城小程序的抖音内容力构建与品牌增长研究
大数据·人工智能·小程序·开源