VAE和DDPM模型训练差异的探索

VAE和DDPM训练上的差异,源于它们在概率框架、优化目标和梯度估计方法上的根本不同。

这里尝试从以下3个层面探索VAE和DDPM的差异。

1 概率框架

VAE和DDPM的不同主要来源于概率框架的不同,相应地带来优化目标与梯度估计的差异。

VAE源自变分自编码器,DDPM则源子去噪扩散概率模型,这是两者的根本差异。

两者的目标都涉及对随机变量的期望,但形式和稳定性截然不同。

1.1 VAE

VAE优化目标是最大化证据下界 (ELBO),这是一个紧致的下界。

其中,

第一项(重构项)推动编码准确

第二项(KL正则项)推动潜在分布规整。两力需精细平衡。

VAE的方差潜在来源多:

1)重构项:取决于解码器建模能力,复杂似然(如像素独立伯努利)梯度方差可能较高。

2) KL项:对编码器参数\(\phi\)的梯度,若后验\(q_{\phi}(z|x)\)与先验\(p(z)\)偏离远,初期梯度可能大且不稳定。

这也解释了为什么VAE比较难训练,训练过程不稳定。

1.2 DDPM

DDPM目标是最小化数据分布的负对数似然的变分上界,或简化为去噪得分匹配/重加权目标。

在所有噪声级别t上,训练网络预测注入的噪声。目标函数在所有t上形式一致,输入数据不同。

DDPM则相比VAE则方差天然被抑制,说明如下

1)目标一致性,所有时间步都做类似回归任务,目标稳定。

2)噪声调度,通过精心设计的,绝大多数训练迭代过程中噪声水平中等,使任务难易适中,梯度信号明确,方差低。

2 优化目标

VAE和DDPM两者都使用了重参数化技巧,但路径性质不同。

2.1 VAE重参数化技巧

VAE采用单步跳跃,从编码器输出的分布直接采样

从对梯度方差影响的角度看,VAE方差直接受编码器输出影响:

梯度方差与相关。若编码器预测的方差不稳定或过大,会导致的采样剧烈波动,从而产生高方差梯度,尤其是在训练初期。

2.2 DDPM重参数化技巧

DDPM采用多步渐进的方式,前向过程在数百至数千个预定义时间步上逐步加噪,反向过程需要学习逆映射。训练时,时间步是均匀随机采样的重要随机变量。

从对梯度方差影响的角度看,DDPM方差被时间平均和任务分解。

随机采样将复杂的生成任务分解为许多简单的去噪子任务。

每个批次梯度是对不同期望的蒙特卡洛估计,这种时间维度上的平均有效降低了整体梯度方差。

3 梯度估计

对于VAE和DDPM的梯度估计的影响,主要是后验坍缩与得分匹配的对比。

这是体现两者训练动态差异的关键现象。

3.1 VAE中的后验坍缩

VAE有可能面临后验坍塌(Posterior Collapse)的风险。

训练中,编码器退化到先验(如标准正态),即

此时潜在变量 携带无效信息,解码器仅凭先验生成。

这会导致不稳定和方差剧变,发生后验坍缩时,KL散度项梯度趋近于0,重构项梯度因解码器接收无效信息输入而变得无意义且可能波动巨大,整体训练可能陷入局部僵局或剧烈震荡。

3.2 DDPM中的得分匹配

DDPM采用得分匹配(score matching)方式,

DDPM的训练目标 本质上是对数据分布梯度(得分)的加权匹配。

它直接建模数据在噪声扰动下的条件分布,避免了在潜在空间进行复杂的后验推断。

DDPM提供稳定监督信号,每个对应的去噪网络始终以清晰目标(真实噪声)进行监督回归。

即使对于非常嘈杂的值很大,目标依然是明确的,梯度方向稳定,方差小。

4 直观比喻

VAE像在走钢丝,需要在编码保真度(重构项)和潜在空间规整度(KL项)之间保持微妙的动态平衡。

这两股力量博弈使得训练初期梯度方向可能不一致、方差较大,容易陷入"后验坍缩"的局部最优。

DDPM像在爬一个缓坡,通过噪声调度,将艰巨的生成任务分解成数百个从非常容易几乎无噪到有点挑战中等噪声再到极其简单几乎全是噪音的渐进式去噪子任务。每个子任务的目标都非常明确单一,即预测噪声,这使得梯度方向一致,估计方差低,训练过程异常平滑稳定。DDPM在训练中,可以采用不同的噪声调度函数,如线性、余弦。

reference


DDPM前向加噪过程详细推导

https://blog.csdn.net/liliang199/article/details/156341403

DDPM后向去噪过程详细推导

https://blog.csdn.net/liliang199/article/details/156343504

VAE中Encoder和Decoder的理论基础的探索

https://blog.csdn.net/liliang199/article/details/156280212

CodeFormer基于LPIPS和VQVAE实现高质量人脸修复

https://blog.csdn.net/liliang199/article/details/156728804

相关推荐
新缸中之脑2 小时前
Paperless-NGX实战文档管理
人工智能
无极低码4 小时前
ecGlypher新手安装分步指南(标准化流程)
人工智能·算法·自然语言处理·大模型·rag
grant-ADAS4 小时前
记录paddlepaddleOCR从环境到使用默认模型,再训练自己的数据微调模型再推理
人工智能·深度学习
炎爆的土豆翔4 小时前
OpenCV 阈值二值化优化实战:LUT 并行、手写 AVX2 与 cv::threshold 性能对比
人工智能·opencv·计算机视觉
智能相对论4 小时前
从AWE看到海尔智慧家庭步步引领
人工智能
云和数据.ChenGuang4 小时前
魔搭社区 测试AI案例故障
人工智能·深度学习·机器学习·ai·mindstudio
小锋学长生活大爆炸4 小时前
【工具】无需Token!WebAI2API将网页AI转为API使用
人工智能·深度学习·chatgpt·openclaw
昨夜见军贴06165 小时前
AI审核赋能司法鉴定:IACheck如何保障刑事证据检测报告精准无误、经得起推敲?
人工智能
测试_AI_一辰5 小时前
AI系统到底怎么测?一套六层测试框架(Agent案例)
人工智能·功能测试·需求分析·ai编程
运维小欣5 小时前
智能体选型实战指南
运维·人工智能