VAE和DDPM模型训练差异的探索

VAE和DDPM训练上的差异,源于它们在概率框架、优化目标和梯度估计方法上的根本不同。

这里尝试从以下3个层面探索VAE和DDPM的差异。

1 概率框架

VAE和DDPM的不同主要来源于概率框架的不同,相应地带来优化目标与梯度估计的差异。

VAE源自变分自编码器,DDPM则源子去噪扩散概率模型,这是两者的根本差异。

两者的目标都涉及对随机变量的期望,但形式和稳定性截然不同。

1.1 VAE

VAE优化目标是最大化证据下界 (ELBO),这是一个紧致的下界。

其中,

第一项(重构项)推动编码准确

第二项(KL正则项)推动潜在分布规整。两力需精细平衡。

VAE的方差潜在来源多:

1)重构项:取决于解码器建模能力,复杂似然(如像素独立伯努利)梯度方差可能较高。

2) KL项:对编码器参数\(\phi\)的梯度,若后验\(q_{\phi}(z|x)\)与先验\(p(z)\)偏离远,初期梯度可能大且不稳定。

这也解释了为什么VAE比较难训练,训练过程不稳定。

1.2 DDPM

DDPM目标是最小化数据分布的负对数似然的变分上界,或简化为去噪得分匹配/重加权目标。

在所有噪声级别t上,训练网络预测注入的噪声。目标函数在所有t上形式一致,输入数据不同。

DDPM则相比VAE则方差天然被抑制,说明如下

1)目标一致性,所有时间步都做类似回归任务,目标稳定。

2)噪声调度,通过精心设计的,绝大多数训练迭代过程中噪声水平中等,使任务难易适中,梯度信号明确,方差低。

2 优化目标

VAE和DDPM两者都使用了重参数化技巧,但路径性质不同。

2.1 VAE重参数化技巧

VAE采用单步跳跃,从编码器输出的分布直接采样

从对梯度方差影响的角度看,VAE方差直接受编码器输出影响:

梯度方差与相关。若编码器预测的方差不稳定或过大,会导致的采样剧烈波动,从而产生高方差梯度,尤其是在训练初期。

2.2 DDPM重参数化技巧

DDPM采用多步渐进的方式,前向过程在数百至数千个预定义时间步上逐步加噪,反向过程需要学习逆映射。训练时,时间步是均匀随机采样的重要随机变量。

从对梯度方差影响的角度看,DDPM方差被时间平均和任务分解。

随机采样将复杂的生成任务分解为许多简单的去噪子任务。

每个批次梯度是对不同期望的蒙特卡洛估计,这种时间维度上的平均有效降低了整体梯度方差。

3 梯度估计

对于VAE和DDPM的梯度估计的影响,主要是后验坍缩与得分匹配的对比。

这是体现两者训练动态差异的关键现象。

3.1 VAE中的后验坍缩

VAE有可能面临后验坍塌(Posterior Collapse)的风险。

训练中,编码器退化到先验(如标准正态),即

此时潜在变量 携带无效信息,解码器仅凭先验生成。

这会导致不稳定和方差剧变,发生后验坍缩时,KL散度项梯度趋近于0,重构项梯度因解码器接收无效信息输入而变得无意义且可能波动巨大,整体训练可能陷入局部僵局或剧烈震荡。

3.2 DDPM中的得分匹配

DDPM采用得分匹配(score matching)方式,

DDPM的训练目标 本质上是对数据分布梯度(得分)的加权匹配。

它直接建模数据在噪声扰动下的条件分布,避免了在潜在空间进行复杂的后验推断。

DDPM提供稳定监督信号,每个对应的去噪网络始终以清晰目标(真实噪声)进行监督回归。

即使对于非常嘈杂的值很大,目标依然是明确的,梯度方向稳定,方差小。

4 直观比喻

VAE像在走钢丝,需要在编码保真度(重构项)和潜在空间规整度(KL项)之间保持微妙的动态平衡。

这两股力量博弈使得训练初期梯度方向可能不一致、方差较大,容易陷入"后验坍缩"的局部最优。

DDPM像在爬一个缓坡,通过噪声调度,将艰巨的生成任务分解成数百个从非常容易几乎无噪到有点挑战中等噪声再到极其简单几乎全是噪音的渐进式去噪子任务。每个子任务的目标都非常明确单一,即预测噪声,这使得梯度方向一致,估计方差低,训练过程异常平滑稳定。DDPM在训练中,可以采用不同的噪声调度函数,如线性、余弦。

reference


DDPM前向加噪过程详细推导

https://blog.csdn.net/liliang199/article/details/156341403

DDPM后向去噪过程详细推导

https://blog.csdn.net/liliang199/article/details/156343504

VAE中Encoder和Decoder的理论基础的探索

https://blog.csdn.net/liliang199/article/details/156280212

CodeFormer基于LPIPS和VQVAE实现高质量人脸修复

https://blog.csdn.net/liliang199/article/details/156728804

相关推荐
PersistJiao6 小时前
Codex、Claude Code、gstack三者的关系
人工智能
一切皆是因缘际会6 小时前
AI数字分身的底层原理:破解意识、自我与人格复刻的核心难题
大数据·人工智能·ai·架构
翔云1234566 小时前
vLLM全解析:定义、用途与竞品对比
人工智能·ai·大模型
ASKED_20196 小时前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc6 小时前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文7 小时前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛139246256737 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎7 小时前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF7 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学7 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学