去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)过渡分布两个标量选取的推导

解析扩散模型中的魔术标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ):推导与意义

在研究去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)时,过渡分布 ( q φ ( x t ∣ x t − 1 ) q_φ(x_t|x_{t-1}) qφ(xt∣xt−1) ) 的定义引入了两个看似"魔术"的标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )。这些参数并非随意选择,而是通过数学推导得出的,确保扩散过程最终趋向标准正态分布 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。本文将详细介绍这一设计的动机和推导过程,并探讨其在条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 中的扩展,目标读者是具备概率论和线性代数基础的深度学习研究者。


魔术标量的起源

参考:https://arxiv.org/pdf/2403.18103

问题背景

扩散模型通过逐步添加噪声,将数据 ( x 0 x_0 x0 ) 转化为纯噪声 ( x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I) xT∼N(0,I) )。过渡分布定义为高斯分布:

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xt∣xt−1)=N(xt∣αt xt−1,(1−αt)I)

这里 ( α t α_t αt ) 是时间步 ( t t t ) 相关的参数(通常 ( 0 < α t < 1 0 < α_t < 1 0<αt<1 )),而 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 分别控制均值和方差。你可能会好奇:为什么是 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )?为了解开这个谜团,我们从一般形式入手。

一般形式的假设

假设过渡分布为:

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I)

其中 ( a a a ) 和 ( b b b ) 是待定标量,目标是选择 ( a a a ) 和 ( b b b ),使得通过多次迭代后,( x t x_t xt ) 的分布在 ( t → ∞ t \to \infty t→∞ ) 时趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。


推导 ( a = α a = \sqrt{α} a=α ) 和 ( b = 1 − α b = \sqrt{1 - α} b=1−α )

重参数化形式

根据高斯分布的采样性质,( x t x_t xt ) 可以重参数化为:

x t = a x t − 1 + b ϵ t − 1 , ϵ t − 1 ∼ N ( 0 , I ) x_t = a x_{t-1} + b ϵ_{t-1}, \quad ϵ_{t-1} \sim \mathcal{N}(0, I) xt=axt−1+bϵt−1,ϵt−1∼N(0,I)

递归展开

通过迭代,逐步展开 ( x t x_t xt ):

  1. ( x t = a x t − 1 + b ϵ t − 1 x_t = a x_{t-1} + b ϵ_{t-1} xt=axt−1+bϵt−1)
  2. 代入 ( x t − 1 = a x t − 2 + b ϵ t − 2 x_{t-1} = a x_{t-2} + b ϵ_{t-2} xt−1=axt−2+bϵt−2 ):

x t = a ( a x t − 2 + b ϵ t − 2 ) + b ϵ t − 1 = a 2 x t − 2 + a b ϵ t − 2 + b ϵ t − 1 x_t = a (a x_{t-2} + b ϵ_{t-2}) + b ϵ_{t-1} = a^2 x_{t-2} + a b ϵ_{t-2} + b ϵ_{t-1} xt=a(axt−2+bϵt−2)+bϵt−1=a2xt−2+abϵt−2+bϵt−1

  1. 继续递归至初始 ( x 0 x_0 x0 ):

x t = a t x 0 + b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) x_t = a^t x_0 + b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) xt=atx0+b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)

定义噪声项总和:

w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) wt=b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)

则:

x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt

均值和协方差

  • 均值 :( E x t = E a t x 0 + w t = a t x 0 \mathbb{E}x_t = \mathbb{E}a\^t x_0 + w_t = a^t x_0 Ext=Eatx0+wt=atx0 )(因为 ( E ϵ i = 0 \mathbb{E}ϵ_i = 0 Eϵi=0 ))。
  • 协方差 :( w t w_t wt ) 是独立高斯变量之和,其协方差为:

Cov w t = E w t w t T = b 2 E ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T \text{Cov}w_t = \mathbb{E}w_t w_t\^T = b^2 \mathbb{E}\left \\sum_{k=0}\^{t-1} a\^k ϵ_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m ϵ_{t-1-m} \\right)\^T \\right Covwt=EwtwtT=b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T

由于 ( ϵ i ϵ_i ϵi ) 独立且 ( E ϵ i ϵ j T = I \mathbb{E}ϵ_i ϵ_j\^T = I EϵiϵjT=I )(当 ( i = j i = j i=j )),否则为 0:

Cov w t = b 2 ∑ k = 0 t − 1 a 2 k E ϵ t − 1 − k ϵ t − 1 − k T = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov}w_t = b^2 \sum_{k=0}^{t-1} a^{2k} \mathbb{E}ϵ_{t-1-k} ϵ_{t-1-k}\^T = b^2 \sum_{k=0}^{t-1} a^{2k} I Covwt=b2k=0∑t−1a2kEϵt−1−kϵt−1−kT=b2k=0∑t−1a2kI

这是一个几何级数:

∑ k = 0 t − 1 a 2 k = 1 − a 2 t 1 − a 2 ( a 2 ≠ 1 ) \sum_{k=0}^{t-1} a^{2k} = \frac{1 - a^{2t}}{1 - a^2} \quad (a^2 \neq 1) k=0∑t−1a2k=1−a21−a2t(a2=1)

当 ( t → ∞ t \to \infty t→∞ ) 且 ( 0 < a < 1 0 < a < 1 0<a<1 )(即 ( ∣ a 2 ∣ < 1 |a^2| < 1 ∣a2∣<1 )),( a 2 t → 0 a^{2t} \to 0 a2t→0 ):

lim ⁡ t → ∞ ∑ k = 0 t − 1 a 2 k = 1 1 − a 2 \lim_{t \to \infty} \sum_{k=0}^{t-1} a^{2k} = \frac{1}{1 - a^2} t→∞limk=0∑t−1a2k=1−a21

因此:

lim ⁡ t → ∞ Cov w t = b 2 1 − a 2 I \lim_{t \to \infty} \text{Cov}w_t = \frac{b^2}{1 - a^2} I t→∞limCovwt=1−a2b2I

满足 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的条件

要使 ( x t x_t xt ) 分布趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ):

  • 均值 ( E x t = a t x 0 → 0 \mathbb{E}x_t = a^t x_0 \to 0 Ext=atx0→0 ) 要求 ( a t → 0 a^t \to 0 at→0 ),故 ( ∣ a ∣ < 1 |a| < 1 ∣a∣<1 )。
  • 协方差 ( lim ⁡ t → ∞ Cov x t = b 2 1 − a 2 I = I \lim_{t \to \infty} \text{Cov}x_t = \frac{b^2}{1 - a^2} I = I limt→∞Covxt=1−a2b2I=I ) 要求:

b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1−a2b2=1

b 2 = 1 − a 2 b^2 = 1 - a^2 b2=1−a2

b = 1 − a 2 ( b > 0 ) b = \sqrt{1 - a^2} \quad (b > 0) b=1−a2 (b>0)

设 ( a = α a = \sqrt{α} a=α )(( 0 < α < 1 0 < α < 1 0<α<1 )),则:

b = 1 − α b = \sqrt{1 - α} b=1−α

过渡分布

代入 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I) ):

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α x t − 1 , ( 1 − α ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α} x_{t-1}, (1 - α) I) qφ(xt∣xt−1)=N(xt∣α xt−1,(1−α)I)

扩展到时间步 ( α t α_t αt ):

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xt∣xt−1)=N(xt∣αt xt−1,(1−αt)I)

这证实了 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 的选择。


条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 的推导

递归扩展

从 ( x t = α t x t − 1 + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} x_{t-1} + \sqrt{1 - α_t} ϵ_{t-1} xt=αt xt−1+1−αt ϵt−1 ) 开始:

  1. ( x t = α t ( α t − 1 x t − 2 + 1 − α t − 1 ϵ t − 2 ) + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} (\sqrt{α_{t-1}} x_{t-2} + \sqrt{1 - α_{t-1}} ϵ_{t-2}) + \sqrt{1 - α_t} ϵ_{t-1} xt=αt (αt−1 xt−2+1−αt−1 ϵt−2)+1−αt ϵt−1 )
  2. 化简:

= α t α t − 1 x t − 2 + α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 = \sqrt{α_t α_{t-1}} x_{t-2} + \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} =αtαt−1 xt−2+αt(1−αt−1) ϵt−2+1−αt ϵt−1

定义噪声项 ( w 1 = α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 w_1 = \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} w1=αt(1−αt−1) ϵt−2+1−αt ϵt−1 ),其协方差:

Cov w 1 = E w 1 w 1 T = α t ( 1 − α t − 1 ) + ( 1 − α t ) I = 1 − α t α t − 1 I \text{Cov}w_1 = \mathbb{E}w_1 w_1\^T = \\alpha_t (1 - α_{t-1}) + (1 - α_t) I = 1 - α_t α_{t-1} I Covw1=Ew1w1T=αt(1−αt−1)+(1−αt)I=1−αtαt−1I

  1. 继续递归至 ( x 0 x_0 x0 ):

x t = ∏ i = 1 t α i x 0 + 1 − ∏ i = 1 t α i ϵ 0 x_t = \sqrt{\prod_{i=1}^t α_i} x_0 + \sqrt{1 - \prod_{i=1}^t α_i} ϵ_0 xt=i=1∏tαi x0+1−i=1∏tαi ϵ0

设 ( α t = ∏ i = 1 t α i α_t = \prod_{i=1}^t α_i αt=∏i=1tαi ):

x t = α t x 0 + 1 − α t ϵ 0 x_t = \sqrt{α_t} x_0 + \sqrt{1 - α_t} ϵ_0 xt=αt x0+1−αt ϵ0

分布形式

( x t x_t xt ) 是高斯变量,均值为 ( α t x 0 \sqrt{α_t} x_0 αt x0 ),噪声项协方差为 ( ( 1 − α t ) I (1 - α_t) I (1−αt)I ),故:

q φ ( x t ∣ x 0 ) = N ( x t ∣ α t x 0 , ( 1 − α t ) I ) q_φ(x_t|x_0) = \mathcal{N}(x_t | \sqrt{α_t} x_0, (1 - α_t) I) qφ(xt∣x0)=N(xt∣αt x0,(1−αt)I)


意义与应用

  • 扩散过程 :( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 确保多步迭代后 ( x t → N ( 0 , I ) x_t \to \mathcal{N}(0, I) xt→N(0,I) )。
  • 条件生成 :( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 描述了从初始数据 ( x 0 x_0 x0 ) 到噪声 ( x t x_t xt ) 的演化,有助于反向去噪。

总结

通过递归推导,( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 被证明是唯一满足扩散过程趋向 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的标量。扩展到 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0)) 展示了条件分布的结构,这一设计是 DDPM 成功的关键。

希望这篇博客加深了你的理解!

解析 ( w t w_t wt ) 协方差推导至 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1a2kI ) 的过程

在去噪扩散模型(Denoising Diffusion Probabilistic Models, DDPM)的数学推导中,过渡分布 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I) ) 的递归性质需要通过协方差分析来验证其长期行为。推导中,噪声项 ( w t w_t wt ) 的协方差从 ( E w t w t T \mathbb{E}w_t w_t\^T EwtwtT) 逐步简化为 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1a2kI ),这一步骤涉及高斯变量的性质和期望的线性性质。以下是详细的推导过程,面向具备概率论和线性代数基础的深度学习研究者。


背景回顾

根据上文的推导,定义:

x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt

其中 ( w t w_t wt) 是累积噪声项:

w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (\epsilon_{t-1} + a \epsilon_{t-2} + a^2 \epsilon_{t-3} + \cdots + a^{t-1} \epsilon_0) wt=b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)

目标是计算 ( w t w_t wt ) 的协方差矩阵 ( Cov w t = E w t w t T \text{Cov}w_t = \mathbb{E}w_t w_t\^T Covwt=EwtwtT ),并验证其在 ( t → ∞ t \to \infty t→∞ ) 时的极限行为。


协方差的初始表达式

协方差定义为零均值向量 ( w t w_t wt ) 的二阶矩:

Cov w t = E w t w t T \text{Cov}w_t = \mathbb{E}w_t w_t\^T Covwt=EwtwtT

将 ( w t w_t wt ) 代入:

w t = b ∑ k = 0 t − 1 a k ϵ t − 1 − k w_t = b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} wt=bk=0∑t−1akϵt−1−k

则:

w t w t T = ( b ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( b ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T w_t w_t^T = \left( b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T wtwtT=(bk=0∑t−1akϵt−1−k)(bm=0∑t−1amϵt−1−m)T

取期望:

E w t w t T = E b ∑ k = 0 t − 1 a k ϵ t − 1 − k ⋅ b ∑ m = 0 t − 1 a m ϵ t − 1 − m T \mathbb{E}w_t w_t\^T = \mathbb{E}\left b \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\cdot b \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m}\^T \\right EwtwtT=Ebk=0∑t−1akϵt−1−k⋅bm=0∑t−1amϵt−1−mT

因为 ( b b b ) 是标量,提到期望外:

= b 2 E ( ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T = b^2 \mathbb{E}\left \\left( \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\right) \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right =b2E (k=0∑t−1akϵt−1−k)(m=0∑t−1amϵt−1−m)T

这正是推导中给出的初始形式:

Cov w t = b 2 E ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T \text{Cov}w_t = b^2 \mathbb{E}\left \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right Covwt=b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T


逐步化简

1. 期望的线性性

期望是线性和操作,因此可以交换和期望:

E ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T \mathbb{E}\left \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T

这表示对所有可能的 ( k k k ) 和 ( m m m ) 组合进行求和。然而,由于 ( ϵ i \epsilon_i ϵi ) 是随机向量,其期望依赖于索引是否匹配。

2. 展开双重和

将双重和展开为:

∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E ϵ t − 1 − k ϵ t − 1 − m T \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left \\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right k=0∑t−1m=0∑t−1akamEϵt−1−kϵt−1−mT

  • 噪声的独立性 :( ϵ i ∼ N ( 0 , I ) \epsilon_i \sim \mathcal{N}(0, I) ϵi∼N(0,I) ) 是独立的高斯噪声向量,满足:
    • ( E ϵ i ϵ j T = I \mathbb{E}\\epsilon_i \\epsilon_j\^T = I EϵiϵjT=I ) 当 ( i = j i = j i=j )(因为 ( ϵ i T ϵ i = ∑ d = 1 D ϵ i , d 2 \epsilon_i^T \epsilon_i = \sum_{d=1}^D \epsilon_{i,d}^2 ϵiTϵi=∑d=1Dϵi,d2 ),期望为迹 ( Tr ( I ) = D \text{Tr}(I) = D Tr(I)=D ))。
    • ( E ϵ i ϵ j T = 0 \mathbb{E}\\epsilon_i \\epsilon_j\^T = 0 EϵiϵjT=0 ) 当 ( i ≠ j i \neq j i=j )(因为独立性,交叉项期望为零矩阵)。

因此,( E ϵ t − 1 − k ϵ t − 1 − m T \mathbb{E}\left \\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right Eϵt−1−kϵt−1−mT ) 只在 ( k = m k = m k=m ) 时非零:

E ϵ t − 1 − k ϵ t − 1 − m T = { I if k = m 0 if k ≠ m \mathbb{E}\left \\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right = \begin{cases} I & \text{if } k = m \\ 0 & \text{if } k \neq m \end{cases} Eϵt−1−kϵt−1−mT={I0if k=mif k=m

3. 化简双重和为单重和

由于 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt−1−k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt−1−m ) 的期望只在 ( k = m k = m k=m ) 贡献项,展开的和可以简化为对角项之和:

∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E ϵ t − 1 − k ϵ t − 1 − m T = ∑ k = 0 t − 1 a k a k E ϵ t − 1 − k ϵ t − 1 − k T \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left \\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right = \sum_{k=0}^{t-1} a^k a^k \mathbb{E}\left \\epsilon_{t-1-k} \\epsilon_{t-1-k}\^T \\right k=0∑t−1m=0∑t−1akamEϵt−1−kϵt−1−mT=k=0∑t−1akakEϵt−1−kϵt−1−kT

因为 ( k = m k = m k=m ),项变为 ( a k a m = a 2 k a^k a^m = a^{2k} akam=a2k ),且:

E ϵ t − 1 − k ϵ t − 1 − k T = I \mathbb{E}\left \\epsilon_{t-1-k} \\epsilon_{t-1-k}\^T \\right = I Eϵt−1−kϵt−1−kT=I

因此:

= ∑ k = 0 t − 1 a 2 k I = \sum_{k=0}^{t-1} a^{2k} I =k=0∑t−1a2kI

4. 乘以 ( b 2 b^2 b2 )

回到协方差定义:

Cov w t = b 2 E ∑ k = 0 t − 1 a k ϵ t − 1 − k ( ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T \text{Cov}w_t = b^2 \mathbb{E}\left \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right Covwt=b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T

代入简化的结果:

= b 2 ∑ k = 0 t − 1 a 2 k I = b^2 \sum_{k=0}^{t-1} a^{2k} I =b2k=0∑t−1a2kI


详细解释

为什么只保留对角项?

  • ( ϵ i \epsilon_i ϵi ) 的独立性是关键。双重和 ( ∑ k ∑ m \sum_{k} \sum_{m} ∑k∑m ) 中,只有 ( k = m k = m k=m ) 时的项有非零贡献,因为 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt−1−k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt−1−m ) 只有在同一时间步才相关。
  • 其他 ( k ≠ m k \neq m k=m ) 的交叉项期望为零矩阵,消除了非对角贡献。

几何级数的意义

  • ( ∑ k = 0 t − 1 a 2 k \sum_{k=0}^{t-1} a^{2k} ∑k=0t−1a2k ) 是几何级数,表示噪声在每次迭代中按 ( a 2 a^2 a2 ) 衰减的累积效应。
  • ( I I I ) 保留了各维度的独立性,反映了协方差矩阵的对角结构。

验证与后续步骤

  • 这一结果与推导一致,后续用几何级数求和 ( 1 − a 2 t 1 − a 2 \frac{1 - a^{2t}}{1 - a^2} 1−a21−a2t ) 并取极限 ( t → ∞ t \to \infty t→∞ )(当 ( ∣ a ∣ < 1 |a| < 1 ∣a∣<1 ) 时),得到 ( b 2 1 − a 2 I \frac{b^2}{1 - a^2} I 1−a2b2I )。
  • 条件 ( b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1−a2b2=1 ) 导出 ( b = 1 − a 2 b = \sqrt{1 - a^2} b=1−a2 )。

总结

协方差 ( Cov w t = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov}w_t = b^2 \sum_{k=0}^{t-1} a^{2k} I Covwt=b2∑k=0t−1a2kI ) 的推导依赖于 ( ϵ i \epsilon_i ϵi ) 的独立性和期望的线性性。通过将双重和简化为对角项之和,消除了无关的交叉项,最终得到噪声累积的几何级数形式。这一步骤是理解扩散模型收敛机制的关键。

希望这篇详细推导解答了你的疑问!

后记

2025年3月4日15点20分于上海,在grok 3大模型辅助下完成。

相关推荐
MartinYeung5几秒前
[论文学习]LLM 情境学习资料的快速精确遗忘技术:基于 In-Context Learning 与量化 K-Means 的 ERASE 方法
学习·算法·kmeans
江畔柳前堤3 分钟前
github实战指南00-命令在哪里执行?
人工智能·线性代数·oracle·数据挖掘·github·word
不爱土豆唯爱马铃薯8 分钟前
MC-032 | Git机器人monkeycode-ai自动Review和实现需求
人工智能
DXM052110 分钟前
第11期| 遥感图像分类模型:ResNet_DenseNet原理+实战训练
人工智能·python·深度学习·机器学习·分类·数据挖掘·ageo
小鹿研究点东西11 分钟前
AI直播系统怎么搭?
人工智能·ffmpeg·自动化·音视频·语音识别
袖手蹲12 分钟前
K10 百炼 AI 语音助手从网络配置到全链路语音交互的嵌入式实战
网络·人工智能·交互
SilentSamsara14 分钟前
模型部署实战:FastAPI + ONNX + Docker 的推理服务化
人工智能·pytorch·python·深度学习·机器学习·fastapi
林森lsjs15 分钟前
【日耕一题】5. 青春常数(17届蓝桥杯C++B组第一题)
算法·蓝桥杯
AI小百科16 分钟前
成为FDE的系统学习路径(2026版)
人工智能·学习·ai应用