去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）过渡分布两个标量选取的推导

解析扩散模型中的魔术标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )：推导与意义

在研究去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）时，过渡分布 ( q φ ( x t ∣ x t − 1 ) q_φ(x_t|x_{t-1}) qφ(xt∣xt−1) ) 的定义引入了两个看似"魔术"的标量 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )。这些参数并非随意选择，而是通过数学推导得出的，确保扩散过程最终趋向标准正态分布 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。本文将详细介绍这一设计的动机和推导过程，并探讨其在条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 中的扩展，目标读者是具备概率论和线性代数基础的深度学习研究者。

魔术标量的起源

参考：https://arxiv.org/pdf/2403.18103

问题背景

扩散模型通过逐步添加噪声，将数据 ( x 0 x_0 x0 ) 转化为纯噪声 ( x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I) xT∼N(0,I) )。过渡分布定义为高斯分布：

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xt∣xt−1)=N(xt∣αt xt−1,(1−αt)I)

这里 ( α t α_t αt ) 是时间步 ( t t t ) 相关的参数（通常 ( 0 < α t < 1 0 < α_t < 1 0<αt<1 )），而 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 分别控制均值和方差。你可能会好奇：为什么是 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt )？为了解开这个谜团，我们从一般形式入手。

一般形式的假设

假设过渡分布为：

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I)

其中 ( a a a ) 和 ( b b b ) 是待定标量，目标是选择 ( a a a ) 和 ( b b b )，使得通过多次迭代后，( x t x_t xt ) 的分布在 ( t → ∞ t \to \infty t→∞ ) 时趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )。

推导 ( a = α a = \sqrt{α} a=α ) 和 ( b = 1 − α b = \sqrt{1 - α} b=1−α )

重参数化形式

根据高斯分布的采样性质，( x t x_t xt ) 可以重参数化为：

x t = a x t − 1 + b ϵ t − 1 , ϵ t − 1 ∼ N ( 0 , I ) x_t = a x_{t-1} + b ϵ_{t-1}, \quad ϵ_{t-1} \sim \mathcal{N}(0, I) xt=axt−1+bϵt−1,ϵt−1∼N(0,I)

递归展开

通过迭代，逐步展开 ( x t x_t xt )：

( x t = a x t − 1 + b ϵ t − 1 x_t = a x_{t-1} + b ϵ_{t-1} xt=axt−1+bϵt−1)
代入 ( x t − 1 = a x t − 2 + b ϵ t − 2 x_{t-1} = a x_{t-2} + b ϵ_{t-2} xt−1=axt−2+bϵt−2 )：

x t = a ( a x t − 2 + b ϵ t − 2 ) + b ϵ t − 1 = a 2 x t − 2 + a b ϵ t − 2 + b ϵ t − 1 x_t = a (a x_{t-2} + b ϵ_{t-2}) + b ϵ_{t-1} = a^2 x_{t-2} + a b ϵ_{t-2} + b ϵ_{t-1} xt=a(axt−2+bϵt−2)+bϵt−1=a2xt−2+abϵt−2+bϵt−1

继续递归至初始 ( x 0 x_0 x0 )：

x t = a t x 0 + b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) x_t = a^t x_0 + b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) xt=atx0+b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)

定义噪声项总和：

w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (ϵ_{t-1} + a ϵ_{t-2} + a^2 ϵ_{t-3} + \cdots + a^{t-1} ϵ_0) wt=b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)

则：

x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt

均值和协方差

均值：( E $x t$ = E $a t x 0 + w t$ = a t x 0 \mathbb{E} $x_t$ = \mathbb{E} $a\^t x_0 + w_t$ = a^t x_0 E $xt$ =E $atx0+wt$ =atx0 )（因为 ( E $ϵ i$ = 0 \mathbb{E} $ϵ_i$ = 0 E $ϵi$ =0 )）。
协方差 ：( w t w_t wt ) 是独立高斯变量之和，其协方差为：

Cov $w t$ = E $w t w t T$ = b 2 E $\sum k = 0 t - 1 a k ϵ t - 1 - k ( \sum m = 0 t - 1 a m ϵ t - 1 - m ) T$ \text{Cov} $w_t$ = \mathbb{E} $w_t w_t\^T$ = b^2 \mathbb{E}\left $\\sum_{k=0}\^{t-1} a\^k ϵ_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m ϵ_{t-1-m} \\right)\^T \\right$ Cov $wt$ =E $wtwtT$ =b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T

由于 ( ϵ i ϵ_i ϵi ) 独立且 ( E $ϵ i ϵ j T$ = I \mathbb{E} $ϵ_i ϵ_j\^T$ = I E $ϵiϵjT$ =I )（当 ( i = j i = j i=j )），否则为 0：

Cov $w t$ = b 2 ∑ k = 0 t − 1 a 2 k E $ϵ t - 1 - k ϵ t - 1 - k T$ = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov} $w_t$ = b^2 \sum_{k=0}^{t-1} a^{2k} \mathbb{E} $ϵ_{t-1-k} ϵ_{t-1-k}\^T$ = b^2 \sum_{k=0}^{t-1} a^{2k} I Cov $wt$ =b2k=0∑t−1a2kE $ϵt-1-kϵt-1-kT$ =b2k=0∑t−1a2kI

这是一个几何级数：

∑ k = 0 t − 1 a 2 k = 1 − a 2 t 1 − a 2 ( a 2 ≠ 1 ) \sum_{k=0}^{t-1} a^{2k} = \frac{1 - a^{2t}}{1 - a^2} \quad (a^2 \neq 1) k=0∑t−1a2k=1−a21−a2t(a2=1)

当 ( t → ∞ t \to \infty t→∞ ) 且 ( 0 < a < 1 0 < a < 1 0<a<1 )（即 ( ∣ a 2 ∣ < 1 |a^2| < 1 ∣a2∣<1 )），( a 2 t → 0 a^{2t} \to 0 a2t→0 )：

lim ⁡ t → ∞ ∑ k = 0 t − 1 a 2 k = 1 1 − a 2 \lim_{t \to \infty} \sum_{k=0}^{t-1} a^{2k} = \frac{1}{1 - a^2} t→∞limk=0∑t−1a2k=1−a21

因此：

lim ⁡ t → ∞ Cov $w t$ = b 2 1 − a 2 I \lim_{t \to \infty} \text{Cov} $w_t$ = \frac{b^2}{1 - a^2} I t→∞limCov $wt$ =1−a2b2I

满足 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的条件

要使 ( x t x_t xt ) 分布趋近 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) )：

均值 ( E $x t$ = a t x 0 → 0 \mathbb{E} $x_t$ = a^t x_0 \to 0 E $xt$ =atx0→0 ) 要求 ( a t → 0 a^t \to 0 at→0 )，故 ( ∣ a ∣ < 1 |a| < 1 ∣a∣<1 )。
协方差 ( lim ⁡ t → ∞ Cov $x t$ = b 2 1 − a 2 I = I \lim_{t \to \infty} \text{Cov} $x_t$ = \frac{b^2}{1 - a^2} I = I limt→∞Cov $xt$ =1−a2b2I=I ) 要求：

b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1−a2b2=1

b 2 = 1 − a 2 b^2 = 1 - a^2 b2=1−a2

b = 1 − a 2 ( b > 0 ) b = \sqrt{1 - a^2} \quad (b > 0) b=1−a2 (b>0)

设 ( a = α a = \sqrt{α} a=α )（( 0 < α < 1 0 < α < 1 0<α<1 )），则：

b = 1 − α b = \sqrt{1 - α} b=1−α

过渡分布

代入 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I) )：

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α x t − 1 , ( 1 − α ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α} x_{t-1}, (1 - α) I) qφ(xt∣xt−1)=N(xt∣α xt−1,(1−α)I)

扩展到时间步 ( α t α_t αt )：

q φ ( x t ∣ x t − 1 ) = N ( x t ∣ α t x t − 1 , ( 1 − α t ) I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | \sqrt{α_t} x_{t-1}, (1 - α_t) I) qφ(xt∣xt−1)=N(xt∣αt xt−1,(1−αt)I)

这证实了 ( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 的选择。

条件分布 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 的推导

递归扩展

从 ( x t = α t x t − 1 + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} x_{t-1} + \sqrt{1 - α_t} ϵ_{t-1} xt=αt xt−1+1−αt ϵt−1 ) 开始：

( x t = α t ( α t − 1 x t − 2 + 1 − α t − 1 ϵ t − 2 ) + 1 − α t ϵ t − 1 x_t = \sqrt{α_t} (\sqrt{α_{t-1}} x_{t-2} + \sqrt{1 - α_{t-1}} ϵ_{t-2}) + \sqrt{1 - α_t} ϵ_{t-1} xt=αt (αt−1 xt−2+1−αt−1 ϵt−2)+1−αt ϵt−1 )
化简：

= α t α t − 1 x t − 2 + α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 = \sqrt{α_t α_{t-1}} x_{t-2} + \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} =αtαt−1 xt−2+αt(1−αt−1) ϵt−2+1−αt ϵt−1

定义噪声项 ( w 1 = α t ( 1 − α t − 1 ) ϵ t − 2 + 1 − α t ϵ t − 1 w_1 = \sqrt{α_t (1 - α_{t-1})} ϵ_{t-2} + \sqrt{1 - α_t} ϵ_{t-1} w1=αt(1−αt−1) ϵt−2+1−αt ϵt−1 )，其协方差：

Cov $w 1$ = E $w 1 w 1 T$ = $α t ( 1 - α t - 1 ) + ( 1 - α t )$ I = $1 - α t α t - 1$ I \text{Cov} $w_1$ = \mathbb{E} $w_1 w_1\^T$ = $\\alpha_t (1 - α_{t-1}) + (1 - α_t)$ I = $1 - α_t α_{t-1}$ I Cov $w1$ =E $w1w1T$ = $αt(1-αt-1)+(1-αt)$ I= $1-αtαt-1$ I

继续递归至 ( x 0 x_0 x0 )：

x t = ∏ i = 1 t α i x 0 + 1 − ∏ i = 1 t α i ϵ 0 x_t = \sqrt{\prod_{i=1}^t α_i} x_0 + \sqrt{1 - \prod_{i=1}^t α_i} ϵ_0 xt=i=1∏tαi x0+1−i=1∏tαi ϵ0

设 ( α t = ∏ i = 1 t α i α_t = \prod_{i=1}^t α_i αt=∏i=1tαi )：

x t = α t x 0 + 1 − α t ϵ 0 x_t = \sqrt{α_t} x_0 + \sqrt{1 - α_t} ϵ_0 xt=αt x0+1−αt ϵ0

分布形式

( x t x_t xt ) 是高斯变量，均值为 ( α t x 0 \sqrt{α_t} x_0 αt x0 )，噪声项协方差为 ( ( 1 − α t ) I (1 - α_t) I (1−αt)I )，故：

q φ ( x t ∣ x 0 ) = N ( x t ∣ α t x 0 , ( 1 − α t ) I ) q_φ(x_t|x_0) = \mathcal{N}(x_t | \sqrt{α_t} x_0, (1 - α_t) I) qφ(xt∣x0)=N(xt∣αt x0,(1−αt)I)

意义与应用

扩散过程 ：( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 确保多步迭代后 ( x t → N ( 0 , I ) x_t \to \mathcal{N}(0, I) xt→N(0,I) )。
条件生成 ：( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0) ) 描述了从初始数据 ( x 0 x_0 x0 ) 到噪声 ( x t x_t xt ) 的演化，有助于反向去噪。

总结

通过递归推导，( α t \sqrt{α_t} αt ) 和 ( 1 − α t 1 - α_t 1−αt ) 被证明是唯一满足扩散过程趋向 ( N ( 0 , I ) \mathcal{N}(0, I) N(0,I) ) 的标量。扩展到 ( q φ ( x t ∣ x 0 ) q_φ(x_t|x_0) qφ(xt∣x0)) 展示了条件分布的结构，这一设计是 DDPM 成功的关键。

希望这篇博客加深了你的理解！

解析 ( w t w_t wt ) 协方差推导至 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1a2kI ) 的过程

在去噪扩散模型（Denoising Diffusion Probabilistic Models, DDPM）的数学推导中，过渡分布 ( q φ ( x t ∣ x t − 1 ) = N ( x t ∣ a x t − 1 , b 2 I ) q_φ(x_t|x_{t-1}) = \mathcal{N}(x_t | a x_{t-1}, b^2 I) qφ(xt∣xt−1)=N(xt∣axt−1,b2I) ) 的递归性质需要通过协方差分析来验证其长期行为。推导中，噪声项 ( w t w_t wt ) 的协方差从 ( E $w t w t T$ \mathbb{E} $w_t w_t\^T$ E $wtwtT$ ) 逐步简化为 ( b 2 ∑ k = 0 t − 1 a 2 k I b^2 \sum_{k=0}^{t-1} a^{2k} I b2∑k=0t−1a2kI )，这一步骤涉及高斯变量的性质和期望的线性性质。以下是详细的推导过程，面向具备概率论和线性代数基础的深度学习研究者。

背景回顾

根据上文的推导，定义：

x t = a t x 0 + w t x_t = a^t x_0 + w_t xt=atx0+wt

其中 ( w t w_t wt) 是累积噪声项：

w t = b ( ϵ t − 1 + a ϵ t − 2 + a 2 ϵ t − 3 + ⋯ + a t − 1 ϵ 0 ) w_t = b (\epsilon_{t-1} + a \epsilon_{t-2} + a^2 \epsilon_{t-3} + \cdots + a^{t-1} \epsilon_0) wt=b(ϵt−1+aϵt−2+a2ϵt−3+⋯+at−1ϵ0)

目标是计算 ( w t w_t wt ) 的协方差矩阵 ( Cov $w t$ = E $w t w t T$ \text{Cov} $w_t$ = \mathbb{E} $w_t w_t\^T$ Cov $wt$ =E $wtwtT$ )，并验证其在 ( t → ∞ t \to \infty t→∞ ) 时的极限行为。

协方差的初始表达式

协方差定义为零均值向量 ( w t w_t wt ) 的二阶矩：

Cov $w t$ = E $w t w t T$ \text{Cov} $w_t$ = \mathbb{E} $w_t w_t\^T$ Cov $wt$ =E $wtwtT$

将 ( w t w_t wt ) 代入：

w t = b ∑ k = 0 t − 1 a k ϵ t − 1 − k w_t = b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} wt=bk=0∑t−1akϵt−1−k

则：

w t w t T = ( b ∑ k = 0 t − 1 a k ϵ t − 1 − k ) ( b ∑ m = 0 t − 1 a m ϵ t − 1 − m ) T w_t w_t^T = \left( b \sum_{k=0}^{t-1} a^k \epsilon_{t-1-k} \right) \left( b \sum_{m=0}^{t-1} a^m \epsilon_{t-1-m} \right)^T wtwtT=(bk=0∑t−1akϵt−1−k)(bm=0∑t−1amϵt−1−m)T

取期望：

E $w t w t T$ = E $b \sum k = 0 t - 1 a k ϵ t - 1 - k \cdot b \sum m = 0 t - 1 a m ϵ t - 1 - m T$ \mathbb{E} $w_t w_t\^T$ = \mathbb{E}\left $b \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\cdot b \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m}\^T \\right$ E $wtwtT$ =E $bk=0\sumt-1akϵt-1-k\cdotbm=0\sumt-1amϵt-1-mT$

因为 ( b b b ) 是标量，提到期望外：

= b 2 E $( \sum k = 0 t - 1 a k ϵ t - 1 - k ) ( \sum m = 0 t - 1 a m ϵ t - 1 - m ) T$ = b^2 \mathbb{E}\left $\\left( \\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\right) \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right$ =b2E (k=0∑t−1akϵt−1−k)(m=0∑t−1amϵt−1−m)T

这正是推导中给出的初始形式：

Cov $w t$ = b 2 E $\sum k = 0 t - 1 a k ϵ t - 1 - k ( \sum m = 0 t - 1 a m ϵ t - 1 - m ) T$ \text{Cov} $w_t$ = b^2 \mathbb{E}\left $\\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right$ Cov $wt$ =b2E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T

逐步化简

1. 期望的线性性

期望是线性和操作，因此可以交换和期望：

E $\sum k = 0 t - 1 a k ϵ t - 1 - k ( \sum m = 0 t - 1 a m ϵ t - 1 - m ) T$ \mathbb{E}\left $\\sum_{k=0}\^{t-1} a\^k \\epsilon_{t-1-k} \\left( \\sum_{m=0}\^{t-1} a\^m \\epsilon_{t-1-m} \\right)\^T \\right$ E k=0∑t−1akϵt−1−k(m=0∑t−1amϵt−1−m)T

这表示对所有可能的 ( k k k ) 和 ( m m m ) 组合进行求和。然而，由于 ( ϵ i \epsilon_i ϵi ) 是随机向量，其期望依赖于索引是否匹配。

2. 展开双重和

将双重和展开为：

∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E $ϵ t - 1 - k ϵ t - 1 - m T$ \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left $\\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right$ k=0∑t−1m=0∑t−1akamE $ϵt-1-kϵt-1-mT$

噪声的独立性 ：( ϵ i ∼ N ( 0 , I ) \epsilon_i \sim \mathcal{N}(0, I) ϵi∼N(0,I) ) 是独立的高斯噪声向量，满足：
- ( E $ϵ i ϵ j T$ = I \mathbb{E} $\\epsilon_i \\epsilon_j\^T$ = I E $ϵiϵjT$ =I ) 当 ( i = j i = j i=j )（因为 ( ϵ i T ϵ i = ∑ d = 1 D ϵ i , d 2 \epsilon_i^T \epsilon_i = \sum_{d=1}^D \epsilon_{i,d}^2 ϵiTϵi=∑d=1Dϵi,d2 )，期望为迹 ( Tr ( I ) = D \text{Tr}(I) = D Tr(I)=D )）。
- ( E $ϵ i ϵ j T$ = 0 \mathbb{E} $\\epsilon_i \\epsilon_j\^T$ = 0 E $ϵiϵjT$ =0 ) 当 ( i ≠ j i \neq j i=j )（因为独立性，交叉项期望为零矩阵）。

因此，( E $ϵ t - 1 - k ϵ t - 1 - m T$ \mathbb{E}\left $\\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right$ E $ϵt-1-kϵt-1-mT$ ) 只在 ( k = m k = m k=m ) 时非零：

E $ϵ t - 1 - k ϵ t - 1 - m T$ = { I if k = m 0 if k ≠ m \mathbb{E}\left $\\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right$ = \begin{cases} I & \text{if } k = m \\ 0 & \text{if } k \neq m \end{cases} E $ϵt-1-kϵt-1-mT$ ={I0if k=mif k=m

3. 化简双重和为单重和

由于 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt−1−k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt−1−m ) 的期望只在 ( k = m k = m k=m ) 贡献项，展开的和可以简化为对角项之和：

∑ k = 0 t − 1 ∑ m = 0 t − 1 a k a m E $ϵ t - 1 - k ϵ t - 1 - m T$ = ∑ k = 0 t − 1 a k a k E $ϵ t - 1 - k ϵ t - 1 - k T$ \sum_{k=0}^{t-1} \sum_{m=0}^{t-1} a^k a^m \mathbb{E}\left $\\epsilon_{t-1-k} \\epsilon_{t-1-m}\^T \\right$ = \sum_{k=0}^{t-1} a^k a^k \mathbb{E}\left $\\epsilon_{t-1-k} \\epsilon_{t-1-k}\^T \\right$ k=0∑t−1m=0∑t−1akamE $ϵt-1-kϵt-1-mT$ =k=0∑t−1akakE $ϵt-1-kϵt-1-kT$

因为 ( k = m k = m k=m )，项变为 ( a k a m = a 2 k a^k a^m = a^{2k} akam=a2k )，且：

E $ϵ t - 1 - k ϵ t - 1 - k T$ = I \mathbb{E}\left $\\epsilon_{t-1-k} \\epsilon_{t-1-k}\^T \\right$ = I E $ϵt-1-kϵt-1-kT$ =I

因此：

= ∑ k = 0 t − 1 a 2 k I = \sum_{k=0}^{t-1} a^{2k} I =k=0∑t−1a2kI

4. 乘以 ( b 2 b^2 b2 )

回到协方差定义：

代入简化的结果：

= b 2 ∑ k = 0 t − 1 a 2 k I = b^2 \sum_{k=0}^{t-1} a^{2k} I =b2k=0∑t−1a2kI

详细解释

为什么只保留对角项？

( ϵ i \epsilon_i ϵi ) 的独立性是关键。双重和 ( ∑ k ∑ m \sum_{k} \sum_{m} ∑k∑m ) 中，只有 ( k = m k = m k=m ) 时的项有非零贡献，因为 ( ϵ t − 1 − k \epsilon_{t-1-k} ϵt−1−k ) 和 ( ϵ t − 1 − m \epsilon_{t-1-m} ϵt−1−m ) 只有在同一时间步才相关。
其他 ( k ≠ m k \neq m k=m ) 的交叉项期望为零矩阵，消除了非对角贡献。

几何级数的意义

( ∑ k = 0 t − 1 a 2 k \sum_{k=0}^{t-1} a^{2k} ∑k=0t−1a2k ) 是几何级数，表示噪声在每次迭代中按 ( a 2 a^2 a2 ) 衰减的累积效应。
( I I I ) 保留了各维度的独立性，反映了协方差矩阵的对角结构。

验证与后续步骤

这一结果与推导一致，后续用几何级数求和 ( 1 − a 2 t 1 − a 2 \frac{1 - a^{2t}}{1 - a^2} 1−a21−a2t ) 并取极限 ( t → ∞ t \to \infty t→∞ )（当 ( ∣ a ∣ < 1 |a| < 1 ∣a∣<1 ) 时），得到 ( b 2 1 − a 2 I \frac{b^2}{1 - a^2} I 1−a2b2I )。
条件 ( b 2 1 − a 2 = 1 \frac{b^2}{1 - a^2} = 1 1−a2b2=1 ) 导出 ( b = 1 − a 2 b = \sqrt{1 - a^2} b=1−a2 )。

总结

协方差 ( Cov $w t$ = b 2 ∑ k = 0 t − 1 a 2 k I \text{Cov} $w_t$ = b^2 \sum_{k=0}^{t-1} a^{2k} I Cov $wt$ =b2∑k=0t−1a2kI ) 的推导依赖于 ( ϵ i \epsilon_i ϵi ) 的独立性和期望的线性性。通过将双重和简化为对角项之和，消除了无关的交叉项，最终得到噪声累积的几何级数形式。这一步骤是理解扩散模型收敛机制的关键。

希望这篇详细推导解答了你的疑问！

后记

2025年3月4日15点20分于上海，在grok 3大模型辅助下完成。