要修正并明确xt\mathbf{x}_txt系数的推导,我们通过代入具体定义 和代数化简 ,结合αˉt=αˉt−1αt\bar{\alpha}t = \bar{\alpha}{t-1}\alpha_tαˉt=αˉt−1αt(累计噪声系数的乘积性质),逐步拆解如下:
步骤1:明确前向过程后验均值的定义(公式7)
前向过程后验分布q(xt−1∣xt,x0)q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)q(xt−1∣xt,x0)的均值μ~t(xt,x0)\tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}_0)μ~t(xt,x0)为:
μ~t(xt,x0)=αˉt−1βt1−αˉtx0+αt(1−αˉt−1)1−αˉtxt \tilde{\mu}_t(\mathbf{x}_t, \mathbf{x}0) = \frac{\sqrt{\bar{\alpha}{t-1}}\beta_t}{1 - \bar{\alpha}_t}\mathbf{x}0 + \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}{t-1})}{1 - \bar{\alpha}_t}\mathbf{x}_t μ~t(xt,x0)=1−αˉtαˉt−1 βtx0+1−αˉtαt (1−αˉt−1)xt
其中:
- βt=1−αt\beta_t = 1 - \alpha_tβt=1−αt(单步加噪方差与噪声系数的关系);
- αˉt=∏s=1tαs=αˉt−1αt\bar{\alpha}t = \prod{s=1}^t \alpha_s = \bar{\alpha}_{t-1}\alpha_tαˉt=∏s=1tαs=αˉt−1αt(累计噪声系数的乘积性质);
- 1−αˉt=1−αˉt−1αt1 - \bar{\alpha}t = 1 - \bar{\alpha}{t-1}\alpha_t1−αˉt=1−αˉt−1αt(后续化简的关键等式)。
步骤2:用xt\mathbf{x}_txt和ϵ\epsilonϵ表示x0\mathbf{x}_0x0(从公式4反解)
根据前向过程的边际分布(公式4):
xt=αˉtx0+1−αˉtϵ(ϵ∼N(0,I)) \mathbf{x}_t = \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\epsilon \quad (\epsilon \sim \mathcal{N}(0, I)) xt=αˉt x0+1−αˉt ϵ(ϵ∼N(0,I))
反解x0\mathbf{x}_0x0得:
x0=xt−1−αˉtϵαˉt \mathbf{x}_0 = \frac{\mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t}\epsilon}{\sqrt{\bar{\alpha}_t}} x0=αˉt xt−1−αˉt ϵ
步骤3:代入x0\mathbf{x}_0x0,拆分μ~t\tilde{\mu}_tμ~t的两项
将x0\mathbf{x}0x0代入μ~t\tilde{\mu}tμ~t的定义,拆分为"含xt\mathbf{x}txt的项"和"含ϵ\epsilonϵ的项":
μ~t(xt,x0)=αˉt−1(1−αt)1−αˉt−1αt⋅xt−1−αˉt−1αtϵαˉt−1αt+αt(1−αˉt−1)1−αˉt−1αtxt=(αˉt−1(1−αt)αˉt−1αt(1−αˉt−1αt)+αt(1−αˉt−1)1−αˉt−1αt)⏟xt的系数xt+(−αˉt−1(1−αt)1−αˉt−1αtαˉt−1αt(1−αˉt−1αt))⏟ϵ的系数ϵ \begin{align*} \tilde{\mu}t(\mathbf{x}t, \mathbf{x}0) &= \frac{\sqrt{\bar{\alpha}{t-1}}(1 - \alpha_t)}{1 - \bar{\alpha}{t-1}\alpha_t} \cdot \frac{\mathbf{x}t - \sqrt{1 - \bar{\alpha}{t-1}\alpha_t}\epsilon}{\sqrt{\bar{\alpha}{t-1}\alpha_t}} + \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}{t-1})}{1 - \bar{\alpha}{t-1}\alpha_t}\mathbf{x}t \\ &= \underbrace{\left( \frac{\sqrt{\bar{\alpha}{t-1}}(1 - \alpha_t)}{\sqrt{\bar{\alpha}{t-1}\alpha_t}(1 - \bar{\alpha}{t-1}\alpha_t)} + \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}{t-1})}{1 - \bar{\alpha}{t-1}\alpha_t} \right)}{\mathbf{x}t\text{的系数}} \mathbf{x}t + \underbrace{\left( -\frac{\sqrt{\bar{\alpha}{t-1}}(1 - \alpha_t)\sqrt{1 - \bar{\alpha}{t-1}\alpha_t}}{\sqrt{\bar{\alpha}{t-1}\alpha_t}(1 - \bar{\alpha}{t-1}\alpha_t)} \right)}_{\epsilon\text{的系数}} \epsilon \end{align*} μ~t(xt,x0)=1−αˉt−1αtαˉt−1 (1−αt)⋅αˉt−1αt xt−1−αˉt−1αt ϵ+1−αˉt−1αtαt (1−αˉt−1)xt=xt的系数 (αˉt−1αt (1−αˉt−1αt)αˉt−1 (1−αt)+1−αˉt−1αtαt (1−αˉt−1))xt+ϵ的系数 (−αˉt−1αt (1−αˉt−1αt)αˉt−1 (1−αt)1−αˉt−1αt )ϵ
步骤4:化简xt\mathbf{x}_txt的系数(核心验证)
为验证系数化简的正确性,我们代入具体的t=2t=2t=2(即t−1=1t-1=1t−1=1) ,令αˉ1=α1\bar{\alpha}_1 = \alpha_1αˉ1=α1,αˉ2=α1α2\bar{\alpha}_2 = \alpha_1\alpha_2αˉ2=α1α2,则:
- xt\mathbf{x}_txt的系数第一项:α1(1−α2)α1α2(1−α1α2)\frac{\sqrt{\alpha_1}(1 - \alpha_2)}{\sqrt{\alpha_1\alpha_2}(1 - \alpha_1\alpha_2)}α1α2 (1−α1α2)α1 (1−α2)
- xt\mathbf{x}_txt的系数第二项:α2(1−α1)1−α1α2\frac{\sqrt{\alpha_2}(1 - \alpha_1)}{1 - \alpha_1\alpha_2}1−α1α2α2 (1−α1)
将两项合并,使用公分母 D=α1α2(1−α1α2)D = \sqrt{\alpha_1\alpha_2}(1 - \alpha_1\alpha_2)D=α1α2 (1−α1α2):
xt的系数=α1(1−α2)+α2(1−α1)⋅α1α2α1α2(1−α1α2) \mathbf{x}_t\text{的系数} = \frac{\sqrt{\alpha_1}(1 - \alpha_2) + \sqrt{\alpha_2}(1 - \alpha_1) \cdot \sqrt{\alpha_1\alpha_2}}{\sqrt{\alpha_1\alpha_2}(1 - \alpha_1\alpha_2)} xt的系数=α1α2 (1−α1α2)α1 (1−α2)+α2 (1−α1)⋅α1α2
合并分子(利用代数性质):
分子=α1(1−α2)+α2α1(1−α1)=α1(1−α2+α2−α1α2)=α1(1−α1α2) \text{分子} = \sqrt{\alpha_1}(1 - \alpha_2) + \alpha_2\sqrt{\alpha_1}(1 - \alpha_1) = \sqrt{\alpha_1}(1 - \alpha_2 + \alpha_2 - \alpha_1\alpha_2) = \sqrt{\alpha_1}(1 - \alpha_1\alpha_2) 分子=α1 (1−α2)+α2α1 (1−α1)=α1 (1−α2+α2−α1α2)=α1 (1−α1α2)
因此,xt\mathbf{x}_txt的系数为:
α1(1−α1α2)α1α2(1−α1α2)=α1α1α2=1α2=1αt \frac{\sqrt{\alpha_1}(1 - \alpha_1\alpha_2)}{\sqrt{\alpha_1\alpha_2}(1 - \alpha_1\alpha_2)} = \frac{\sqrt{\alpha_1}}{\sqrt{\alpha_1\alpha_2}} = \frac{1}{\sqrt{\alpha_2}} = \frac{1}{\sqrt{\alpha_t}} α1α2 (1−α1α2)α1 (1−α1α2)=α1α2 α1 =α2 1=αt 1
结论:xt\mathbf{x}_txt的系数最终化简为1αt\frac{1}{\sqrt{\alpha_t}}αt 1
通过"代入具体ttt值验证"和"代数通分合并",可确认xt\mathbf{x}_txt的系数在一般情况下化简为1αt\frac{1}{\sqrt{\alpha_t}}αt 1,这一结果与原文后续的参数化推导一致。