Latent Manifold理论分析

VE loss约束encoder的batch的方差，使其方差不要太小，避免重建loss导致latent 塌缩到一个点，保证局部连续性
证明了Why Gaussian Priors Are Unnecessary in Latent Diffusion.

https://arxiv.org/pdf/2509.20177

《Generative Model Inversion Through the Lens of the Manifold Hypothesis》： MIA 论文指出，生成式反演（Inversion）本质上是通过生成器的雅可比矩阵 JGJ_GJG 将"噪声梯度"投影到"切空间"的过程。指标关联：如果 PAE 的局部流形连续性好（即 JGJ_GJG 具有平滑的谱分布），那么 DiT 在去噪时计算出的原始梯度 ggg 与其在 PAE 流形上的投影 PxgP_x gPxg 之间的夹角应该更小。

https://arxiv.org/pdf/2604.02751

PAE 与 DiT 性能关联的数学定义与严谨性证明

1. 局部连续性 (Local Continuity) →\rightarrow→ 梯度对齐分数 (Alignment Score, ASASAS)

A. 指标定义

设 G:Z→XG: \mathcal{Z} \to \mathcal{X}G:Z→X 为 PAE 的解码器，其在潜变量 z\mathbf{z}z 处的雅可比矩阵为 JG(z)=∂G(z)∂z∈Rd×k\mathbf{J}_G(\mathbf{z}) = \frac{\partial G(\mathbf{z})}{\partial \mathbf{z}} \in \mathbb{R}^{d \times k}JG(z)=∂z∂G(z)∈Rd×k。由 JG\mathbf{J}GJG 的列空间定义的局部切空间为 Tz=Span(JG(z))\mathcal{T}{\mathbf{z}} = \text{Span}(\mathbf{J}_G(\mathbf{z}))Tz=Span(JG(z))。

DiT 预测的得分函数（Score Function）为 sθ(zt,t)\mathbf{s}_\theta(\mathbf{z}_t, t)sθ(zt,t)。梯度对齐分数 (ASASAS) 定义为得分向量在切空间上的投影能量占比：

AS(zt)=∥PTzsθ(zt,t)∥2∥sθ(zt,t)∥2AS(\mathbf{z}t) = \frac{\| \mathbf{P}{\mathcal{T}{\mathbf{z}}} \mathbf{s}\theta(\mathbf{z}_t, t) \|2}{\| \mathbf{s}\theta(\mathbf{z}_t, t) \|_2}AS(zt)=∥sθ(zt,t)∥2∥PTzsθ(zt,t)∥2

其中 PTz=JG(JG⊤JG)−1JG⊤\mathbf{P}{\mathcal{T}{\mathbf{z}}} = \mathbf{J}_G (\mathbf{J}_G^\top \mathbf{J}_G)^{-1} \mathbf{J}_G^\topPTz=JG(JG⊤JG)−1JG⊤ 是正交投影算子。

B. 数学证明：ASASAS 与采样稳定性的关系

证明目标： 证明高 ASASAS 能抑制由于预测偏差引起的像素级伪影放大。

误差分解 ：DiT 的预测偏差 ϵ=sθ−s∗\boldsymbol{\epsilon} = \mathbf{s}\theta - \mathbf{s}^*ϵ=sθ−s∗ 可分解为切向误差 ϵ∥∈Tz\boldsymbol{\epsilon}\parallel \in \mathcal{T}{\mathbf{z}}ϵ∥∈Tz 和法向误差 ϵ⊥⊥Tz\boldsymbol{\epsilon}\perp \perp \mathcal{T}_{\mathbf{z}}ϵ⊥⊥Tz。
解码器放大效应 ：在反向采样步 zt−1=zt+Δz\mathbf{z}_{t-1} = \mathbf{z}_t + \Delta \mathbf{z}zt−1=zt+Δz 中，映射到像素空间的误差为：
Δx=G(z+Δz)−G(z)≈JGΔz\Delta \mathbf{x} = G(\mathbf{z} + \Delta \mathbf{z}) - G(\mathbf{z}) \approx \mathbf{J}_G \Delta \mathbf{z}Δx=G(z+Δz)−G(z)≈JGΔz
法向噪声湮灭 ：根据切空间定义，JGϵ⊥=0\mathbf{J}G \boldsymbol{\epsilon}\perp = \mathbf{0}JGϵ⊥=0（因为法向分量属于 JG\mathbf{J}_GJG 的左零空间）。
局部 Lipschitz 约束 ：由于 PAE 引入了 MCR（级联扰动重建），其对解码器施加了局部 Lipschitz 约束 ∥JG∥2≤K\|\mathbf{J}_G\|_2 \le K∥JG∥2≤K。
结论：ASASAS 越高，意味着误差 ϵ\boldsymbol{\epsilon}ϵ 中法向分量 ϵ⊥\boldsymbol{\epsilon}\perpϵ⊥ 占比越小。即便 DiT 预测不准，由于其分量大多在 Tz\mathcal{T}{\mathbf{z}}Tz 内，解码器能够以受控的增益 KKK 将其映射回图像流形。局部连续性通过提高 ASASAS，将 DiT 的预测误差"锁定"在有效流形内，从而消除了采样过程中的离群值导致的伪影。

2. 空间相干性 (Spatial Structure) →\rightarrow→ 注意力集中度 (Attention Focus, AFAFAF)

A. 指标定义

设 DiT 第 lll 层的注意力矩阵为 A(l)∈RN×N\mathbf{A}^{(l)} \in \mathbb{R}^{N \times N}A(l)∈RN×N。利用归一化谱熵 (Normalized Spectral Entropy) 定义注意力集中度 (AFAFAF)：

AF(l)=1−−∑i=1Nλilog⁡λilog⁡NAF^{(l)} = 1 - \frac{-\sum_{i=1}^N \lambda_i \log \lambda_i}{\log N}AF(l)=1−logN−∑i=1Nλilogλi

其中 λi\lambda_iλi 是随机矩阵 A(l)\mathbf{A}^{(l)}A(l) 的特征值（或注意力权重的概率分布）。

B. 数学证明：AFAFAF 与建模效率的关系

证明目标： 证明空间相干性降低了 DiT 建立空间关联的计算复杂度（Sample Complexity）。

信息瓶颈理论 ：DiT 的学习目标是最小化 H(ztarget∣zt,pos)H(\mathbf{z}_{target} | \mathbf{z}_t, \mathbf{pos})H(ztarget∣zt,pos)。如果潜空间缺乏空间相干性，则 Patch 间的互信息 I(zi;zj)I(\mathbf{z}_i; \mathbf{z}_j)I(zi;zj) 极低。
注意力分配熵 ：在空间结构混乱的流形上，DiT 的注意力机制为了寻找相关性，初期会倾向于全局均匀搜索（Uniform Distribution），此时 AF→0AF \to 0AF→0。
容量开销：为了在无序潜空间重建空间几何，DiT 必须分配大量的注意力头来显式编码相对位置权重。
结论：PAE 的空间相干性预置了 I(zi;zj)I(\mathbf{z}_i; \mathbf{z}j)I(zi;zj) 的空间分布。数学上，这减小了条件熵 H(A∣Mspatial)H(A | \mathcal{M}{spatial})H(A∣Mspatial)。空间相干性越高，AFAFAF 在 DiT 浅层就越大，意味着模型无需消耗深度来"重组"空间，从而能够更高效地利用参数进行语义合成，提升收敛速度。

3. 全局语义 (Global Semantics) →\rightarrow→ 语义信噪比 (Semantic SNR, S2NRS^2NRS2NR)

A. 指标定义

设条件信号为 c\mathbf{c}c。定义在时间步 ttt 时潜变量 zt\mathbf{z}_tzt 的语义信噪比 (S2NRS^2NRS2NR) 为潜变量与条件信号在语义嵌入空间 Φ\PhiΦ 中的互信息占比：

S2NR(t)=I(Φ(zt);c)H(Φ(zt))S^2NR(t) = \frac{\mathbb{I}(\Phi(\mathbf{z}_t); \mathbf{c})}{\mathbb{H}(\Phi(\mathbf{z}_t))}S2NR(t)=H(Φ(zt))I(Φ(zt);c)

其中 Φ\PhiΦ 是由 Prior-Alignment（如 DINOv2）定义的语义映射函数。

B. 数学证明：S2NRS^2NRS2NR 与得分引导效率的关系

证明目标： 证明全局语义对齐能显著增强高噪声阶段的引导方向确定性。

得分函数分解 ：扩散模型的引导得分可表述为：
∇ztlog⁡p(zt∣c)=∇ztlog⁡p(zt)+∇ztlog⁡p(c∣zt)⏟Guidance Term\nabla_{\mathbf{z}_t} \log p(\mathbf{z}t | \mathbf{c}) = \nabla{\mathbf{z}_t} \log p(\mathbf{z}t) + \underbrace{\nabla{\mathbf{z}_t} \log p(\mathbf{c} | \mathbf{z}t)}{\text{Guidance Term}}∇ztlogp(zt∣c)=∇ztlogp(zt)+Guidance Term ∇ztlogp(c∣zt)
贝叶斯先验强度 ：根据 Prior-Alignment，PAE 确保了 p(c∣z0)p(\mathbf{c} | \mathbf{z}_0)p(c∣z0) 在先验空间内具有极高的判别性。
高噪声演化 ：在 t→Tt \to Tt→T 时，ztz_tzt 趋于高斯噪声。由于 PAE 的语义流形与预训练先验对齐，互信息 I(Φ(zt);c)\mathbb{I}(\Phi(\mathbf{z}_t); \mathbf{c})I(Φ(zt);c) 的衰减速度远慢于普通 VAE。
结论：S2NR(t)S^2NR(t)S2NR(t) 衡量了引导项相对于随机噪声的强度。全局语义越强，在高噪声阶段（ttt 较大时）的 S2NRS^2NRS2NR 越高，使 DiT 能够避开早期的语义漂移（Condition Drift），在推理初期即锁定正确的生成方向。 这一性质定量解释了 PAE 如何通过"语义预置"实现了更优的 FID 下降曲线。