万字硬核：从 3D VAE 到 DiT，深度解构 AI 视频生成的“时空建模”之殇与工程化突围

🚀 引言：维度诅咒与架构的代际更迭

在计算机视觉领域，视频通常被视为一个 ( T , C , H , W ) (T, C, H, W) (T,C,H,W) 的四维张量。其中 T T T 代表时间帧数。

相比于图像生成 ( C , H , W ) (C, H, W) (C,H,W)，视频生成仅仅是增加了一个 T T T 维度吗？

答案是否定的。增加的 T T T 维度带来了指数级的计算复杂度爆炸，即所谓的**"维度诅咒"**。

数据量级：一段 5 秒的 1080P 30FPS 视频，其原始像素数据量高达数 GB。
语义连贯：图像生成只需要保证空间上的合理性（猫有两条腿），而视频生成必须保证时间上的因果性（猫跳起来后必须落下，不能凭空消失）。

早期的视频生成尝试（如 VDM, Imagen Video）多基于 3D U-Net。U-Net 的卷积核虽然能提取局部特征，但在捕捉长距离的时序依赖（Long-range Temporal Dependency）时显得力不从心。这直接导致了早期 AI 视频容易出现"鬼畜"、"形变"和"逻辑崩坏"。

随着 DiT (Diffusion Transformer) 的提出，Transformer 强大的全局注意力机制（Global Attention）终于被引入了扩散模型。这标志着视频生成进入了以 Scaling Law（缩放定律） 为主导的新时代。

🧬 第一部分：时空压缩的艺术------3D VAE 的设计哲学

在将视频输入到 Diffusion 模型之前，第一步永远是压缩。

如果直接在像素空间（Pixel Space）进行扩散训练，目前的算力（即使是 H100 集群）也无法承受。我们需要将高维视频映射到低维的潜在空间（Latent Space）。

这就是 3D VAE (Variational Autoencoder) 的战场。

1.1 从 2D 到 3D 的跨越

Stable Diffusion 使用的 2D VAE 压缩率为 f = 8 f=8 f=8，即把 512 × 512 512 \times 512 512×512 的图压缩成 64 × 64 64 \times 64 64×64 的 Latent。

在视频中，我们不仅要压缩空间 ( H , W ) (H, W) (H,W)，还要压缩时间 ( T ) (T) (T)。

目前的 SOTA 模型（如 CogVideoX、Sora）通常采用 Causal 3D VAE。

空间压缩：依然沿用卷积层下采样，通常压缩 8 倍。
时间压缩 ：这是一个权衡的艺术。
- 如果时间压缩率太高（比如 4 帧压成 1 帧），会导致高频动作丢失（比如飞鸟翅膀的扇动变得模糊）。
- 如果压缩率太低，Latent 的长度会过长，导致显存爆炸。
- 目前主流方案多采用 T / 4 T/4 T/4 的压缩比。

1.2 因果性（Causality）的约束

在训练 3D VAE 时，有一个关键的技术细节：因果卷积（Causal Convolution） 。

普通的 3D 卷积会利用"未来帧"的信息来重建"当前帧"。这在离线处理时没问题，但在生成任务中，我们希望模型是自回归的或者符合物理因果的。

因此，现代 3D VAE 强制卷积核只能"看"到当前帧和过去帧，严禁通过 Padding 泄露未来信息。这极大地提升了生成视频的物理合理性。

🏗️ 第二部分：DiT 架构解析------当 Transformer 遇到 Diffusion

Latent 准备好后，就轮到核心的去噪网络（Denoising Network）登场了。

DiT 的核心思想非常简单粗暴：Patchify Everything（一切皆切片）。

2.1 3D Patching（时空切片）

输入是一个 ( T ′ , C ′ , H ′ , W ′ ) (T', C', H', W') (T′,C′,H′,W′) 的 Latent 张量。

DiT 将其切割成一个个 ( t , h , w ) (t, h, w) (t,h,w) 的小立方体（Token）。

例如，CogVideoX 将 2 × 2 × 2 2 \times 2 \times 2 2×2×2 的 Latent 块视为一个 Token。

这些 Token 被展平后，经过线性层映射（Linear Projection），再加上3D RoPE（旋转位置编码），就变成了 Transformer 可以处理的序列。

2.2 全注意力 vs 轴向注意力

在 Transformer 内部，Attention 怎么算？

这里存在两条技术路线的分歧：

Full Attention（全注意力）：
- 原理：所有的 Token（无论是在第一帧还是最后一帧，是在左上角还是右下角）都互相计算 Attention。
- 优点：时空建模能力最强，能捕捉最复杂的动态。
- 缺点：计算量是 O ( ( T ⋅ H ⋅ W ) 2 ) O((T \cdot H \cdot W)^2) O((T⋅H⋅W)2)。序列长度一长，显存直接 OOM。Sora 据推测采用了某种优化后的全注意力机制。
Axial Attention（轴向注意力/因式分解注意力）：
- 原理：将 Attention 拆解为 Spatial Attention（只看同一帧内的 Token） 和 Temporal Attention（只看不同帧同一位置的 Token）。
- 优点：计算量大幅降低，显存友好。
- 缺点：时空解耦可能导致某些复杂的时空交互动作（如摄像机旋转时的透视变化）学习得不够好。
- 代表：Late-interaction 架构，如 CogVideoX 的部分设计思路。

2.3 文本条件的注入：Cross-Attention

视频生成不仅要看 Latent，还要看 Prompt（提示词）。

文本特征通过 Cross-Attention 层注入。

但在视频模型中，存在一个**"指令跟随"与"时序平滑"的博弈**。

如果 Cross-Attention 权重太高，每一帧都拼命想符合提示词，可能会导致帧与帧之间不连贯（Flickering）。

如果权重太低，生成的视频可能完全不理会 Prompt。

目前的解决方案通常是在 Temporal Attention 模块之后，再加入 Cross-Attention，或者使用 Adaptive Layer Norm (AdaLN) 来调节特征分布。

📉 第三部分：工程化挑战------显存、数据与训练策略

架构设计只是第一步，真正的炼丹（训练）过程才是噩梦的开始。

3.1 视频-图像联合训练（Joint Training）

这是训练高质量视频模型的公开秘密。

纯视频数据虽然包含动态，但往往画质较差、运动模糊严重。纯图像数据画质极高，但没有动态。
SOTA 训练策略通常是：

混合 Batch：在一个 Batch 中，同时包含视频数据和图像数据。
图像作为单帧视频 ：将图像视为 T = 1 T=1 T=1 的视频进行训练。
作用：图像数据教会模型"画质"和"构图"，视频数据教会模型"物理规律"和"运动"。这种联合训练能显著提升生成视频的清晰度（Sharpness）。

3.2 噪声调度（Noise Scheduling）的陷阱

在图像扩散中，我们通常使用线性的噪声调度。

但在视频中，低频噪声（整体光照变化）和高频噪声（纹理细节）对视觉的影响截然不同。

如果直接沿用图像的 Noise Schedule，会导致视频生成时背景频繁闪烁。

最新的研究（如 VDM++）提出**"信噪比（SNR）偏移"**策略，在训练视频模型时，需要向 Latent 中注入比图像模型更多的噪声，迫使模型去学习更鲁棒的时序特征。

3.3 显存优化：Sequence Parallelism（序列并行）

单张 GPU（即使是 80G 的 A100）很难塞下长视频的训练任务。

**序列并行（Sequence Parallelism）**技术应运而生。

它将长视频的 Token 序列切分到多张 GPU 上。

GPU 0 负责处理第 0-16 帧。
GPU 1 负责处理第 17-32 帧。
在计算 Temporal Attention 时，通过 Ring Attention 或 All-to-All 通信 交换 Key 和 Value。
这使得训练分钟级（Minute-level）的长视频成为可能。CogVideoX 的训练就深度依赖了这种并行策略。

🔬 第四部分：开源模型的局限与未来

尽管 CogVideoX、SVD 等开源模型已经非常强大，但距离商业级的 Sora 仍有差距。

4.1 物理模拟的"幻觉"

目前的 DiT 模型本质上还是概率拟合 。它并没有真正理解物理引擎。

比如生成"玻璃杯碎裂"，模型只是根据概率算出碎片应该怎么飞，而不是根据刚体动力学计算。

这导致在生成复杂交互（如手部抓取物体、流体模拟）时，依然会出现穿模、反重力等现象。

4.2 长视频的"遗忘"

当生成超过 10 秒的视频时，模型往往会忘记开头的设定。

比如开头主角穿红衣服，走到第 8 秒变成了蓝衣服。

这需要引入更强的 KV Cache 机制 或 Recurrent（循环）结构 ，或者探索 State Space Models (Mamba) 在视频生成中的应用。

🔮 结语：通往世界模型的必经之路

视频生成技术的终局，绝不仅仅是生成一段好看的 MP4。

它的终极目标是构建 World Model（世界模型）------一个能够理解物理规律、预测未来状态的通用模拟器。

对于技术人员而言，现在的 DiT 架构可能只是一个过渡态。

未来，我们可能会看到 DiT + 物理引擎 的混合架构，甚至是完全基于 自回归（Autoregressive） 的 Tokenizer 方案（如 Google 的 Lumiere）。

在这个领域，没有永远的 SOTA，只有不断被推翻的架构。

而这，正是技术最迷人的地方。