Latte——视频生成的潜在扩散变换器

一、论文基本信息

****论文标题：****Latte: Latent Diffusion Transformer for Video Generation

****中文标题：****Latte：用于视频生成的潜在扩散Transformer

****作者：****Xin Ma, Yaohui Wang, Xinyuan Chen, Gengyun Jia, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, Yu Qiao

****发表时间：****2024年1月（arXiv），TMLR 2025接收

****论文链接：****https://arxiv.org/abs/2401.03048

****项目主页：****https://maxin-cn.github.io/latte_project

****研究机构：****Shanghai AI Laboratory, Nanyang Technological University, Monash University（上海人工智能实验室、南洋理工大学、莫纳什大学）

二、研究背景与动机

2.1 视频生成技术的发展现状

视频生成是计算机视觉领域最具挑战性的任务之一。与图像生成相比，视频生成需要同时考虑空间一致性和时间连贯性，这使得任务复杂度呈指数级增长。近年来，随着扩散模型（Diffusion Models）和Transformer架构的发展，视频生成技术取得了显著进步。

早期的视频生成方法主要基于生成对抗网络（GANs），但GANs存在训练不稳定、模式崩溃等问题。扩散模型的出现为视频生成带来了新的可能性，其渐进式去噪过程天然适合建模视频的时间动态。然而，将扩散模型应用于视频领域面临两大挑战：如何高效处理视频的高维时空数据，以及如何保证生成视频的时序一致性。

2.2 Transformer在视觉生成中的崛起

2023年，Meta发布的DiT（Diffusion Transformer）论文证明了Transformer架构在图像生成任务上的优越性。DiT将U-Net骨干网络替换为Transformer，在ImageNet上取得了SOTA性能。这一突破启发研究者思考：Transformer架构是否同样适用于视频生成？

然而，直接将DiT扩展到视频领域并非易事。视频数据的时空维度远高于图像，导致token数量急剧增加，给Transformer的自注意力机制带来巨大计算压力。此外，视频的独特属性（如运动、时序依赖）需要专门的设计来有效建模。

2.3 研究动机与目标

Latte的研究动机是探索如何将Transformer架构有效应用于视频扩散模型。具体研究目标包括：设计适合视频数据的Transformer架构变体，解决时空token数量爆炸问题；建立视频扩散Transformer的训练最佳实践；在标准视频生成基准上验证方法的有效性；以及将模型扩展到文本到视频（T2V）生成任务。

三、核心方法详解

3.1 整体框架设计

Latte采用潜在扩散模型（Latent Diffusion Model, LDM）框架，包含三个主要组件：视频VAE编码器/解码器、基于Transformer的扩散骨干网络、以及条件编码器（用于T2V任务）。

视频VAE负责将输入视频压缩到低维潜在空间，显著降低后续处理的计算复杂度。Latte使用预训练的Stable Diffusion VAE进行空间压缩，并通过时间下采样实现时空压缩。具体来说，一个T帧的RGB视频首先被编码为T/4帧的潜在特征，每帧特征的空间分辨率降低为原来的1/8。

3.2 时空Transformer变体

这是Latte的核心创新。研究者设计了四种不同的Transformer变体来处理视频的时空维度，从不同角度探索时空建模的最佳策略：

变体1：时空联合注意力（Spatial-Temporal Joint Attention）

将所有时空token展平为一个序列，使用标准的自注意力机制同时建模空间和时间依赖。这种方法最直观，但计算复杂度为O((S*T)^2)，其中S是空间token数，T是时间帧数，计算成本最高。

变体2：空间-时间分解注意力（Factorized Spatial-Temporal Attention）

将Transformer层分为两组：空间层（仅处理同一帧内的空间token）和时间层（仅处理同一空间位置的时间token）。这种分解将计算复杂度降低到O(S^2 + T^2)，显著提升了效率。

变体3：空间-时间交错注意力（Factorized Spatial-Temporal Interleaved Attention）

与变体2类似，但空间层和时间层交错排列而非分组排列。这种设计可能有助于更好地融合时空信息。

变体4：空间注意力加时间卷积（Spatial Attention with Temporal Convolution）

使用Transformer处理空间维度，使用1D卷积处理时间维度。这种混合架构结合了Transformer的建模能力和CNN的效率优势。

3.3 关键设计选择

Latte通过大量实验确定了多个关键设计选择，这些选择对模型性能有显著影响：

****视频片段嵌入（Video Clip Patch Embedding）：****不同于图像的2D patch嵌入，视频需要3D patch嵌入。Latte实验了不同的时空patch尺寸，发现适当的patch大小对平衡计算效率和生成质量至关重要。

****时间步和类别信息注入（Timestep-Class Information Injection）：****扩散模型需要将时间步信息注入网络。Latte比较了AdaLN（Adaptive Layer Normalization）和直接嵌入两种方案，发现AdaLN更适合Transformer架构。

****时间位置编码（Temporal Positional Embedding）：****由于视频帧的顺序至关重要，Latte引入了专门的时间位置编码。实验表明，绝对位置编码和相对位置编码各有优劣，需要根据具体任务选择。

****学习策略（Learning Strategies）：****包括优化器选择、学习率调度、权重初始化等。Latte发现从预训练的图像扩散模型初始化可以显著加速收敛并提升性能。

3.4 文本到视频扩展

为了支持文本到视频生成，Latte引入了文本条件编码器。具体实现上，使用预训练的CLIP文本编码器将文本描述编码为语义特征，然后通过交叉注意力机制将文本信息注入视频生成过程。

这种设计与图像领域的Stable Diffusion类似，但需要考虑视频特有的挑战：如何保证文本描述与视频内容的时序对齐，以及如何生成与文本一致的运动和动态。

四、实验结果与分析

4.1 实验设置

Latte在四个标准视频生成数据集上进行了评估：FaceForensics（人脸视频）、SkyTimelapse（风景延时摄影）、UCF101（动作识别数据集）、Taichi-HD（太极动作视频）。这些数据集涵盖了不同的视频类型和复杂度。

评估指标包括：FVD（Frechet Video Distance），用于衡量生成视频与真实视频分布的相似度；IS（Inception Score），评估生成视频的多样性和质量；以及人工评估，用于主观质量判断。

4.2 主要实验结果

实验结果显示，Latte在所有四个数据集上都取得了SOTA或接近SOTA的性能。特别是在FaceForensics和SkyTimelapse上，Latte显著超越了之前的基于GAN和基于U-Net扩散模型的方法。

在FVD指标上，Latte相比之前的视频扩散模型有显著提升。例如，在SkyTimelapse数据集上，Latte的FVD从之前最佳的约200降低到约100，改善幅度达50%。这表明Transformer架构在捕捉视频时空特征方面具有明显优势。

4.3 架构变体对比

四种Transformer变体的对比实验揭示了有趣的发现：空间-时间分解注意力（变体2）在大多数指标上表现最佳，在计算效率和生成质量之间取得了最佳平衡。时空联合注意力（变体1）虽然理论上建模能力最强，但由于计算限制和优化困难，实际表现并不理想。

这一发现具有重要的实践意义：它表明完全的自注意力并非总是最优选择，适当的归纳偏置（如时空分解）可以帮助模型更好地学习。这与计算机视觉领域CNN的成功经验相呼应------适当的结构约束往往比完全的无约束学习更有效。

4.4 消融研究

消融研究验证了各个设计选择的贡献：预训练初始化带来了约20%的FVD提升；AdaLN比简单嵌入提升了约10%；适当的时间位置编码提升了时序一致性，减少了约15%的时间伪影。

特别值得注意的是，从预训练的图像扩散模型（如Stable Diffusion）初始化被证明是极其有效的。这不仅加速了收敛，还显著提升了生成质量。这一发现支持了迁移学习在视频生成中的价值------图像领域的知识可以有效迁移到视频领域。

4.5 文本到视频生成

在文本到视频任务上，Latte与当时的SOTA方法（如Make-A-Video、Imagen Video）进行了对比。虽然Latte的模型规模较小，但在文本-视频对齐和视觉质量方面表现出竞争力。

定性结果显示，Latte生成的视频能够较好地反映文本描述的内容，运动自然流畅。然而，与商业级的视频生成系统（如后来的Sora）相比，Latte在生成长视频和复杂场景方面仍有差距。

五、与相关工作的对比

5.1 与基于GAN的视频生成方法对比

早期的视频生成方法如MoCoGAN、VideoGPT等主要基于GAN架构。这些方法在特定领域（如人脸视频）取得了不错的效果，但普遍存在训练不稳定、生成多样性有限等问题。

Latte基于扩散模型的框架从根本上解决了这些问题。扩散模型的训练更加稳定，能够生成更多样化的视频内容。此外，Transformer架构的引入使得Latte具有更强的表达能力，能够处理更复杂的视频场景。

5.2 与基于U-Net的视频扩散模型对比

在Latte之前，视频扩散模型主要使用U-Net作为骨干网络，如Video LDM、Stable Video Diffusion等。U-Net通过编码器-解码器结构和跳跃连接，在图像分割和生成任务上表现出色。

Latte的研究表明，在视频生成任务上，Transformer可以超越U-Net。这主要得益于Transformer的全局建模能力：自注意力机制可以捕捉长距离的时空依赖，而U-Net的局部卷积操作在这方面存在局限。此外，Transformer的扩展性更好，随着模型规模增加，性能持续提升。

5.3 与 contemporaneous 工作对比

与Latte同期，还有其他研究者探索视频扩散Transformer，如Video Diffusion Transformer（VDT）等。Latte的独特贡献在于系统性地研究了不同的时空建模策略，并建立了完整的最佳实践指南。

此外，Latte的开源发布为社区提供了宝贵的基线。相比一些闭源的商业系统，Latte的透明性和可复现性使其成为学术研究的重要参考。

六、优缺点分析

6.1 主要优势

****（1）系统性的架构研究：****Latte不仅提出了一种有效的视频生成模型，更重要的是系统性地比较了多种时空建模策略，为后续研究提供了有价值的参考。

****（2）SOTA性能：****在多个标准基准上取得了SOTA或接近SOTA的性能，证明了Transformer在视频生成领域的潜力。

****（3）最佳实践指南：****通过大量实验确定了视频扩散Transformer的关键设计选择，这些经验对后续研究具有重要指导意义。

****（4）开源贡献：****代码和模型的开源发布促进了视频生成领域的研究进展，为社区提供了可靠的基线。

6.2 局限性与不足

****（1）生成视频长度受限：****Latte主要生成短视频片段（通常16-64帧），难以生成分钟级的长视频。这是当时大多数视频生成模型的共同局限。

****（2）计算资源需求高：****即使采用了时空分解策略，视频Transformer的计算成本仍然很高，限制了其在资源受限环境中的应用。

****（3）物理一致性挑战：****生成的视频有时会出现物理不合理的情况，如物体凭空消失、运动不符合物理规律等。

****（4）文本对齐有待提升：****在文本到视频任务上，Latte的文本-视频对齐精度不如专门的T2V系统，复杂文本描述的遵循度有限。

七、个人见解与批判性思考

7.1 对视频生成范式转变的思考

Latte的出现标志着视频生成领域正在经历从CNN/U-Net到Transformer的范式转变。这一转变与NLP和图像生成领域的发展历程高度一致。回顾AI发展史，Transformer架构似乎正在统一各个模态的生成建模。

然而，这种统一也带来了新的问题。视频数据的独特性（时间维度、运动动态）是否被充分考虑？简单的将图像Transformer扩展到时空维度是否足够？Latte的时空分解策略是一种务实的折中，但是否存在更优雅的解决方案？

7.2 对研究方法的评价

Latte的研究方法值得肯定。通过系统地比较多种架构变体，研究者不仅找到了当前的最优解，还揭示了不同设计选择的权衡关系。这种"ablation-driven"的研究方法对于新兴领域尤为重要，它帮助社区快速建立对问题的理解。

不过，这种研究方法也有局限。实验结果高度依赖于具体的实现细节和数据集，某些结论可能缺乏普适性。此外，受计算资源限制，Latte探索的模型规模相对较小（与后来的Sora相比），其结论在大规模场景下的适用性需要进一步验证。

7.3 技术发展的前瞻性思考

从Latte到Sora，视频生成技术在2024年取得了飞跃式进展。回顾这一发展历程，有几个关键因素推动了进步：模型规模的扩大（从Latte的约1B参数到Sora的数十亿参数）、训练数据的质量和规模提升、以及架构设计的持续优化。

Latte作为这一发展链条上的重要一环，其技术探索为后续突破奠定了基础。特别是时空分解注意力的设计思想，在后续工作中得到了继承和发展。可以说，Latte是视频生成Transformer时代的开创性工作之一。

八、未来展望

8.1 技术发展方向

基于Latte的技术路线，视频生成领域可能在以下方向继续发展：

****长视频生成：****通过引入记忆机制、分层生成策略或自回归扩展，实现分钟级甚至更长视频的生成。

****高效推理：****开发针对视频Transformer的加速技术，如蒸馏、量化、稀疏注意力等，降低部署成本。

****物理一致性：****引入物理约束和世界模型知识，生成符合物理规律的视频内容。

****多模态融合：****将视频生成与音频、3D、文本等模态更紧密地结合，实现真正的多模态内容创作。

8.2 潜在研究方向

对于研究者而言，以下方向值得关注：

****（1）更高效的时空建模：****探索超越时空分解的新架构，如基于状态空间模型（Mamba）的视频生成方法。

****（2）可控视频生成：****研究如何在视频Transformer中实现精细的控制，如相机运动、物体轨迹、场景转换等。

****（3）视频编辑与操作：****将视频生成技术扩展到视频编辑领域，实现基于文本或示例的视频修改。

8.3 应用前景

视频生成技术的成熟将开启众多应用场景：内容创作（电影、广告、社交媒体）、虚拟现实（沉浸式体验、游戏）、教育培训（可视化教学材料）、以及数据增强（为下游任务生成训练数据）等。

然而，技术的进步也带来了伦理和安全挑战。深度伪造（Deepfake）的风险、版权争议、以及虚假信息传播等问题需要技术社区和社会各界共同应对。

九、总结

Latte是视频生成领域的重要里程碑，它成功将Transformer架构应用于视频扩散模型，并在多个基准上取得了SOTA性能。其核心贡献包括：提出了多种时空Transformer变体并进行了系统比较；建立了视频扩散Transformer的训练最佳实践；开源了模型和代码，推动了领域发展。

作为视频生成Transformer时代的开创性工作，Latte为后续研究（包括Sora等突破性系统）提供了重要参考。虽然其生成的视频在长度和复杂度上还有局限，但其技术探索为视频生成领域的未来发展指明了方向。对于研究者和从业者而言，深入理解Latte的设计思想和实验结论，将有助于把握视频生成技术的发展脉络，并在这一快速演进的领域中找到自己的研究方向。