【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式

标题:Matten: Video Generation with Mamba-Attention

作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)

单位:Meituan Inc.(美团公司)

发表:arXiv preprint arXiv:2405.03025v2 [cs.CV]

论文链接https://arxiv.org/pdf/2405.03025

代码链接:暂无

关键词:视频生成(Video Generation)、 latent diffusion 模型(Latent Diffusion Model)、Mamba 架构(Mamba Architecture)、注意力机制(Attention Mechanism)、状态空间模型(State Space Model)、计算效率(Computational Efficiency)、时空建模(Spatio-Temporal Modeling)


在视频生成领域,如何在保证生成质量的前提下提升模型效率、捕捉全局与局部时空关联,一直是研究者们面临的核心挑战。美团团队提出的 Matten 模型,创新性地将 Mamba 架构与 Attention 机制结合,构建了一种高效的 latent diffusion 模型,为解决这一挑战提供了新思路。

一、研究背景与动机

1.1 视频生成技术的发展现状

近年来,扩散模型在视频生成领域展现出卓越能力,当前主流技术路线主要分为两类:

  • CNN-based U-Net 架构:如 LVDM 等模型,依托卷积操作处理空间信息,但在捕捉长序列时空依赖时存在局限。
  • Transformer-based 框架 :如 Latte 等模型,通过自注意力机制建模全局关联,然而自注意力的二次复杂度(,其中J为序列长度,D为隐藏层维度)导致计算成本高昂,难以高效处理长视频序列。

此外,早期的 GAN-based 方法易出现模式崩溃问题,生成视频的多样性和真实性受限;autoregressive 模型虽能生成高质量视频,但同样面临计算量大的困境。因此,寻找兼顾效率与质量、能同时处理局部与全局时空信息的架构,成为视频生成技术突破的关键方向。

1.2 Mamba 架构的潜力与挑战

State Space Models(SSMs,状态空间模型)凭借对长序列数据的高效建模能力,在 NLP、计算机视觉等领域逐渐兴起。其中,Mamba 作为 SSM 的代表性模型,通过动态参数设计和硬件友好型算法,实现了线性复杂度(,N为 SSM 维度)的序列建模,在长文本处理、图像生成等任务中表现出色。

然而,Mamba 在视频生成领域的应用面临两大挑战:

  1. 局部模式捕捉能力弱:Mamba 的扫描操作本质上不直接计算 token 间的依赖关系,难以有效捕捉视频中的局部时空细节,这与 Attention 机制在局部建模上的优势形成互补。
  2. 时空建模适配性:原始 Mamba 为 1D 序列设计,直接应用于 3D 视频数据(帧序列 + 空间维度)时,需解决时空维度的适配问题,如何合理组织视频的时空 token 序列,成为发挥 Mamba 优势的关键。

1.3 研究动机

基于上述现状,Matten 的核心研究动机可概括为三点:

  1. 融合优势:结合 Mamba 的全局长序列高效建模能力与 Attention 的局部细节捕捉能力,构建 "全局 - 局部" 协同的时空建模架构。
  2. 降低成本:通过 Mamba 的线性复杂度替代部分 Transformer 的自注意力模块,在保证生成质量的前提下,降低模型的计算量与参数规模。
  3. 验证扩展性:探索模型复杂度与视频生成质量的关系,验证融合架构的可扩展性,为后续更大规模模型的设计提供依据。

1.4 传统时空建模方法的局限与对比

为更直观理解视频时空建模的核心痛点,文中展示了四种主流的时空建模方式(图1),清晰揭示了现有方法的优势与短板,也为 Matten 的 "Mamba-Attention 融合架构" 提供了设计依据。

  • (a) Spatial-Attention(空间注意力) 仅计算 "单帧内图像 token 间的自注意力",例如同一帧中不同 位置的 token 交互。这种方式能有效捕捉帧内局部空间细节(如人脸的五官关联),是 CNN-based U-Net 与 Transformer-based 模型的基础组件,但完全无法捕捉跨帧的时间依赖(如第 1 帧与第 2 帧的动作连贯性),不适用于动态视频建模。

  • (b) Local Temporal-Attention(局部时间注意力) 仅计算 "不同帧间相同空间位置 token 的注意力",例如第 1 帧 与第 2 帧 的 token 交互。这种方式虽能捕捉部分时间依赖(如同一位置的亮度变化),但局限于固定空间位置 ,无法处理跨空间位置的帧间关联(如第 1 帧 的手部与第 2 帧 的物体交互),导致视频动态连贯性不足。

  • (c) Global-Attention(全局注意力) 计算 "所有时空位置 token 间的注意力",既覆盖帧内跨空间位置,也覆盖跨帧关联,理论上能完整建模全局时空依赖。但由于自注意力的二次复杂度,当视频帧数()或分辨率()增加时,计算量会急剧上升(如 16 帧 256×256 视频的 token 数超过 10 万,二次复杂度会导致算力需求不可承受),难以应用于实际长视频或高分辨率场景

  • (d) Global-Mamba(全局 Mamba) 采用 Mamba 的扫描操作建模全局关联,通过 "空间优先扫描"(先按 排列 token,再按帧堆叠)覆盖所有时空位置。其线性复杂度大幅降低计算成本,且能捕捉长序列的全局依赖(如 16 帧视频的完整动作轨迹),但原文指出其核心局限 ------Mamba 扫描不直接计算 token 间的依赖关系,难以有效检测局部数据模式(如帧内小范围的细节变化),需与 Attention 机制互补。

二、核心方法:Matten 模型设计

Matten 的整体框架基于 latent diffusion 模型,核心创新在于将 Mamba 与 Attention 机制以多种方式融合,形成不同的模型变体,并通过自适应归一化等技术优化条件信息注入。

2.1 背景知识:Latent Diffusion 与 Mamba 基础

在深入模型设计前,需先明确两个核心基础组件:

2.1.1 Latent Diffusion Model(LDM)

LDM 通过预训练 VAE/VQ-VAE 将视频数据映射到低维 latent 空间,在 latent 空间中进行扩散与去噪过程,有效降低计算成本。其核心流程包括:

  1. 编码阶段 :输入视频 经编码器E转换为 latent 表示
  2. 扩散阶段 :向z中逐步添加噪声,生成含噪 latent 序列为时间步);
  3. 去噪阶段 :训练去噪网络(Matten 中为 Mamba-Attention 架构)预测中的噪声,目标函数为:,同时,引入学习的反向协方差,通过优化模型性能。
2.1.2 Mamba 的离散化与双向扩展

原始 Mamba 为 1D 连续时间 SSM,需通过离散化适配深度学习任务。其核心公式如下:

  • 连续时间 SSM

其中为 latent 状态,为状态转移参数。

  • 离散化(零阶保持法,ZOH) :通过时间尺度参数将连续参数转换为离散形式:离散化后的状态更新公式为:

为适配视频的空间建模需求,Matten借鉴Vision Mamba的设计,采用双向Mamba块:通过同时执行前向与后向SSM扫描,捕捉空间维度上的双向依赖关系,解决了原始1D Mamba空间感知能力弱的问题,结构如下图(图2)所示。

2.2 视频Latent表示与Token化

Matten首先对视频的 latent 表示进行处理,将其转换为适合Mamba与Attention处理的token序列:

  1. Latent 输入 :视频的 latent 表示为,其中为帧数,为帧高/宽,为通道数;
  2. Token化 :将分割并重塑为token序列,其中(借鉴Latte的分割策略),为token维度;
  3. 位置嵌入 :添加时空位置嵌入,最终模型输入为,确保模型捕捉时空位置信息。

2.3 四种Matten模型变体

为探索Mamba与Attention的最优融合方式,Matten设计了四种模型变体,每种变体针对不同的时空建模需求,具体结构如图3所示:

变体1:Global-Sequence Mamba Block(全局序列Mamba块)
  • 核心设计:对整个时空token序列执行3D Mamba扫描,采用"空间优先"(Spatial-First)的扫描顺序(先按空间位置排列token,再按帧堆叠);
  • 输入处理 :将重塑为,输入双向Mamba层;
  • 特点:专注于捕捉全局时空依赖,但缺乏局部细节建模能力,易忽略帧内或相邻帧的局部关联。
变体2:Spatial and Temporal Mamba Blocks Interleaved(时空Mamba块交错)
  • 核心设计:用Mamba块替代Transformer中的Attention模块,分为空间Mamba块与时间Mamba块两类;
  • 空间Mamba块 :处理相同时间索引的token(即单帧内的空间token),输入重塑为为单帧token数);
  • 时间Mamba块 :处理相同空间坐标的token(即跨帧的同一空间位置),输入重塑为
  • 特点:分别建模空间与时间维度的依赖,但未引入Attention机制,局部细节捕捉能力仍受限。
变体3:Global-Sequence Mamba + Spatial-Temporal Attention Interleaved(全局Mamba+时空Attention交错)
  • 核心设计:每个块按"空间Attention→时间Attention→全局Mamba扫描"的顺序串联,同时利用Attention的局部建模与Mamba的全局建模优势;
  • 空间Attention:计算单帧内token的自注意力,捕捉帧内局部空间关联;
  • 时间Attention:计算相同空间位置跨帧token的自注意力,捕捉局部时间关联;
  • 全局Mamba扫描:对整个序列执行Mamba扫描,捕捉全局时空依赖;
  • 特点:兼顾局部细节与全局关联,是Matten最终验证的最优变体,在实验中表现出最佳性能。
变体4:Global-Sequence Mamba + Temporal Attention Interleaved(全局Mamba+时间Attention交错)
  • 核心设计:在变体3的基础上去除空间Attention模块,仅保留时间Attention与全局Mamba扫描;
  • 动机:考虑到Mamba的空间优先扫描已能部分捕捉空间依赖,尝试通过移除空间Attention降低计算成本;
  • 特点:计算量低于变体3,但空间局部细节建模能力减弱,在空间复杂度高的场景(如人脸视频)中表现不佳。

2.4 条件信息注入:M-AdaN(Mamba Adaptive Normalization)

视频生成常需引入时间步(timestep)或类别(class)等条件信息,Matten对比了两种注入方式,并提出M-AdaN优化条件融合效果:

两种基础注入方式
  1. 条件Token(Conditional Tokens):将条件信息转换为token,直接添加到输入token序列中(借鉴DiS模型);
    • 缺点:易导致Mamba扫描中的"空间脱节",条件信息无法均匀传递到所有视频token。
  2. 自适应归一化(AdaN) :通过MLP层从条件信息C中计算归一化参数,对Mamba块的特征图进行归一化(借鉴StyleGAN的AdaIN):,其中为Mamba块的特征图,为归一化操作。
M-AdaN的优化设计

Matten在AdaN的基础上,结合Mamba块的残差连接,提出M-AdaN:

其中为残差权重,MambaScans为双向Mamba扫描操作。M-AdaN将条件信息通过归一化与残差连接深度融入Mamba块,确保条件信息均匀传递到所有token,实验证明其效果显著优于条件Token方式(图8b)。

2.5 理论分析:Mamba与Attention的复杂度对比

为量化验证Mamba的效率优势,论文对自注意力(SA)、前馈网络(FFN)与Mamba(SSM)的计算复杂度进行了理论分析,假设序列长度为J,隐藏层维度为D,SSM维度为N(固定为16),扩展维度为E=2:

模块 计算复杂度公式 复杂度类型 关键结论
自注意力(SA) 二次复杂度 序列长度J增大时,计算量急剧上升,不适用于长序列
前馈网络(FFN) 线性复杂度 计算量随J线性增长,但受影响较大
Mamba(SSM) 线性复杂度 时,),复杂度远低于SA,适合长序列

理论分析表明:

  • 对于长序列(如视频的全局时空序列,J通常远大于256),Mamba的计算效率显著高于自注意力;
  • 对于短序列(如单帧的空间token序列,J较小),Attention的计算成本更低,更适合局部建模。

这一结论为Matten的"局部Attention+全局Mamba"融合设计提供了理论支撑,也解释了为何变体3能在效率与质量间取得平衡。

三、实验验证与结果分析

为全面评估Matten的性能,论文在4个主流视频生成数据集上进行了大量实验,包括无条件/条件生成任务、消融实验与SOTA对比实验。

3.1 实验设置

3.1.1 数据集与预处理

实验采用4个常用视频生成数据集,统一预处理为16帧、256×256分辨率,采样间隔为3:

  • FaceForensics:人脸视频数据集,专注于面部表情与动作生成;
  • SkyTimelapse:天空延时视频数据集,包含云、日出日落等缓慢动态场景;
  • UCF101:人类动作视频数据集,包含跑步、跳舞等复杂动作;
  • Taichi-HD:太极动作视频数据集,需捕捉连贯的肢体动作。
3.1.2 评估指标

采用Fréchet Video Distance(FVD) 作为核心指标,FVD值越低,表明生成视频与真实视频的分布差异越小,质量越高。此外,通过FLOPs(浮点运算次数)评估模型效率。

3.1.3 基线模型

对比当前主流视频生成模型,涵盖GAN-based、Transformer-based、Diffusion-based等类型:

  • GAN-based:MoCoGAN、MoCoGAN-HD、DIGAN、StyleGAN-V、MoStGAN-V;
  • Transformer-based:VideoGPT、Latte;
  • Diffusion-based:PVDM、LVDM。

除非明确重新说明,所有相关数据均来自最新相关研究:Latte、StyleGAN-V、PVDM 或原始论文。

3.1.4 模型配置

Matten设计了4种不同规模的模型(遵循ViT/DiT的配置策略),用于验证扩展性:

模型规模 层数L 隐藏层维度D SSM维度N 参数数量(M)
Matten-S 12 384 16 35
Matten-B 12 768 16 164
Matten-L 24 1024 16 579
Matten-XL 28 1152 16 853

训练细节:采用AdamW优化器(学习率1e-4),仅使用水平翻转作为数据增强,前50k步与后100步分别采用0.99衰减率的EMA(指数移动平均),VAE编码器采用Stable Diffusion v1-4的预训练模型。

3.2 消融实验:关键设计的有效性验证

消融实验在SkyTimelapse数据集上进行,重点验证模型变体、条件注入方式与模型规模的影响。

3.2.1 模型变体对比(图8a)

实验保持各变体参数数量一致,对比FVD随训练迭代的变化:

  • 变体3表现最优:由于同时结合了Attention的局部建模与Mamba的全局建模,FVD值最低且收敛稳定;
  • 变体1/2表现较差:变体1仅依赖全局Mamba,忽略局部细节;变体2仅用Mamba替代Attention,缺乏全局关联捕捉;
  • 变体4略逊于变体3:移除空间Attention后,空间局部细节建模能力下降,导致FVD值上升。

这一结果验证了"局部Attention+全局Mamba"融合设计的必要性,也确定了变体3为后续实验的基准模型。

3.2.2 条件注入方式对比(图8b)

对比"条件Token"与"M-AdaN"两种条件注入方式:

  • M-AdaN显著更优:FVD值低于条件Token方式,且收敛速度更快;
  • 原因分析:M-AdaN通过归一化与残差连接,将条件信息均匀融入Mamba块,避免了条件Token导致的"空间脱节"问题,确保条件信息有效传递到所有时空token。
3.2.3 模型规模对性能的影响(图9)

对比4种规模模型的FVD变化:

  • 规模越大,性能越好:Matten-XL(853M参数)的FVD值最低,Matten-S(35M参数)最高,且随着训练迭代增加,差距逐渐扩大;
  • 扩展性验证:模型复杂度与生成质量呈直接正相关,证明Matten具有优秀的扩展性,为后续更大规模模型的设计提供了依据。

3.3 SOTA对比实验:性能与效率双优

3.3.1 定量结果

在4个数据集上,Matten(变体3,Matten-XL)与SOTA模型的FVD及FLOPs对比如下(FVD值越低越好,FLOPs越低越高效):

关键结论:

  1. 性能竞争力

    • 在SkyTimelapse(53.56 vs 59.82)、UCF101(210.61 vs 477.97)、Taichi-HD(158.56 vs 159.60)数据集上,Matten的FVD值优于或接近Transformer-based的Latte;
    • 在FaceForensics数据集上,Matten(45.01)略逊于Latte(34.00),但需注意Latte使用了图像预训练权重,而Matten因缺乏Mamba-based图像预训练模型,需从头训练(论文指出,若有预训练模型,性能可进一步提升)。
  2. 效率优势

    • Matten的FLOPs为4008G,较Latte(5572G)降低约25%,较LVDM(5718G)降低约30%;
    • 在同等性能下,Matten的计算成本显著低于Transformer-based模型,验证了Mamba架构的效率优势。
3.3.2 定性结果(图4-7,因图片较多,这里仅放了图4,其他图片可以去原文中查看)

定性结果展示了Matten与其他模型在4个数据集上的生成视频质量:

  • FaceForensics:Matten能准确捕捉面部表情变化(如微笑、眨眼),生成的人脸轮廓清晰,无明显模糊或变形;
  • SkyTimelapse:Matten生成的云层运动连贯自然,日出日落的光线变化平滑,无帧间跳跃;
  • UCF101:在跑步、跳舞等复杂动作场景中,Matten能保持人体姿态的连贯性,避免肢体扭曲或动作断裂;
  • Taichi-HD:Matten生成的太极动作舒展连贯,招式过渡自然,优于多数基线模型。

特别值得注意的是,在UCF101数据集上,Matten的FVD值(210.61)远低于Latte(477.97),定性结果也显示其在复杂动作建模上的优势,这得益于Mamba对长序列全局依赖的高效捕捉。

四、研究结论与未来展望

4.1 核心结论

  1. 架构有效性:融合Mamba与Attention的"局部-全局"协同架构(变体3)能有效平衡视频生成的质量与效率,Mamba负责全局时空依赖建模,Attention负责局部细节捕捉,二者互补提升性能。
  2. 效率优势:Matten在保证SOTA级生成质量的前提下,计算成本(FLOPs)较Transformer-based模型降低约25%,验证了Mamba架构在视频生成领域的效率潜力。
  3. 扩展性优秀:模型复杂度与生成质量呈直接正相关,更大规模的Matten模型(如Matten-XL)表现出更优性能,为后续模型缩放提供了明确方向。
  4. 条件注入优化:M-AdaN通过深度融合条件信息与Mamba块,显著提升条件生成性能,优于传统的条件Token方式。

4.2 局限性与未来方向

  1. 缺乏预训练模型:当前无公开的Mamba-based图像预训练模型,Matten需从头训练;未来若能利用Mamba图像预训练权重,可进一步提升视频生成质量与训练效率。
  2. 高分辨率扩展:实验主要集中在256×256分辨率,如何将Matten扩展到更高分辨率(如512×512)仍需探索,可能需要结合分层扩散或多尺度建模策略。
  3. 文本条件生成:论文未涉及文本到视频的生成任务;未来可将M-AdaN扩展为文本条件注入,结合CLIP等文本-图像对齐模型,实现文本驱动的视频生成。
  4. Mamba扫描策略优化:当前采用"空间优先"的扫描顺序,未来可探索更优的时空扫描策略(如"时间优先"或动态扫描顺序),进一步提升时空依赖建模能力。

五、总结

Matten作为融合Mamba与Attention的视频生成模型,创新性地解决了传统Transformer-based模型计算成本高、Mamba局部建模能力弱的问题。通过四种模型变体的探索,确定了"局部Attention+全局Mamba"的最优架构,并提出M-AdaN优化条件信息注入。实验结果表明,Matten在4个主流数据集上表现出SOTA级的生成质量,同时计算效率提升约25%,为视频生成领域提供了一种高效且可扩展的新范式。

未来,随着Mamba-based预训练模型的发展、高分辨率建模技术的突破以及文本条件生成的扩展,Matten架构有望在更广泛的视频生成场景中发挥作用,推动视频生成技术向更高质量、更高效率、更多样化的方向发展。

相关推荐
m0_650108249 小时前
【论文精读】GenTron:基于 Transformer 的扩散模型革新图像与视频生成
人工智能·论文精读·transformer扩散模型·文生图(t2i)·文生视频(t2v)
m0_6501082413 小时前
【论文精读】VITRON:统一的像素级视觉大语言模型
计算机视觉·论文精读·视觉理解·视觉生成·多模态通用模型·视觉分割·视觉编辑
m0_6501082414 小时前
【论文精读】AIGCBench:AI 图像生成视频(I2V)的全面评估基准
计算机视觉·视频生成·论文精读·多模态ai·图生视频评测基准·图像到视频(i2v)
m0_650108242 天前
【论文精读】Animate Anyone:实现角色动画的一致性与可控性图像到视频合成
计算机视觉·扩散模型·论文精读·图像到视频合成·角色动画·姿态引导器·可控生成
m0_650108242 天前
【论文精读】FDGaussian:基于几何感知扩散模型的单图快速高斯溅射 3D 重建
计算机视觉·扩散模型·论文精读·3d重建·高斯溅射
flying_13143 天前
图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)
人工智能·神经网络·图神经网络·注意力机制·gnn·gat·图注意力网络
m0_650108243 天前
【论文精读】EvalCrafter:文本到视频生成模型的全面评测框架
扩散模型·论文精读·生成式 ai·文本到视频生成(t2v)·模型评测基准·客观指标体系·人类偏好对齐
m0_650108245 天前
【论文精读】Latent-Shift:基于时间偏移模块的高效文本生成视频技术
人工智能·论文精读·文本生成视频·潜在扩散模型·时间偏移模块·高效生成式人工智能
m0_650108245 天前
【 论文精读】VIDM:基于扩散模型的视频生成新范式
计算机视觉·扩散模型·视频生成·论文精读·隐式条件建模