《Video Mamba Suite》论文笔记（3）Mamba作为时序适配器的作用

原文翻译

4.3 Mamba as Video Temporal Adapter（时序自适应建模）

Tasks and datasets.除了评估 Mamba 在后时间建模中的性能外，我们还评估了它作为视频时间适配器的有效性。通过对自我中心数据[29,49]进行视频-文本对比学习，对双塔模型进行预训练，该数据集包含4M个带有细粒度叙述的视频片段。为了评估，我们考虑了 Epic-Kitchens-100 数据集 [13] 上的zero-shot/fine-tuned多实例检索和fine-tuned动作识别，以及 EgoSchema 数据集上的zero-shot长格式问答 [56]。

Baseline and competitor.TimeSformer[6]采用划分的时空注意块分别对视频中的空间和时间关系进行建模。在 TimeSformer 之后，我们引入双向 Mamba 块作为时间适配器来替换 vanilla 时间自注意力以改进划分的时空交互。TimeSformer 中的空间注意力层保持不变，以便进行公平比较。在这里，我们使用 ViM [96] 块作为时间模块，并将结果模型称为 TimeMamba。为了一致性，我们重新实现了 Transformer 基线并采用一致的适应方法，该方法涉及添加一个初始值为零的 tanh 门控机制 [37]。这确保了新模型的输出与原始模型的输出相匹配。值得注意的是，标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2)，其中C指的是特征维度。因此，我们将 ViM 块的扩展比 E 设置为 1，将其参数量减少到 3.25C2 以进行公平比较。除了 TimeSformer [6] 使用的普通残差连接形式外，我们还探索了 Frozen 风格的 [3] 适应方式。我们在图 4 中列出具有不同划分时空交互的块。我们使用 AVION [93] 代码库训练模型 4 帧输入，其余设置不变 [94] 和 [93]。该模型使用通过图像-文本对比学习预训练的CLIP-B16[61]进行初始化。

Zero-shot multi-instance retrieval.我们首先在表 8 中评估具有划分时空交互操作的不同模型。我们复制的 Frozen 样式残差连接实现了与 LaviLa [94] 一致的结果。在比较 vanilla 和 Frozen [3] 风格时，我们观察到 Frozen 风格始终产生更好的结果（ID4 与 ID5、ID6 与 ID7）。此外，在相同的自适应方法下，基于 ViM 的时间模块始终优于基于注意力的时间模块（ID4 与 ID6、ID5 与 ID7）。值得注意的是，与时间自注意力块相比，我们使用的 VIM 时间块的参数更少，突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。此外，我们超越了ViM的时间建模能力，验证了时空ViM块。时空ViM块将时间ViM块替换为整个视频序列的联合时空建模。令人惊讶的是，我们观察到时空 ViM 块虽然在时空级别引入了全局建模，但实际上会导致性能下降（ID7 vs ID8)我们假设基于扫描的时空可能会损害预先训练的空间注意块产生的空间特征分布。

Fine-tuned multi-instance retrieval and action recognition.我们继续在Epic-Kitchen-100[13]数据集上用16帧微调预训练模型，用于多实例检索和动作识别。在表 9 中，我们观察到 TimeMamba 大大优于 TimeSformer。特别是，TimeMamba 在动词识别的背景下超过了 TimeSformer 2.8 分，证明了它在时间建模中的有效性。

Zero-shot long-form video QA.我们对模型在 EgoSchema [56] 上的长格式视频问答性能进行了进一步评估。如表10所示，当Ego4D[29]上进行预训练时，TimeSformer和TimeMamba都优于大规模预训练模型[85,88]的性能。此外，我们增加了测试帧数来探索 ViM 块长形式时间建模能力的影响。如图 5 所示，尽管两个模型都在 4 帧上进行了预训练，但 TimeMamba 和 TimeSformer 的性能随着帧的增加而稳步提高。同时，当使用 8192 帧时可以观察到显着的改进。当输入帧超过 32 时，TimeMamba 通常比 TimeSformer 受益于更多的帧，这表明时间 ViM 块相对于时间自注意力的优越性。