《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用

原文翻译

4.3 Mamba as Video Temporal Adapter(时序自适应建模)

Tasks and datasets.除了评估 Mamba 在后时间建模中的性能外,我们还评估了它作为视频时间适配器的有效性。通过对自我中心数据[29,49]进行视频-文本对比学习,对双塔模型进行预训练,该数据集包含4M个带有细粒度叙述的视频片段。为了评估,我们考虑了 Epic-Kitchens-100 数据集 [13] 上的zero-shot/fine-tuned多实例检索和fine-tuned动作识别,以及 EgoSchema 数据集上的zero-shot长格式问答 [56]。

Baseline and competitor.TimeSformer[6]采用划分的时空注意块分别对视频中的空间和时间关系进行建模。在 TimeSformer 之后,我们引入双向 Mamba 块作为时间适配器来替换 vanilla 时间自注意力以改进划分的时空交互。TimeSformer 中的空间注意力层保持不变,以便进行公平比较。在这里,我们使用 ViM [96] 块作为时间模块,并将结果模型称为 TimeMamba。为了一致性,我们重新实现了 Transformer 基线并采用一致的适应方法,该方法涉及添加一个初始值为零的 tanh 门控机制 [37]。这确保了新模型的输出与原始模型的输出相匹配。值得注意的是,标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2),其中C指的是特征维度。因此,我们将 ViM 块的扩展比 E 设置为 1,将其参数量减少到 3.25C2 以进行公平比较。除了 TimeSformer [6] 使用的普通残差连接形式外,我们还探索了 Frozen 风格的 [3] 适应方式。我们在图 4 中列出具有不同划分时空交互的块。我们使用 AVION [93] 代码库训练模型 4 帧输入,其余设置不变 [94] 和 [93]。该模型使用通过图像-文本对比学习预训练的CLIP-B16[61]进行初始化。

Zero-shot multi-instance retrieval.我们首先在表 8 中评估具有划分时空交互操作的不同模型。我们复制的 Frozen 样式残差连接实现了与 LaviLa [94] 一致的结果。在比较 vanilla 和 Frozen [3] 风格时,我们观察到 Frozen 风格始终产生更好的结果(ID4 与 ID5、ID6 与 ID7)。此外,在相同的自适应方法下,基于 ViM 的时间模块始终优于基于注意力的时间模块(ID4 与 ID6、ID5 与 ID7)。值得注意的是,与时间自注意力块相比,我们使用的 VIM 时间块的参数更少,突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。此外,我们超越了ViM的时间建模能力,验证了时空ViM块。时空ViM块将时间ViM块替换为整个视频序列的联合时空建模。令人惊讶的是,我们观察到时空 ViM 块虽然在时空级别引入了全局建模,但实际上会导致性能下降(ID7 vs ID8)我们假设基于扫描的时空可能会损害预先训练的空间注意块产生的空间特征分布。

Fine-tuned multi-instance retrieval and action recognition.我们继续在Epic-Kitchen-100[13]数据集上用16帧微调预训练模型,用于多实例检索和动作识别。在表 9 中,我们观察到 TimeMamba 大大优于 TimeSformer。特别是,TimeMamba 在动词识别的背景下超过了 TimeSformer 2.8 分,证明了它在时间建模中的有效性。

Zero-shot long-form video QA.我们对模型在 EgoSchema [56] 上的长格式视频问答性能进行了进一步评估。如表10所示,当Ego4D[29]上进行预训练时,TimeSformer和TimeMamba都优于大规模预训练模型[85,88]的性能。此外,我们增加了测试帧数来探索 ViM 块长形式时间建模能力的影响。如图 5 所示,尽管两个模型都在 4 帧上进行了预训练,但 TimeMamba 和 TimeSformer 的性能随着帧的增加而稳步提高。同时,当使用 8192 帧时可以观察到显着的改进。当输入帧超过 32 时,TimeMamba 通常比 TimeSformer 受益于更多的帧,这表明时间 ViM 块相对于时间自注意力的优越性。

相关推荐
c0d1ng3 小时前
二月第二周周报(论文阅读)
论文阅读
DuHz3 小时前
通过超宽带信号估计位置——论文精读
论文阅读·人工智能·机器学习·自动驾驶·汽车
Biomamba生信基地3 小时前
《Science Advances》11例样本图谱文章,空间转录组揭示特发性肺纤维化病理特征
论文阅读·空间转录组分析
觉醒大王2 天前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
觉醒大王2 天前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_2 天前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_650108243 天前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108243 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手3 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
源于花海4 天前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练