Abstract
在多模态视频分类中,将各模态的最终表示或预测进行后期融合("后期融合")仍然是主流范式。为此,本文提出了一种基于 Transformer 的新型架构,该架构使用"融合瓶颈"在多个层次进行模态融合。与传统的成对自注意力机制相比,该模型强制不同模态之间的信息通过少量的瓶颈潜在变量进行传递,要求模型在每个模态中整理和凝聚相关信息,并共享必要的内容。这种策略在提高融合性能的同时,还减少了计算成本。
Introduction
多模态的挑战:
(i)模态之间的学习动态差异;
(ii)不同的噪声拓扑结构,有些模态流在当前任务中包含比其他模态更多的信息;
(iii)专门化的输入表示。
音频和视觉输入表示之间的差异尤为明显------许多最先进的音频分类方法依赖于短时傅里叶分析生成对数梅尔频谱图,并经常将其作为输入用于为图像设计的 CNN 架构(C-Former)。这些时频表示与图像的分布不同------多个声学对象可以在同一频率上具有能量,而 CNN 的平移不变性在这里可能不再是理想的属性(声学对象可以在时间上发生平移,而频率上的平移则可能完全改变其含义)。相反,视频中的视觉流是三维的(两个空间维度和一个时间维度),虽然图像的不同空间区域对应于不同的对象,但多个帧之间存在高冗余性,这也是一个独特的挑战。因此,输入表示以及神经网络架构和基准测试在不同模态间往往差异巨大。为了简化,多模态融合的主流范式通常采用一种临时的方案,即通过输出表示或分数整合单独的音频和视觉网络 ,也就是所谓的"后期融合(分数融合) "。
"早期融合"模型允许注意力在图像的不同空间和时间区域之间自由流动,以及在音频频谱图的频率和时间维度之间流动。虽然从理论上具有吸引力,但假设在模型的所有层次进行完整的成对注意力并非必要,因为音频和视觉输入包含了密集、细粒度的信息,其中大部分是冗余的。这样的模型也无法很好地扩展到较长的视频,因为成对注意力与标记序列长度呈二次复杂度增长。
为了解决早期融合的问题,本文提出了两种方法来限制模型中的注意力流动:
第一种方法:遵循多模态学习中的常见范式,即将跨模态的流动限制在网络的后期层次,让早期层专注于学习和提取单模态模式。因此,这被称为"中期融合"(图1,左中),引入跨模态交互的层被称为"融合层"。我们将这种方法与"早期融合"(所有层都为跨模态)和"后期融合"(所有层都为单模态)这两个极端版本进行了对比。
第二个想法:(也是主要贡献)是限制层内标记之间的跨模态注意力流动。通过允许模态内部的自由注意力流动,但强制模型在共享信息之前,先从每个模态中整理和"凝聚"信息。核心思想是在层内引入一小组潜在的融合单元,形成一个"注意力瓶颈",跨模态的交互必须通过这一瓶颈进行。
这种"瓶颈化"的版本命名为Multimodal Bottleneck Transformer(MBT)。贡献包括:
(i)MBT通过紧密的融合"瓶颈"限制了潜在单元之间的跨模态信息流动,迫使模型在每个模态中收集和"凝聚"最相关的输入(因此只分享必要的信息与其他模态)。这避免了完整成对注意力的二次扩展成本,并以更少的计算实现了性能提升;
(ii)将 MBT 应用于图像和频谱图块(图2),并探讨了与融合层、输入采样和数据规模相关的多种消融;
(iii)在多个流行的音视频基准(包括 AudioSet 、Epic-Kitchens100 和 VGGSound )上设定了视频分类的新标准。在 Audioset 数据集上,性能超过了当前的最新水平,平均精度提升了5.9 mAP(相对提升12.7%)。
The ViT and AST architectures
Multimodal transformer------three different token fusion strategies
Fusion via vanilla self-attention
将常规的 Transformer 应用于多模态输入。给定一个长度为 t 秒的视频片段,均匀采样 F 帧 RGB 图像,并将音频波形转换为单个频谱图。然后按照 ViT中提出的编码方法,分别对每一帧图像和频谱图进行嵌入,并将所有tokens一起连接成一个单一的序列 。
Fusion with modality-specific parameters
即当参数一样时,就和第一种融合一样。
Fusion via attention bottlenecks
保持网络中的瓶颈标记数量远小于每个模态的潜在单元总数,B远小于 N v N_v Nv与 N a N_a Na,这种方式在提高或保持多模态融合性能的同时,降低了计算复杂度。
Where to fuse: early, mid and late
在多模态学习中,一个常见的范式是限制网络的早期层专注于单模态处理,并仅在后期层引入跨模态连接。如果我们相信较低层负责处理低级特征,而较高层则专注于学习语义概念,这在概念上是直观的------例如,图像中的边缘和角等低级视觉特征可能没有特定的声音特征,因此可能无法从与音频的早期融合中受益。