技术栈
模态融合
IFTICing
1 个月前
人工智能
·
pytorch
·
python
·
神经网络
·
学习
·
模态融合
【文献阅读】Attention Bottlenecks for Multimodal Fusion
在多模态视频分类中,将各模态的最终表示或预测进行后期融合(“后期融合”)仍然是主流范式。为此,本文提出了一种基于 Transformer 的新型架构,该架构使用“融合瓶颈”在多个层次进行模态融合。与传统的成对自注意力机制相比,该模型强制不同模态之间的信息通过少量的瓶颈潜在变量进行传递,要求模型在每个模态中整理和凝聚相关信息,并共享必要的内容。这种策略在提高融合性能的同时,还减少了计算成本。