技术栈

模态融合

IFTICing
7 个月前
人工智能·pytorch·python·神经网络·学习·模态融合
【文献阅读】Attention Bottlenecks for Multimodal Fusion在多模态视频分类中,将各模态的最终表示或预测进行后期融合(“后期融合”)仍然是主流范式。为此,本文提出了一种基于 Transformer 的新型架构,该架构使用“融合瓶颈”在多个层次进行模态融合。与传统的成对自注意力机制相比,该模型强制不同模态之间的信息通过少量的瓶颈潜在变量进行传递,要求模型在每个模态中整理和凝聚相关信息,并共享必要的内容。这种策略在提高融合性能的同时,还减少了计算成本。