模态融合

多模态融合实战步骤数据收集：按模态分类收集相关数据（如图像、文本、音频），确保数据关联性（如同一实体的不同表示）质量检查：

【文献阅读】Attention Bottlenecks for Multimodal Fusion在多模态视频分类中，将各模态的最终表示或预测进行后期融合（“后期融合”）仍然是主流范式。为此，本文提出了一种基于 Transformer 的新型架构，该架构使用“融合瓶颈”在多个层次进行模态融合。与传统的成对自注意力机制相比，该模型强制不同模态之间的信息通过少量的瓶颈潜在变量进行传递，要求模型在每个模态中整理和凝聚相关信息，并共享必要的内容。这种策略在提高融合性能的同时，还减少了计算成本。

我是有底线的