论文笔记：交替单模态适应的多模态表征学习

整理了CVPR2024 Multimodal Representation Learning by Alternating Unimodal Adaptation）论文的阅读笔记

背景
MLA框架
实验
- [Q1 与之前的方法相比，MLA能否克服模态懒惰并提高多模态学习性能?](#Q1 与之前的方法相比，MLA能否克服模态懒惰并提高多模态学习性能?)
- [Q2 MLA在面临模式缺失的挑战时表现如何?](#Q2 MLA在面临模式缺失的挑战时表现如何?)
- [Q3 所有模块是否可以有效提高性能?](#Q3 所有模块是否可以有效提高性能?)
- [Q4 MLA如何改变多模态学习中的模态差距？](#Q4 MLA如何改变多模态学习中的模态差距？)

背景

多模态学习集成了来自不同模态的数据，在人工智能中起着关键作用。但是现有的多模态学习方法存在一个普遍的问题，一些模态比其他模态更占优势，模型将针对这些主导模态进行优化，并倾向于忽略其他模态，从而导致次优性能，这被称之为模态懒惰问题。

图一是模态懒惰问题的概述，虽然多模态联合训练为跨模态交互学习提供了机会，但模型容易饱和，忽略了难以学习但对泛化来说很重要的单模态特征。那么如何解决这种模态懒惰问题，进一步释放多模态学习的潜力，就成为了一个必须要思考的问题。

MLA框架

为了解决这一挑战，本文提出了一个多模态学习与交替单模态适应的方法，称为MLA。把多模态的传统联合训练方案重新构建到交替的单模态学习框架中，从而将模态之间的干扰最小化。

具体地说，MLA中每个模态的预测函数包括一个模态特定的编码器和一个跨所有模态的共享头。在交替单模态学习中，根据每个模态的预测函数交替优化，以消除模态之间的干扰。同时，共享头部跨模态在不同模态之间不断优化，捕获跨模态信息。作者提出单模态交替学习的动机是认为信息较少的模态在与其他模态一起学习时优化不足，这是导致融合表现不佳的原因。

在这个优化过程中，当遇到一个新的模态时，很容易丢失先前从其他模态学习到的信息，这被称为模态遗忘。为了解决这个问题，MLA为共享头部引入了梯度修改机制，以鼓励模态之间的梯度方向正交化。

图一（b）是测试阶段，在学习了特定模态编码器和共享头部的权重之后，MLA通过一个测试时动态模态融合机制来整合多模态信息。衡量每个模态的重要性依赖于测量与该模态相关的预测中观察到的不确定性水平。这种机制的动机是这样一个假设:当一种模态在预测中表现出更高的不确定性时，它更容易产生不正确的预测，因此，MLA利用预测不确定性衡量每个模态重要性。熵 e m , r e_{m,r} em,r越高，表明预测的置信度越低，导致聚变过程中的重要权值越小。

实验

在实验部分，作者提出了以下几个问题:Q1:与之前的方法相比，MLA能否克服模态懒惰并提高多模态学习性能?Q2: MLA在面临模式缺失的挑战时表现如何?Q3:所有模块是否可以有效提高性能?Q4:MLA如何改变多模态学习中的模态差距。

Q1 与之前的方法相比，MLA能否克服模态懒惰并提高多模态学习性能?

本文利用一组具有不同任务的五个数据集来评估具有完整模式的学习性能:

CREMA-D[6]和Kinetic-Sound (KS)[3]属于音视频数据集的范畴。CREMA-D提供描述各种情绪的音频和视频记录，做情感分类任务。而KS将视频和音频数据结合起来用于对象和动作识别。
Food-101[39]和MVSA[25]都是图像-文本数据集。food -101包含超过10万种食物，图片附有相应的文字，进行食物分类任务。MVSA通过使用文本和图像数据，专注于多媒体帖子的情感分类。
IEMOCAP[5]是一个音频-图像文本数据集，在自然对话中捕获音频、视觉和文本数据中的情感。

从实验结果中，我们可以观察到。在众多数据集上，除了后期融合之外的方法，优模态和劣模态性能之间的性能差异非常显著。这说明大多数传统的融合方法都面临着模态惰性的挑战。后期融合通过在专门训练对每个模态的编码器在一定程度上减轻了模态惰性，但在集成来自所有模态的信息时，它无法提供令人满意的性能。这种限制是因为它无法有效地捕获跨模式信息。在所有场景中，MLA的表现始终优于所有其他方法。这证明了MLA通过充分利用每个模态的信息和捕获跨模态知识，有效地解决了模态懒惰问题，提高了多模态学习性能

Q2 MLA在面临模式缺失的挑战时表现如何?

进一步评估缺少模态的数据集的性能，模态缺失被视为模态懒惰的极端情况。对IEMOCAP数据集中的训练和测试数据应用基于百分比的掩码，随机掩盖每个样本的每个模态。

我们可以观察到：随着模态缺失率的增加，所有方法的性能都有所下降。这正是我们所期望的，因为与仅使用部分模态数据相比，使用所有模态数据往往会提高性能。MLA在所有缺失率上的表现始终优于其他基线，包括这些后期融合方法和专门为解决缺失模式(例如MMIN)而设计的方法。这些结果突出了MLA在解决模态懒惰挑战方面的有效性，即使在缺少模态学习的极端情况下也很强。

Q3 所有模块是否可以有效提高性能?

图三展示了消融实验的结果，其中，HGM是梯度修正，DF是动态融合。通过梯度修正的方法更新共享头权重可以提高仅使用单一模态和多模态信息的性能。这种改善是因为减轻模态遗忘的影响可以更好地整合跨模态信息，有利于单模态和多模态的学习过程。

使用测试时间动态融合机制可以显著促进多模态学习过程。因为测试时间动态融合考虑了模态预测的不确定性，利用预测不确定性度量测试样例上模态的重要性，使模型能够更准确地融合多模态信息。

综合两种策略后，MLA表现出最佳性能

Q4 MLA如何改变多模态学习中的模态差距？

图二是MLA在KS数据集上的测试准确度的可视化，随着音频或视频训练数据中缺失模态的比例而变化。

我们可以观察到，MLA中单模态学习的表现不受其他模态缺失的影响。在QMF中，一种模态的缺失会对另一种模态的表现产生负面影响。这些发现表明采用交替优化方法可以有效地解决模态惰性问题。

在多模态学习中存在模态间隙，就是不同的模态信息位于嵌入空间内两个完全独立的区域。这种模态差距与模型性能相关，以往的研究表明，增加模态差距可以在某种程度上提高多模态学习中的分类性能。图三将Food101数据集中的文本和视觉模态之间的模态差距可视化，与串联的方法比较，MLA导致了更大的模态差距，这表明不同的模态变得更容易区分，从而导致更强的性能。