多模态机器学习综述论文|Multimodal Machine Learning: A Survey and Taxonomy

1. 引言

多模态机器学习是一个跨学科领域，它涉及到从多种感官模态（如视觉、听觉、触觉等）中提取信息，并构建能够处理和关联这些信息的模型。这种学习方式对于人工智能理解复杂世界至关重要。

名词解释：

模态Modality：是指某事发生或被体验的方式感觉模态"sensory

modalities"：代表我们交流和感知的主要渠道，如视觉或触觉

异质性heterogeneity：例如，语言往往是象征性的，而声音和视觉模态则会表现为信号。

应用：音视频对话内容识别、多媒体内容索引检索、多模态交互

2. 多模态表示

**好表示特征：**平滑性、时空相干性、稀疏性和自然聚类等。表征空间中的相似性应该反映相应概念的相似性，即使在某些模态缺失的情况下，表征也应该容易获得，最后，在观察到的模态缺失的情况下，可以填补缺失的模态。

多模态是单模态表示的简单串联吗？有的是，但趋势是不再是。

多模态表示是构建有效多模态模型的基础。它涉及到如何将不同模态的数据整合成可以被机器学习算法处理的格式。主要分为两种类型：

**联合表示（Joint Representation）：**将不同模态的数据合并到同一个空间中。这种方法在训练和推理阶段都需要所有模态的数据。它的优点在于能够直接在同一个空间中处理所有模态的信息，但缺点是对于缺失模态的数据不够灵活
。
**协调表示（Coordinated Representation）：**为每种模态创建独立的表示，但通过某些约束（如相似性或结构约束）使它们在协调空间中保持一致。这种方法的优点是能够更好地处理模态间的时间不一致性，但面临的挑战是如何设计有效的协调机制以确保模态间的一致性

3. 多模态翻译

多模态翻译关注如何将一个模态的信息转换为另一个模态。这包括：

基于示例的方法（Example-based）：通过检索与输入最相似的翻译样本来实现。这种方法的优点是实现简单，但缺点是依赖于大规模的标注数据，且可能缺乏创造性。
生成式方法（Generative）：构建模型以生成翻译。这种方法的优点是能够产生新的翻译，但面临的挑战是如何确保生成的翻译在语义上与原始模态保持一致。

4. 多模态对齐

多模态对齐旨在识别不同模态间元素的直接关系。这分为：

显式对齐（Explicit Alignment）：明确地对齐模态间的子组件。这种方法的优点是能够精确地识别模态间的对应关系，但挑战在于需要大量的标注数据来训练对齐模型。
隐式对齐（Implicit Alignment）：作为其他任务的中间步骤。这种方法的优点是不需要显式的对齐标注，但面临的挑战是如何设计模型以隐式地学习对齐信息。

5. 多模态融合

多模态融合是整合多个模态的信息以进行预测的过程。它包括：

模型不可知方法（Model-agnostic Approaches）：如早期融合、晚期融合和混合融合。这些方法的优点是实现简单，但缺点是可能无法充分利用模态间的互补信息。
基于模型的方法（Model-based Approaches）：如基于核的方法、图形模型和神经网络。这些方法的优点是能够更灵活地处理模态间的交互，但面临的挑战是如何设计模型以有效地融合不同模态的信息。

6. 多模态共学习

共学习利用资源丰富的模态来帮助资源贫乏的模态建模。这包括：

平行数据方法（Parallel Data）：模态间有直接联系。这种方法的优点是能够直接利用模态间的关联来提升学习效果，但挑战在于如何平衡不同模态的贡献。
非平行数据方法（Non-parallel Data）：模态间没有直接联系，但共享类别或概念。这种方法的优点是不需要模态间的直接对应关系，但面临的挑战是如何有效地利用模态间的共享信息。
混合数据方法（Hybrid Data）：通过共享模态或数据集桥接非平行模态。这种方法的优点是能够结合平行和非平行数据的优点，但挑战在于如何设计桥接机制以实现有效的信息传递。

7. 结论

多模态机器学习是一个充满活力的领域，它通过整合多种感官模态的信息来提高人工智能的感知和理解能力。本文提出的分类法为研究人员提供了一个框架，以理解当前的研究并识别未来研究中未充分研究的挑战。通过这种分类法，我们可以更好地探索和解决多模态数据的表示、翻译、对齐、融合和共学习等问题。未来的研究可能会集中在提高多模态模型的泛化能力、处理模态间的时间不一致性、以及开发能够更好地利用补充信息而非仅仅是互补信息的模型。此外，共学习领域的研究可能会进一步探索如何有效地利用一个模态的知识来增强另一个模态的模型性能。

思维导图 （来源网络，如有侵权联系删除）