1. 什么是多模态学习?
多模态学习(Multimodal Learning) 是一种利用来自多种感官或交互方式的数据进行联合建模与学习的方法。这些数据模态通常包括:
- 文本(如新闻、对话)
- 图像(如照片、图表)
- 音频(如语音、环境声)
- 视频(融合视觉与听觉)
- 甚至 触觉、嗅觉 (在特定场景中)
人类天然通过多感官协同理解世界,而多模态学习的目标正是赋予人工智能类似的跨模态感知与理解能力。通过融合不同模态的信息,模型可以更全面、鲁棒地完成感知、推理与决策任务。
关键价值 :利用模态间的互补性 与冗余性,提升模型的泛化能力、鲁棒性和语义理解深度。
2. 模态表示(Modality Representation)
2.1 什么是模态?
"模态"(Modality)指信息产生或感知的方式。我们生活在一个高度多模态的世界------视觉、听觉、语言等信息交织共存。当一个任务或数据集同时包含两种及以上模态时,即构成多模态问题。
2.2 模态表示的目标
将原始多模态数据(如句子、图片、声波)转换为计算机可处理的数值表示,以便进行特征提取、融合与建模。
2.3 主流模态表示方法
| 模态类型 | 表示方法 | 代表性技术 |
|---|---|---|
| 文本 | 从离散符号到语义向量 | • One-hot 编码 • 词袋模型(Bag-of-Words)与 n-gram • Word2Vec / GloVe • 预训练语言模型(如 BERT、RoBERTa) |
| 视觉 | 图像/视频的深层特征 | • 图像 :CNN 架构(LeNet、AlexNet、VGG、ResNet 等) • 视频:CNN + RNN/LSTM/Transformer(捕捉时空特征) |
| 音频 | 声学特征与语义嵌入 | • 频谱图(Spectrogram)、MFCC • DNN / CNN / RNN • 预训练音频模型(如 Wav2Vec、AudioCLIP) |
✅ 当前趋势 :基于大规模预训练的统一语义嵌入(如 CLIP)正成为多模态表示的主流范式。
3. 表征学习(Representation Learning)
表征学习旨在从原始数据中自动学习高效、紧凑且语义丰富的特征表示。在多模态场景中,其核心目标是:
- 保留各模态的关键信息
- 支持跨模态交互与对齐
- 为下游任务(如分类、检索、生成)提供通用表征基础
4. 多模态联合表示(Multimodal Joint Representation)
将来自不同模态的数据映射到统一的语义向量空间中,使得不同模态的样本在该空间中可直接比较、融合或交互。
实现方式:
- 神经网络融合架构(如多流网络、跨模态注意力)
- 概率图模型(如多模态隐变量模型)
- 对比学习框架(如 CLIP:通过图像-文本对的对比损失对齐语义)
优势:
- 支持跨模态检索(如"以图搜文"、"以文搜图")
- 适用于多模态情感分析 、视听语音识别 、视觉问答(VQA) 等任务
5. 多模态融合(Multimodal Fusion)
融合策略决定了如何整合不同模态的信息。根据融合发生的阶段,可分为三类:
5.1 数据级融合(Data-Level Fusion)
- 别名:像素级融合、原始数据融合
- 做法:直接拼接或叠加原始输入(如 RGB + 深度图)
- 适用场景:模态间高度对齐且互补(如红外+可见光图像融合)
⚠️ 缺点:对噪声敏感,计算开销大,且要求模态严格同步。
5.2 特征级融合(Feature-Level Fusion)
- 做法:各模态先独立提取特征,再在中间层融合(拼接、加权、注意力等)
- 优势:灵活性高,保留模态特性,是当前最主流方式
- 典型应用:图像-文本情感分析、多模态医疗诊断
5.3 决策级融合(Decision-Level Fusion)
- 做法:各模态独立做出预测,再融合决策结果(投票、加权平均、元学习)
- 适用场景:模态异构性强、难以早期融合(如多传感器系统、专家模型集成)
| 融合层级 | 信息保留度 | 计算复杂度 | 对模态同步要求 |
|---|---|---|---|
| 数据级 | 高 | 高 | 严格 |
| 特征级 | 中高 | 中 | 中等 |
| 决策级 | 低 | 低 | 宽松 |
6. 跨模态对齐(Cross-Modal Alignment)
跨模态对齐旨在建立不同模态数据在特征或语义层面的对应关系,是实现有效融合的前提。
6.1 显式对齐(Explicit Alignment)
直接建模模态间的对应关系。
(1)无监督对齐
- 典型方法 :
- 典型相关分析(CCA):最大化两组变量间的相关性(如图像特征 vs 文本特征)
- 自编码器 + 循环一致性:如 CycleGAN 思想用于图像-文本对齐
- 优点:无需标注数据
- 局限:依赖数据内在结构,对齐精度有限
(2)监督对齐
- 典型方法 :
- DeViSE:将图像嵌入与词向量空间对齐,实现零样本分类
- 多任务学习:联合训练图像分类与文本描述生成,共享表示层
- 优势:对齐精准,适合有标注场景
6.2 隐式对齐(Implicit Alignment)
不显式定义对应关系,而是通过模型机制自动学习对齐。
(1)注意力对齐
- 利用注意力机制动态计算跨模态权重
- 代表模型 :
- Transformer:在图像描述生成中,文本解码器关注相关图像区域
- BERT-based 跨模态模型(如 ViLBERT、UNITER):通过跨模态自注意力对齐图文语义
(2)语义对齐
- 在高层语义空间中建立模态等价性
- 代表方法 :
- CLIP:通过对比学习,在海量图文对上训练通用语义对齐
- 图神经网络(GNN):构建多模态知识图谱,学习节点间语义关联
💡 现代趋势 :基于大规模预训练的隐式语义对齐(如 CLIP、ALIGN)已成为多模态基础模型的核心范式。
总结
多模态机器学习通过融合文本、图像、音频等多源信息,显著提升了 AI 系统对复杂现实世界的理解能力。其关键技术包括:
- 各模态的有效表示
- 联合表征学习
- 多层级融合策略
- 跨模态对齐机制
随着 CLIP、Flamingo、GPT-4V 等多模态大模型的兴起,统一语义空间 + 大规模预训练 + 隐式对齐 正成为推动 MMML 发展的核心路径。
未来方向:更高效的跨模态推理、少样本/零样本泛化、可解释性对齐、具身多模态智能。