一、前言:从单模态到多模态的时代
深度学习的发展轨迹,其实是一条不断拓宽「输入维度」的曲线。
从最早的 图像识别(CNN) 到 语音识别(RNN、CTC) ,再到 自然语言处理(Transformer),每一个阶段都代表了人类在不同模态上取得的突破。
但人类的智能并不是分裂的。
我们看图会说出图里的东西,我们听到声音能联想到场景,我们读到文字会浮现画面。
这种「跨模态」的联想能力,正是人工智能长期以来所追求的终极目标之一。
而多模态学习(Multimodal Learning),正是连接这些孤立感知模块的桥梁。
它试图让模型同时理解文字、图像、音频、视频,甚至动作与物理世界。
在这一篇,我们会系统地讲清楚:
-
多模态模型的核心思想;
-
融合方式(早期融合、后期融合、跨模态对齐);
-
典型架构(CLIP、ALIGN、BLIP、Flamingo、GPT-4V等);
-
多模态预训练的技术细节;
-
实际应用与未来趋势。
本文不讲神话,也不谈玄学,而是希望帮你从工程与直觉的角度,真正理解"多模态"的价值与难点。
二、什么是多模态学习
"模态"(modality)指的是信息的来源类型 。
例如:
-
文字是一种模态;
-
图像是一种模态;
-
语音是一种模态;
-
视频可以看作"图像 + 时间"的复合模态。
人类大脑会自动融合这些信息:当你看到「一只狗」的图片,同时听到"汪汪"的声音,你就能在语义层面上建立联系。
计算机的目标就是复现这种跨模态关联 。
传统模型通常只理解一种模态,例如:
-
CNN → 图像;
-
RNN / Transformer → 文字;
-
WaveNet / Whisper → 音频。
而多模态学习希望:
在一个统一的模型中,让这些模态「说同一种语义语言」。
三、融合机制的三种典型思路
1. 早期融合(Early Fusion)
早期融合在输入阶段就把不同模态的数据混合。
例如将图片的卷积特征与文字的词向量拼接在一起,然后输入同一个神经网络。
伪代码示意:
# 图像编码
img_feat = CNN(image)
# 文本编码
txt_feat = Embedding(text)
# 融合输入
input_feat = concat(img_feat, txt_feat)
# 统一网络处理
output = Transformer(input_feat)
优点:
-
模型能从一开始就看到完整上下文;
-
对齐关系自动学习。
缺点:
-
各模态数据维度不同,融合难度大;
-
需要大量计算;
-
语义层面容易「模糊化」。
2. 后期融合(Late Fusion)
每个模态先独立编码,再在高层语义上进行融合。
例如图像经 ViT,文本经 BERT,最后在语义空间对齐。
img_feat = ViT(image)
txt_feat = BERT(text)
# 融合阶段
joint = MLP(concat(img_feat, txt_feat))
优点:
-
模块化强,方便独立训练;
-
可复用预训练模型;
-
工程实现简单。
缺点:
-
对齐精度低;
-
不利于端到端的语义捕获。
3. 跨模态对齐(Cross-modal Alignment)
这是现代多模态模型的核心思想。
代表作是 CLIP(Contrastive Language-Image Pretraining)。
CLIP 的核心机制:
-
两个编码器:图像编码器(ViT)+ 文本编码器(Transformer);
-
使用对比学习(Contrastive Learning),让语义相同的图文对在高维空间靠近。
伪代码表示:
# 图像与文本的语义嵌入
img_embed = f_image(image)
txt_embed = f_text(text)
# 余弦相似度矩阵
sim = cosine_similarity(img_embed, txt_embed)
# 对比损失
loss = -log(exp(sim[i][i]) / sum(exp(sim[i])))
CLIP 的成功之处在于:
-
不需要标注任务,只要图文对;
-
可泛化到下游任务(Zero-shot);
-
成为多模态预训练的基础。
四、代表模型详解
(1)CLIP:对比学习的里程碑
CLIP 是 OpenAI 2021 年推出的模型。它用 4 亿对图文训练,让图像与语言共享语义空间。
关键思想:
"让模型学会看图像时,用语言去描述。"
训练完成后,CLIP 不需要特定任务,只要输入文本提示,就能完成分类。
例如:
给定一张猫的图片
文本候选:"a photo of a cat","a photo of a dog"
模型输出哪一个更匹配。
这就是 Zero-Shot Learning 的雏形。
(2)ALIGN 与 BLIP 系列:更好的语义对齐
Google 的 ALIGN 扩展了 CLIP 的训练规模,改进了噪声过滤与模型结构。
而 BLIP / BLIP-2 则在 CLIP 的基础上加入了「图文生成」能力,让模型不仅能匹配,还能"说出来"。
BLIP-2 的关键创新是「Q-Former」,一个轻量 Transformer,用于将视觉特征转化为语言模型可以理解的形式。
(3)Flamingo 与 GPT-4V:真正的多模态统一
CLIP 解决了「图 ↔ 文」的对齐问题,但仍然是分离编码器。
Flamingo(DeepMind) 引入「跨模态注意力(Cross-Attention)」,让语言模型能在生成过程中动态引用视觉特征。
而 GPT-4V(GPT-4 Vision) 则是更进一步的统一:
图像直接作为模型输入,与文本一同进入 Transformer,模型能回答、描述、推理图像内容。
这标志着:
文本模型已经不是"语言模型",而是"多模态世界模型"。
五、多模态预训练的技术挑战
-
对齐困难:不同模态特征空间差异巨大。
-
标注稀缺:高质量的图文/语音对很难获取。
-
计算代价高:多模态训练几乎是单模态的数倍开销。
-
评测标准模糊:跨模态任务难以定量衡量。
工程实践上,通常采用:
-
预训练大模型 + 微调(Fine-tuning / Adapter / LoRA);
-
分阶段训练(先单模态再跨模态);
-
混合任务训练(captioning + retrieval + QA)。
六、现实应用与未来方向
多模态的应用正在全面渗透:
-
图文检索(CLIP、ALIGN);
-
图像描述与问答(BLIP、Flamingo);
-
视频理解与摘要(Video-LLM);
-
多模态大语言模型(GPT-4V、Gemini、Claude 3)。
未来趋势可以总结为三个方向:
-
模态统一化
所有输入(文字、图像、音频)都被编码为统一 token 序列,进入 Transformer。
-
自监督扩展
减少标注依赖,让模型自己从网络海量数据中学习语义对应。
-
具身智能(Embodied Intelligence)
从"理解世界"到"在世界中行动",结合视觉、语言与动作控制。
七、结语:AI 不再"只会说话"
当下的 GPT、Claude、Gemini 已经能看图、听音、理解视频。
多模态学习让人工智能第一次有了"感知世界"的雏形。
语言曾是人类智慧的载体,
而多模态智能,正在让机器也拥有"感知 + 理解 + 表达"的完整链条。
文字只是认知的外壳,感知才是智能的灵魂。