多模态系统学习摘要
在当今数字化高速发展的时代,多模态技术正逐渐成为人工智能领域的核心研究方向。通过整合不同类型的数据源------包括文字、图像、音频、视频及传感器信号,多模态技术正在重塑我们与机器交互、处理信息的方式,为各行各业带来前所未有的创新可能。 多模态技术的基本概念多模态技术指的是同时处理和理解多种不同形式数据输入的系统。与传统单一模态技术相比,多模态系统能够更全面地捕捉和解析信息,就像人类感知世界时会同时...
- 后面的学习过程当中会不断的补充
文章目录
一、多模态对齐
1.语义对齐
假设你有一个完全不懂地球事物的外星朋友。你想教它什么是"猫"。
- 你给它看一张猫的图片(视觉模态)。
- 你让它听猫的"喵喵"叫声(听觉模态)。
- 你写下文字"cat"或"猫"(文本模态)。
- 你甚至给它看一段猫的视频(视觉+听觉+时间模态)。
这几种模态所表达的语义都是猫,语义对齐就是确保表达相同语义的向量(无论来自图像、文本还是声音)在共享的语义空间中靠得非常近;而语义不同的向量则离得很远。
如何判断:看向量之间的夹角或余弦相似度,而不是它们的长度。两个向量即使长度不同,只要方向几乎一致,它们就是高度相关的。
2.特征对齐
- 特征提取:这就好比是给不同模态的数据"脱衣服",把它们最核心的特征给揪出来。对于图像,咱们常用卷积神经网络(CNN)来扒拉,让它从图像里提取出像形状、颜色、纹理这些视觉特征;对于文本呢,就用循环神经网络(RNN)或者Transformer,把文字里的语义特征给拎出来。比如说,对于"一只橘色的猫在草地上玩耍"这句话,模型能提取出"橘色""猫""草地""玩耍"这些关键语义特征。
- 映射到同一空间 :把不同模态的特征提取出来后,它们还在各自的"小圈子"里呢。这时候,就得想办法把它们都拉到同一个"大广场"里,也就是统一的语义空间。这就好比给它们每个人发了一张去"大广场"的入场券,让它们都能在这个空间里自由交流。实现这个过程,常用的方法就是通过一些神经网络层,比如全连接层,对不同模态的特征进行变换,让它们的维度和尺度都能匹配上,这样就可以在同一个空间里愉快地玩耍啦。
- 优化调整:光把它们拉到一个空间还不够,还得让它们真正"对上眼"。这就需要通过损失函数来优化了。就好比你在撮合一对情侣,得看看他俩相处得咋样,合不合得来。损失函数就是那个"裁判",它会衡量不同模态特征在统一空间里的匹配程度。如果匹配得不好,就告诉模型哪里出问题了,模型就会调整参数,不断优化,直到这些特征能像热恋中的情侣一样"亲密无间"。
3.多模态领域里特征对齐的方法
- 跨模态注意力 :直接在不同模态之间建立注意力机制,使得模型能够根据一个模态的信息来关注另一个模态的相关部分。比如在图像 -文本对齐中,模型可以根据文本描述来关注图像中对应的区域,或者根据图像内容来强调文本中相关的词汇。具体实现时,可以通过计算跨模态特征之间的相似度矩阵,以此为权重对特征进行加权求和,从而实现跨模态的特征对齐。这种方法能够动态地捕捉不同模态之间的对应关系,提高特征对齐的准确性。
当然也有其他方法这里就不一一列举