《Self-Supervised MultiModal Versatile Networks》简要

文章汉化系列目录


文章目录


摘要

 视频是多模态监督的丰富来源。在本研究中,我们通过自监督学习利用视频中天然存在的三种模态------视觉、音频和语言流------来学习表征。为此,我们引入了"多模态多功能网络"的概念,该网络能够接收多种模态输入,其学到的表示能够支持多模态的下游任务。特别地,我们探索了如何最佳地结合这些模态,以便在维持视觉和音频模态的细粒度表示的同时,将文本整合到一个通用的嵌入空间中。基于多功能性,我们还提出了一种新颖的"收缩"过程,使得该网络可以轻松地应用于视频或静态图像形式的视觉数据。我们展示了这种在大量未标注视频数据上训练的网络如何应用于视频、视频-文本、图像和音频任务。利用这些表示,我们在多个具有挑战性的基准数据集上(如UCF101、HMDB51、Kinetics600、AudioSet和ESC-50)实现了超越以往自监督方法的最先进性能。我们的模型已公开提供。

引言

 我们对世界的体验是多模态的。从婴儿时期起,我们便通过多种感官系统来感知世界。例如,我们观看火焰在壁炉中跳动,听到木头噼啪作响的声音,还能感受到散发出的热量。通过这种多模态的同步感知,我们逐渐学会在模态之间建立有用的联系【73】,从而形成对世界的良好表征。随后,语言的出现使我们能够用高级的抽象概念来表达这种细致的多模态体验。

 本研究的目标是以自监督的方式,从这种多模态体验中学习表征,而不依赖任何特定的人工标注。我们所考虑的模态包括从大量未标注视频中易于获取的三种:视觉、音频和语言(从旁白中提取)。我们旨在学习一种"多模态多功能网络",其定义包含以下四个特性:(i)网络能够以三种模态中的任意一种作为输入;(ii)能够尊重模态的特性,特别是音频和视觉模态的细粒度性强于语言模态;(iii)即便在训练期间模态数据未曾一起出现,网络也能够轻松比较不同模态;最后,(iv)网络能够高效地应用于动态视频或静态图像形式的视觉数据。

 如何设计一个符合这四个原则的网络?我们选择将每个模态嵌入到一个向量空间中,使得模态之间的相似性可以通过简单的点积来获得。每种模态通过适应信号特性的主干网络进行处理,构建了一个模态嵌入图,使得视觉和音频嵌入是细粒度的,而文本嵌入则是语义粗粒度的。这一策略基于观察得出:视觉和音频空间是细粒度的(例如,相同的吉他在视觉或音频上可能表现出很大的不同),而文本域则更为粗略,因为其目的是抽象掉细节(例如,仅使用"吉他"一词)。网络随后通过对大量未标注视频进行自监督对比学习从零开始训练。

 为了定量评估我们学习到的多模态多功能(MMV)网络,我们在多个下游任务上衡量其性能,以评估其视频和图像表征的各种属性:动词学习(在HMBD51、UCF101和Kinetics600数据集上进行的动作分类)、名词学习(在PASCAL VOC和ImageNet上的图像分类)、文本与视觉联合表征(YouCook2、MSRVTT),以及音频表征(ESC-50和AudioSet上的声音分类)。所提出的MMV在这些基准上取得了自监督方法的最先进性能,并缩小了与监督方法的性能差距。

贡献 :本文的主要贡献如下:

(a) 我们研究了不同的MMV模态嵌入图,并提出了一种简单而有效的自监督训练策略,用于音频、视觉和语言流的多模态表征;

(b) 我们引入了"收缩"方法,使得MMV视频网络能够高效地接受静态图像;

© 我们在多项图像、视频、音频和视频-文本的下游任务中验证了所学习表征的优越性。

相关推荐
庄周迷蝴蝶1 分钟前
Vision Banana
人工智能·计算机视觉
装不满的克莱因瓶4 分钟前
【自动驾驶领域】学习 Cityscapes 数据集——城市街景语义理解的标准基准
人工智能·pytorch·python·深度学习·学习·机器学习·自动驾驶
刚木6 分钟前
用 Agnes AI 免费模型增强 Claude Code:从零上手指南
人工智能
阿部多瑞 ABU11 分钟前
铁三角:泛二次元奶头乐经济的结构分析及其人口后果
大数据·人工智能
FL162386312914 分钟前
户外垃圾类型检测数据集VOC+YOLO格式4278张10类别
人工智能·yolo·机器学习
如此这般英俊21 分钟前
手搓Claude Code-第三章 permission
人工智能·python·语言模型
AI焦点22 分钟前
2026年AI应用架构:如何避坑并选对API聚合中转服务?
大数据·人工智能·架构
Mikowoo00723 分钟前
Word2Vec_词嵌套
人工智能·自然语言处理·word2vec
TOPGO智能31 分钟前
AI PC 端侧 AI 实战:知易智能知识管家的全栈架构与踩坑实录
人工智能·架构·高通开发
精益数智小屋39 分钟前
项目管理看板如何拆解任务进度?项目管理看板解决跨部门协作难题
大数据·人工智能·数据分析·云计算·软件工程