《Self-Supervised MultiModal Versatile Networks》简要

文章汉化系列目录


文章目录


摘要

视频是多模态监督的丰富来源。在本研究中,我们通过自监督学习利用视频中天然存在的三种模态------视觉、音频和语言流------来学习表征。为此,我们引入了"多模态多功能网络"的概念,该网络能够接收多种模态输入,其学到的表示能够支持多模态的下游任务。特别地,我们探索了如何最佳地结合这些模态,以便在维持视觉和音频模态的细粒度表示的同时,将文本整合到一个通用的嵌入空间中。基于多功能性,我们还提出了一种新颖的"收缩"过程,使得该网络可以轻松地应用于视频或静态图像形式的视觉数据。我们展示了这种在大量未标注视频数据上训练的网络如何应用于视频、视频-文本、图像和音频任务。利用这些表示,我们在多个具有挑战性的基准数据集上(如UCF101、HMDB51、Kinetics600、AudioSet和ESC-50)实现了超越以往自监督方法的最先进性能。我们的模型已公开提供。

引言

我们对世界的体验是多模态的。从婴儿时期起,我们便通过多种感官系统来感知世界。例如,我们观看火焰在壁炉中跳动,听到木头噼啪作响的声音,还能感受到散发出的热量。通过这种多模态的同步感知,我们逐渐学会在模态之间建立有用的联系【73】,从而形成对世界的良好表征。随后,语言的出现使我们能够用高级的抽象概念来表达这种细致的多模态体验。

本研究的目标是以自监督的方式,从这种多模态体验中学习表征,而不依赖任何特定的人工标注。我们所考虑的模态包括从大量未标注视频中易于获取的三种:视觉、音频和语言(从旁白中提取)。我们旨在学习一种"多模态多功能网络",其定义包含以下四个特性:(i)网络能够以三种模态中的任意一种作为输入;(ii)能够尊重模态的特性,特别是音频和视觉模态的细粒度性强于语言模态;(iii)即便在训练期间模态数据未曾一起出现,网络也能够轻松比较不同模态;最后,(iv)网络能够高效地应用于动态视频或静态图像形式的视觉数据。

如何设计一个符合这四个原则的网络?我们选择将每个模态嵌入到一个向量空间中,使得模态之间的相似性可以通过简单的点积来获得。每种模态通过适应信号特性的主干网络进行处理,构建了一个模态嵌入图,使得视觉和音频嵌入是细粒度的,而文本嵌入则是语义粗粒度的。这一策略基于观察得出:视觉和音频空间是细粒度的(例如,相同的吉他在视觉或音频上可能表现出很大的不同),而文本域则更为粗略,因为其目的是抽象掉细节(例如,仅使用"吉他"一词)。网络随后通过对大量未标注视频进行自监督对比学习从零开始训练。

为了定量评估我们学习到的多模态多功能(MMV)网络,我们在多个下游任务上衡量其性能,以评估其视频和图像表征的各种属性:动词学习(在HMBD51、UCF101和Kinetics600数据集上进行的动作分类)、名词学习(在PASCAL VOC和ImageNet上的图像分类)、文本与视觉联合表征(YouCook2、MSRVTT),以及音频表征(ESC-50和AudioSet上的声音分类)。所提出的MMV在这些基准上取得了自监督方法的最先进性能,并缩小了与监督方法的性能差距。

贡献 :本文的主要贡献如下:

(a) 我们研究了不同的MMV模态嵌入图,并提出了一种简单而有效的自监督训练策略,用于音频、视觉和语言流的多模态表征;

(b) 我们引入了"收缩"方法,使得MMV视频网络能够高效地接受静态图像;

© 我们在多项图像、视频、音频和视频-文本的下游任务中验证了所学习表征的优越性。

相关推荐
拓端研究室8 小时前
专题:2025年游戏科技的AI革新研究报告:全球市场趋势研究报告|附130+份报告PDF、数据仪表盘汇总下载
人工智能
茜茜西西CeCe9 小时前
数字图像处理-图像的形态学处理(2)
计算机视觉·图像分割·数字图像处理·图像的形态学处理·顶帽变换·图像细化
CSTechEi9 小时前
【SPIE/EI/Scopus检索】2026 年第三届数据挖掘与自然语言处理国际会议 (DMNLP 2026)
人工智能·自然语言处理·数据挖掘
GJGCY9 小时前
技术剖析:智能体工作流与RPA流程自动化的架构差异与融合实现
人工智能·经验分享·ai·自动化·rpa
UMI赋能企业9 小时前
制造业流程自动化提升生产力的全面分析
大数据·人工智能
说私域9 小时前
“开源AI大模型AI智能名片S2B2C商城小程序”视角下的教育用户策略研究
人工智能·小程序
墨利昂9 小时前
Transformer架构:深度学习序列建模的革命性突破
深度学习·架构·transformer
Olrookie9 小时前
若依前后端分离版学习笔记(二十)——实现滑块验证码(vue3)
java·前端·笔记·后端·学习·vue·ruoyi
gddkxc10 小时前
AI CRM中的数据分析:悟空AI CRM如何帮助企业优化运营
人工智能·信息可视化·数据分析
请你喝好果汁64110 小时前
Conda_bashrc 初始化机制学习笔记
笔记·学习·conda