OW-VISCap——开放世界视频实例分割方法研究

概述

论文地址:https://arxiv.org/pdf/2404.03657

本文提出了一种名为 OW-VISCap(开放世界视频实例分割和字幕)的方法。其三大贡献是

  1. 开放世界对象查询:除了已知对象查询外,还引入了开放世界对象查询,以发现未知对象。这样就可以在不需要额外输入的情况下检测到未知物体。

  2. 使用遮罩关注机制生成以对象为中心的字幕:在对象-文本转换器中引入遮罩关注机制,使其能够生成以对象为中心的描述性字幕。

  3. 对象查询之间的对比度损失:引入对比度损失是为了抑制对象查询之间的相似性,减少重叠对象的检测,同时鼓励发现新的对象。

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明,所提出的方法可以检测未知对象并生成以对象为中心的字幕。

相关研究

首先,有关开放世界视频实例分割的研究可分为两大类。

  1. 需要提示的方法:要求用户输入信息,并事先了解地面实况等。

  2. 无提示方法:为了发现新的对象,可以使用对象建议等方法。不过,这些方法也存在一些问题,例如性能有限或无法区分开放世界和封闭世界的物体。

另一方面,DVOC-DS[58] 是目前唯一的视频物体捕捉研究成果。然而,DVOC-DS 也存在一些问题,如无法应对长视频时间和无法捕捉物体的多个动作。

还有人提出了 OWVISFormer [39] 和 IDOL [50] 等方法来抑制对象查询之间的相似性。这些方法主要在封闭世界环境中有效,但在开放世界环境中并不充分。

拟议方法(OW-VISCap)

首先,对于开放世界对象查询 q_ow,可通过使用提示编码器(图 2 左侧的紫色区域)对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow,以鼓励对未知物体的检测。

其次,对于以对象为中心的字幕,在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕(图 2,右)。具体来说,遮罩关注是利用检测头获得的物体分割遮罩来生成字幕,字幕不仅关注局部物体特征,还考虑了整个视频的上下文。

最后,对比度损失 L_cont 用于抑制对象查询之间的相似性,其效果是防止重叠检测,并促进新对象的发现。在封闭世界环境中,它有助于抑制重叠误报;在开放世界环境中,它有助于发现新的物体。

因此,OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计,提供了综合视频理解能力。

试验

本文在三个任务中对 OW-VISCap 进行了评估:开放世界视频实例分割(OW-VIS)、视频对象字幕(Dense VOC)和封闭世界视频实例分割(VIS)。

OW-VIS 在 BURST[2]数据集(表 1)上进行了评估,结果显示,在未知(不常见)类别中,OW-VIS 的性能提高了约 6%。

对于密集 VOC,我们使用了 VidSTG[57]数据集(表 2),结果显示生成字幕的正确率提高了约 7%,尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后,在 OVIS [36] 数据集上对 VIS 进行了评估(表 3),结果表明其性能与最新技术相当。同样可以看出,物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出,该系统能够检测和分割未知物体,并生成以物体为中心的字幕。

结论

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素--开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失--能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解,并有潜力应用于现实世界,如自主系统和 AR/VR。细粒度视频理解(包括对未知物体的理解)是一项重要的研究挑战,而本文提出的方法可以为解决这一问题做出重大贡献。

相关推荐
郝学胜-神的一滴2 小时前
深度学习必学:PyTorch 神经网络参数初始化全攻略(原理 + 代码 + 选择指南)
人工智能·pytorch·python·深度学习·神经网络·机器学习
jr-create(•̀⌄•́)2 小时前
从零开始:手动实现神经网络识别手写数字(完整代码讲解)
人工智能·深度学习·神经网络
数智工坊3 小时前
Transformer 全套逻辑:公式推导 + 原理解剖 + 逐行精读 - 划时代封神之作!
人工智能·深度学习·transformer
xingyuzhisuan5 小时前
租用GPU服务器进行深度学习课程教学的实验环境搭建
运维·人工智能·深度学习·gpu算力
yu85939586 小时前
神经网络遗传算法函数极值寻优(非线性函数极值)
人工智能·深度学习·神经网络
乔江seven6 小时前
【李沐 | 动手学深度学习】12 使用块的网络VGG
人工智能·深度学习·卷积神经网络·vgg网络
jr-create(•̀⌄•́)7 小时前
正则化和优化算法区别
pytorch·深度学习·神经网络·算法
kishu_iOS&AI9 小时前
深度学习 —— 神经网络(1)
人工智能·深度学习·神经网络
纤纡.11 小时前
轻松实现多语言文字识别与实时检测:PaddleOCR 实战指南
人工智能·深度学习·opencv·paddlepaddle
【建模先锋】12 小时前
精品数据分享 | 锂电池数据集(10)基于阻抗的锂离子电池在不均衡使用情况下的性能预测
人工智能·python·深度学习·锂电池·锂电池寿命预测·锂电池数据集·剩余寿命预测