OW-VISCap——开放世界视频实例分割方法研究

概述

论文地址:https://arxiv.org/pdf/2404.03657

本文提出了一种名为 OW-VISCap(开放世界视频实例分割和字幕)的方法。其三大贡献是

  1. 开放世界对象查询:除了已知对象查询外,还引入了开放世界对象查询,以发现未知对象。这样就可以在不需要额外输入的情况下检测到未知物体。

  2. 使用遮罩关注机制生成以对象为中心的字幕:在对象-文本转换器中引入遮罩关注机制,使其能够生成以对象为中心的描述性字幕。

  3. 对象查询之间的对比度损失:引入对比度损失是为了抑制对象查询之间的相似性,减少重叠对象的检测,同时鼓励发现新的对象。

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明,所提出的方法可以检测未知对象并生成以对象为中心的字幕。

相关研究

首先,有关开放世界视频实例分割的研究可分为两大类。

  1. 需要提示的方法:要求用户输入信息,并事先了解地面实况等。

  2. 无提示方法:为了发现新的对象,可以使用对象建议等方法。不过,这些方法也存在一些问题,例如性能有限或无法区分开放世界和封闭世界的物体。

另一方面,DVOC-DS[58] 是目前唯一的视频物体捕捉研究成果。然而,DVOC-DS 也存在一些问题,如无法应对长视频时间和无法捕捉物体的多个动作。

还有人提出了 OWVISFormer [39] 和 IDOL [50] 等方法来抑制对象查询之间的相似性。这些方法主要在封闭世界环境中有效,但在开放世界环境中并不充分。

拟议方法(OW-VISCap)

首先,对于开放世界对象查询 q_ow,可通过使用提示编码器(图 2 左侧的紫色区域)对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow,以鼓励对未知物体的检测。

其次,对于以对象为中心的字幕,在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕(图 2,右)。具体来说,遮罩关注是利用检测头获得的物体分割遮罩来生成字幕,字幕不仅关注局部物体特征,还考虑了整个视频的上下文。

最后,对比度损失 L_cont 用于抑制对象查询之间的相似性,其效果是防止重叠检测,并促进新对象的发现。在封闭世界环境中,它有助于抑制重叠误报;在开放世界环境中,它有助于发现新的物体。

因此,OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计,提供了综合视频理解能力。

试验

本文在三个任务中对 OW-VISCap 进行了评估:开放世界视频实例分割(OW-VIS)、视频对象字幕(Dense VOC)和封闭世界视频实例分割(VIS)。

OW-VIS 在 BURST[2]数据集(表 1)上进行了评估,结果显示,在未知(不常见)类别中,OW-VIS 的性能提高了约 6%。

对于密集 VOC,我们使用了 VidSTG[57]数据集(表 2),结果显示生成字幕的正确率提高了约 7%,尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后,在 OVIS [36] 数据集上对 VIS 进行了评估(表 3),结果表明其性能与最新技术相当。同样可以看出,物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出,该系统能够检测和分割未知物体,并生成以物体为中心的字幕。

结论

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素--开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失--能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解,并有潜力应用于现实世界,如自主系统和 AR/VR。细粒度视频理解(包括对未知物体的理解)是一项重要的研究挑战,而本文提出的方法可以为解决这一问题做出重大贡献。

相关推荐
码字的字节12 小时前
深度学习损失函数的设计哲学:从交叉熵到Huber损失的深入探索
深度学习·交叉熵·huber
AntBlack12 小时前
从小不学好 ,影刀 + ddddocr 实现图片验证码认证自动化
后端·python·计算机视觉
凪卄121312 小时前
图像预处理 二
人工智能·python·深度学习·计算机视觉·pycharm
碳酸的唐12 小时前
Inception网络架构:深度学习视觉模型的里程碑
网络·深度学习·架构
AI赋能12 小时前
自动驾驶训练-tub详解
人工智能·深度学习·自动驾驶
seasonsyy12 小时前
1.安装anaconda详细步骤(含安装截图)
python·深度学习·环境配置
deephub13 小时前
AI代理性能提升实战:LangChain+LangGraph内存管理与上下文优化完整指南
人工智能·深度学习·神经网络·langchain·大语言模型·rag
go546315846513 小时前
基于深度学习的食管癌右喉返神经旁淋巴结预测系统研究
图像处理·人工智能·深度学习·神经网络·算法
Blossom.11813 小时前
基于深度学习的图像分类:使用Capsule Networks实现高效分类
人工智能·python·深度学习·神经网络·机器学习·分类·数据挖掘
宇称不守恒4.013 小时前
2025暑期—05神经网络-卷积神经网络
深度学习·神经网络·cnn