OW-VISCap——开放世界视频实例分割方法研究

概述

本文提出了一种名为 OW-VISCap（开放世界视频实例分割和字幕）的方法。其三大贡献是

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明，所提出的方法可以检测未知对象并生成以对象为中心的字幕。

首先，对于开放世界对象查询 q_ow，可通过使用提示编码器（图 2 左侧的紫色区域）对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow，以鼓励对未知物体的检测。

其次，对于以对象为中心的字幕，在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕（图 2，右）。具体来说，遮罩关注是利用检测头获得的物体分割遮罩来生成字幕，字幕不仅关注局部物体特征，还考虑了整个视频的上下文。

最后，对比度损失 L_cont 用于抑制对象查询之间的相似性，其效果是防止重叠检测，并促进新对象的发现。在封闭世界环境中，它有助于抑制重叠误报；在开放世界环境中，它有助于发现新的物体。

因此，OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计，提供了综合视频理解能力。

本文在三个任务中对 OW-VISCap 进行了评估：开放世界视频实例分割（OW-VIS）、视频对象字幕（Dense VOC）和封闭世界视频实例分割（VIS）。

OW-VIS 在 BURST[2]数据集（表 1）上进行了评估，结果显示，在未知（不常见）类别中，OW-VIS 的性能提高了约 6%。

对于密集 VOC，我们使用了 VidSTG[57]数据集（表 2），结果显示生成字幕的正确率提高了约 7%，尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后，在 OVIS [36] 数据集上对 VIS 进行了评估（表 3），结果表明其性能与最新技术相当。同样可以看出，物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出，该系统能够检测和分割未知物体，并生成以物体为中心的字幕。

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素--开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失--能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解，并有潜力应用于现实世界，如自主系统和 AR/VR。细粒度视频理解（包括对未知物体的理解）是一项重要的研究挑战，而本文提出的方法可以为解决这一问题做出重大贡献。