Towards Open World Object Detection【论文解析】

Towards Open World Object Detection

- 摘要
- [1 介绍](#1 介绍)
- [2 相关研究](#2 相关研究)
- [3 开放世界目标检测](#3 开放世界目标检测)
- [4 ORE:开放世界目标检测器](#4 ORE:开放世界目标检测器)
- - [4.1 对比聚类](#4.1 对比聚类)
  - [4.2 RPN自动标注未知类别](#4.2 RPN自动标注未知类别)
  - [4.3 基于能量的未知标识](#4.3 基于能量的未知标识)
  - [4.4 减少遗忘](#4.4 减少遗忘)
- [5 实验](#5 实验)
- - 5.1开放世界评估协议
  - [5.2 实现细节](#5.2 实现细节)
  - [5.3 开放世界目标检测结果](#5.3 开放世界目标检测结果)
  - [5.4 增量目标检测结果](#5.4 增量目标检测结果)
- [6 讨论和分析](#6 讨论和分析)
- [7 结论](#7 结论)
- 补充材料
- - [A 变化FStore的队列大小](#A 变化FStore的队列大小)
  - [B η的敏感性分析](#B η的敏感性分析)
  - [C. 在Lcont中变化边界值 (∆)](#C. 在Lcont中变化边界值 (∆))
  - [D. 在方程4中变化温度（T）](#D. 在方程4中变化温度（T）)
  - E.有关对比聚类的更多详细信息
  - [F 进一步的实现细节](#F 进一步的实现细节)
  - [G 增量目标检测的相关工作](#G 增量目标检测的相关工作)
  - [H 时间和存储费用](#H 时间和存储费用)
  - [I 基于Softmax的未知识别](#I 基于Softmax的未知识别)
  - [J 定性结果](#J 定性结果)
  - [K 讨论关于失败的案例](#K 讨论关于失败的案例)

摘要

人类在环境中有一种自然本能，即识别未知的物体实例。对于这些未知实例的内在好奇心有助于在相应的知识最终可得到时学习它们。这激发我们提出了一个新颖的计算机视觉问题，称为"开放世界目标检测"，其中模型的任务是：

无需明确监督就识别尚未引入为"未知"的物体。
当相应标签逐步接收时，逐步学习这些已识别的未知类别，而不会遗忘先前学习的类别。

我们对问题进行了规定，引入了强大的评估协议，并提供了一种新颖的解决方案，称为ORE：开放世界目标检测器，它基于对比聚类和基于能量的未知识别。我们的实验评估和消融研究分析了ORE在实现开放世界目标方面的效力。作为有趣的副产品，我们发现识别和描述未知实例有助于减少增量式目标检测中的混淆，在这种情况下，我们在没有额外方法论努力的情况下实现了最先进的性能。

我们希望我们的工作能吸引更多关于这个新识别但至关重要的研究方向的进一步研究。

1 介绍

深度学习在目标检测研究中加速了进展[14, 54, 19, 31, 52]，其中模型的任务是在图像中识别和定位物体。所有现有的方法都基于一个强烈的假设，即在训练阶段可以获得所有要检测的类别。然而，当我们放松这个假设时，出现了两个具有挑战性的情况：

测试图像可能包含来自未知类别的物体，应该将其分类为未知。
当关于这些已识别未知类别的信息（标签）变得可用时，模型应该能够逐步学习新的类别。

发展心理学的研究[41, 36]发现，识别自己不知道的东西是激发好奇心的关键。这种好奇心激发了对学习新事物的渴望[9, 16]。这激励我们提出了一个新的问题，即模型应该能够将未知对象的实例标识为未知，并随后在训练数据逐步到达时学习识别它们，以统一的方式解决这个问题。我们将这个问题设置称为"开放世界目标检测"。

图1：开放世界目标检测（▲）是一个迄今为止尚未被正式定义和解决的新问题。尽管与开放集和开放世界分类相关，但开放世界目标检测提供了独特的挑战，一旦解决，将提高目标检测器的实用性。

标准视觉数据集（例如Pascal VOC [10]和MS-COCO [32]）中注释的类别数量非常有限（分别为20和80），而在开放世界中存在无限数量的类别。将未知识别为未知对象需要强大的泛化能力。Scheirer等人[57]将其形式化为开放集分类问题。因此，各种方法（使用1对多SVM和深度学习模型）已经被制定来解决这个具有挑战性的设置。Bendale等人[3]将开放集扩展为开放世界分类设置，通过额外更新图像分类器来识别已识别的新未知类别。有趣的是，正如图1所示，开放世界目标检测尚未被探索，这归因于问题设置的复杂性。

开放集和开放世界图像分类的进展不能直接适用于开放集和开放世界目标检测，因为问题设置存在一个根本性的区别：目标检测器被训练用于将未知对象检测为背景。许多未知类的实例已经与已知对象一起引入到目标检测器中。由于它们没有标签，这些未知实例在训练检测模型时会被显式地学习为背景。Dhamija等人发现，即使有了这种额外的训练信号，现有的最先进目标检测器会产生误报检测，其中未知对象最终被错误地分类为已知类之一，通常概率非常高。Miller等人[43]提出使用dropout采样来获得目标检测预测的不确定性估计。这是开放集目标检测文献中唯一经过同行评审的研究工作。我们提出的开放世界目标检测更进一步，一旦检测到未知类并且一个"预言家"为所有未知类中感兴趣的对象提供标签，我们会逐步学习这些新类别。据我们所知，这在文献中尚未尝试过。

开放世界目标检测设置比现有的封闭世界、静态学习设置更加自然。在现实世界中，新类别的数量、类型和配置是多样且动态变化的。假设在推断时所期望的所有类别都在训练过程中已经出现是幼稚的。在机器人、自动驾驶汽车、植物表型学、医疗保健和监控等实际应用中，无法在内部训练过程中完全了解在推断时会出现的所有类别。

在这样的实际部署中，一个更加自然和现实的期望是，目标检测算法能够自信地将未知对象预测为未知，并准确地将已知对象分类到相应的类别中。随着对已识别未知类别的更多信息逐渐变得可用，系统应能将它们逐步纳入到现有的知识库中。这将定义一个智能目标检测系统，而我们的工作是为实现这一目标而努力。

我们提出的方法致力于解决开放世界目标检测的挑战，旨在创建更加健壮、灵活的检测系统，以应对现实世界场景中的不确定性和复杂性。

我们的工作的主要贡献如下：

• 我们引入了一种新颖的问题设置，即开放世界目标检测，更加贴近真实世界的情况。

• 我们开发了一种新颖的方法，称为ORE，基于对比聚类、对未知对象感知的提议网络和基于能量的未知对象识别，以解决开放世界检测的挑战。

• 我们引入了一个全面的实验设置，有助于衡量目标检测器的开放世界特性，并将ORE与竞争性基准方法在该设置下进行了对比评估。

• 作为一个有趣的副产品，我们提出的方法在增量式目标检测方面实现了最先进的性能，尽管它的主要设计目标并非如此。

2 相关研究

开集分类 开放集设置考虑通过训练集获取的知识是不完整的，因此在测试过程中可能会遇到新的未知类别。Scheirer等人[58]在一对多的设置中开发了开放集分类器，以平衡性能和标记样本与已知训练样本之间的风险（称为开放空间风险）。随后的研究[23, 59]将开放集框架扩展为多类分类器设置，并使用概率模型来考虑未知类别情况下分类器置信度的逐渐减弱。

Bendale和Boult [4]在深度网络的特征空间中识别未知样本，并使用Weibull分布来估计集合风险（称为OpenMax分类器）。[13]提出了OpenMax的生成版本，通过合成新的类别图像来实现。Liu等人[35]考虑了长尾识别的情况，其中主要类、少数类和未知类共存。他们开发了一个度量学习框架来识别未知类别。在类似的思路下，一些专门的方法针对检测分布之外的样本[30]或新奇性[48]。最近，自监督学习[46]和带有重构的无监督学习[65]已被用于开放集识别。然而，尽管这些方法可以识别未知样本，但它们不能在多个训练阶段中以增量方式动态更新自己。此外，我们基于能量的未知检测方法以前还没有被探索过。

开放世界分类 [3]首次提出了图像识别的开放世界设置。与静态分类器在固定的一组类别上训练不同，他们提出了一个更加灵活的设置，其中已知类别和未知类别都共存。该模型可以识别这两种类型的对象，并在为未知类别提供新标签时自适应地改进自己。他们的方法通过重新校准类别概率以平衡开放空间风险，将最近类均值分类器扩展到在开放世界环境中运行。