创新点

提出一种通过检索增强分类过程的创新在线学习框架RAC，与传统的基于离线训练/微调的方法相比，具有以下优点：

在线和持续学习能力。
最少的标注需求。
对视觉领域适应的计算无需求。

内容概述

目标检测器已经从闭集模型演变为开放世界模型，但将这些模型应用于新领域往往会导致较差的检测性能。为此，论文提出了一种新颖的方法，可以在线调整任何现成的目标检测模型，以适应新的领域，而无需重新训练检测器模型。

受到人类快速学习新主题（例如，记忆）方式的启发，论文允许检测器在测试时从记忆中查找相似的物体概念。这是通过一种检索增强分类（RAC）模块与一个可以灵活更新新领域知识的记忆库来实现的。

对各种现成的开放集检测器和闭集检测器进行了实验。仅使用一个小型记忆库（例如，每类10张图像）并且无需训练，RAC显著优于基线，在将检测器适应新的领域方面表现突出。

检索增强的检测器适应

在线学习框架由以下主要模块组成：

一个可在线更新的记忆库，其中包含用于提供在线适应新概念的目标领域图像
一个来自现成模型的物体（前景）提议模型，可以是开放世界检测器、在具有不同本体的相似领域数据上训练的任何检测器，或者简单的区域提议网络（RPN）。
一个上下文检索模块，用于将记忆库中的图像上下文与推理图像关联。
一个实例检索模块，用于将提议的物体实例与检索到的相似上下文中的实例关联。

对于查询图像，上下文级RAC首先从记忆库中选择相似的上下文图像。然后基于查询图像中的物体提议，对每个提议，实例级RAC在选定的相似上下文图像中执行实例匹配。最后，每个提议根据来自检索实例的投票分配一个类别。

物体（前景）提议模型

采用预训练的检测器作为物体提议网络，用于定位子任务，并专注于解决新概念分类子任务。

提议网络可以有多种形式，例如现成的开放集检测器、在不同数据集上训练的检测器（例如，具有不同本体的检测器），或者简单的区域提议网络（RPN），只要它能够提供有意义的前景提议。即使是没有任何语义能力的二元RPN网络，也可以使其具备分类能力。

记忆库

RAC仅需最少量的数据来构建记忆库，例如每个类别10张图像，这些图像可在在线学习环境中由最终用户轻松标注。为了构建一个高效的记忆库，论文提出了一种无监督的图像选择方法，利用图像级特征聚类来最大化覆盖率以及最小化标注工作。

无监督种子图像聚类

使用强大的图像特征提取主干（例如CLIP）从未标注的目标域图像中提取嵌入，这些嵌入随后根据用户标注的图像数量进行聚类（例如，使用k-means），形成目标数量的聚类。每个聚类中的中心图像是由用户标注的，代表了多样化和具有代表性的场景。该方法能够通过每个类别仅标注10张图像就实现良好的检测性能。

检索增强（`RAC`）模块

通过在记忆库中存储标注的种子对象和图像，检索增强模块可以使物体检测器通过将目标检测到的提议与种子对象匹配来获得新的语义分类能力。

物体匹配的一个重大挑战是目标域中存在外观相似的不同类别的物体。为了解决这些混淆问题，论文构建了一个多阶段的上下文匹配过程。第一阶段，上下文检索，通过过滤掉无关场景（例如，过滤掉船只的海事场景）来缩小搜索范围。第二阶段，实例检索，则是在上下文匹配的图像中进行。通过同时考虑实例外观和上下文，该方法最大限度地减少了分类混淆并提高了检索准确性。

对于检索增强模型，强大的特征提取器是必要的。然而，它并不需要在目标域上进行训练即可实现良好的语义分类准确性。因此，任何强大的预训练特征提取器，例如DINOV2或CLIP，都可以以无训练的方式使用，或者在提供的记忆库上进行微调以获得最佳性能。

具体来说，在第一阶段进行图像级语义匹配，使用现成的CLIP模型来提取图像级特征，然后计算查询图像与记忆库图像之间的相似性。在第二阶段进行实例级匹配，从图像级匹配结果中选择前 k 张图像（k=20, 50, 100），使用现成或微调的CLIP模型提取边界框级特征，然后计算实例之间的相似性选择的前 k 张图像。因此，最终的实例分类结果是边界框级匹配和全局上下文匹配的结合，有效地减少了外观引起的混淆。

主要实验

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

RAC：无训练持续扩展，基于检索的目标检测器 | ECCV'24

创新点