【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

论文标题 ：Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
作者：Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai
发表会议 ：CVPR 2020
论文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf
代码与数据集：https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

关键词：小样本目标检测（Few-Shot Object Detection, FSOD）、注意力机制（Attention Mechanism）、区域建议网络（Region Proposal Network, RPN）、多关系检测器（Multi-Relation Detector）、对比训练（Contrastive Training）、支持集与查询集（Support-Query Pair）、特征匹配（Feature Matching）、跨域泛化（Cross-Domain Generalization）

一、文章背景：从"数据饥渴"到"小样本学习"

传统的目标检测模型（如Faster R-CNN、YOLO、SSD等）依赖于大量高质量标注数据进行训练。然而，在现实世界中，获取大量标注数据不仅成本高昂，而且在某些特定领域（如罕见动物、医疗影像、工业缺陷检测）几乎不可行。因此，如何让模型在仅提供少量样本（Few-Shot）的情况下，快速识别并定位新类别的目标，成为计算机视觉领域的重要研究方向。

本文提出了一种全新的小样本目标检测（Few-Shot Object Detection, FSOD）框架，旨在仅用几个标注样本，就能检测出图像中从未见过的物体类别。该方法的核心创新在于：

Attention-RPN：基于注意力机制的区域建议网络，能够根据支持图像（Support Image）动态筛选候选区域；
Multi-Relation Detector：多关系检测器，通过多种匹配关系增强模型对正负样本的区分能力；
Contrastive Training Strategy：对比式训练策略，使模型在训练阶段就学会区分"同类"与"异类"；
FSOD数据集：作者构建了一个包含1000个类别的高质量小样本检测数据集，为后续研究提供了重要基准。

二、问题定义：什么是小样本目标检测？

小样本目标检测的任务可以形式化为：给定一个支持图像 ，其中包含某个目标类别的清晰示例（通常是一个带标注框的局部图像），以及一个查询图像 ，该图像可能包含多个属于支持类别 c 的目标实例，模型需要在查询图像中准确地定位所有同类目标。

如果支持集中包含 N 个类别，每个类别有 K 个样本，则该任务被称为 N-way K-shot detection。例如，5-way 1-shot 表示模型需要同时识别5个新类别，每个类别仅提供1个样本。

这一任务的关键挑战在于：

如何在没有类别先验知识的情况下，定位新类别的目标？
如何在复杂背景中抑制误检？
如何从极少量样本中提取具有泛化能力的特征？

三、核心方法：Attention-RPN + Multi-Relation Detector

3.1 整体架构

论文提出的网络架构如图所示：

该网络架构中查询图像和支持图像通过权重共享的骨干网络处理。Attention-RPN模块根据支持类别过滤候选区域。Multi-Relation Detector模块进一步匹配查询候选框与支持目标。对于N-way训练，网络扩展为多个支持分支。

整个系统基于Faster R-CNN框架，但引入了两个关键模块：

Attention-RPN：改进区域建议网络（RPN），使其能根据支持图像动态调整候选框生成；
Multi-Relation Detector：替换原Faster R-CNN的分类头，通过多关系匹配机制进行类别判别。

网络采用权重共享结构，查询图像和支持图像通过同一个骨干网络（如ResNet-50）提取特征，确保特征空间对齐。

3.2 Attention-RPN：让RPN"看见"支持图像

传统RPN是类别无关的（class-agnostic），它只能判断某个区域是否为"物体"，但无法区分属于哪个类别。在小样本场景下，这会导致大量无关候选框被送入检测器，增加误检风险。

为此，作者提出 Attention-RPN，其结构如图所示：

该结构支持特征经平均池化后得到1×1×C向量，与查询特征进行逐通道相关运算，生成注意力图，用于指导RPN生成候选框。

工作原理：

支持图像特征经过全局平均池化，得到 1×1×C 的向量；
该向量作为"核"，在查询图像特征图上进行逐通道互相关（depth-wise cross correlation）；
得到的注意力图 G 被送入RPN，用于生成候选框。

公式表示：

该机制使得RPN在生成候选框时，优先关注与支持图像特征相似的区域，从而显著提升候选框质量。

实验验证：

Recall@100 IoU=0.5 ：Attention-RPN 达到 0.9130 ，优于传统RPN的 0.8804；
ABO（Average Best Overlap） ：Attention-RPN 为 0.7282 ，优于传统RPN的 0.7127。

这表明Attention-RPN能生成更多高质量候选框，为后续检测奠定基础。

3.3 Multi-Relation Detector：多维度匹配机制

即使RPN生成了高质量候选框，检测器仍需判断这些候选框是否真正属于支持类别。为此，作者设计了 Multi-Relation Detector，如图所示：

该检测器包含三个并行的"关系头"（Relation Heads），分别从不同粒度建模查询候选框与支持图像之间的相似性：

关系头	作用	特点
Global Relation Head	全局特征匹配	使用全局平均池化后的特征进行匹配，适合整体外观相似的目标
Local Relation Head	像素级匹配	计算支持图像与候选区域之间的逐像素相关性，对局部细节敏感
Patch Relation Head	块状匹配	将图像划分为多个patch，建模"一对多"匹配关系，适合纹理复杂的目标

消融实验结果：

实验表明，Local Relation Head 单独表现最好，但三者联合使用 能获得最佳性能，说明不同关系头具有互补性。

3.4 对比式训练策略：2-Way Contrastive Training

传统训练方式仅匹配"同类"样本对（如），但忽略了"异类"样本的区分能力。为此，作者提出 2-Way Contrastive Training 策略。

训练三元组构建：

随机选择：

一个查询图像（含类别 c 的目标）
一个正支持图像（同类别）
一个负支持图像（不同类别，n≠c）

构成三元组。

匹配对设计：

正匹配对 ：前景候选框 + 正支持图像
负匹配对 ：背景候选框 + 正支持图像
负匹配对 ：任意候选框 + 负支持图像

训练时，按 1:2:1 的比例采样这三类匹配对，计算二元交叉熵损失。

实验效果：

结果表明，①. 2-way 1-shot对比训练与传统的1-way 1-shot训练相比，使AP50提升了 7.9%，验证了对比式训练策略的有效性。②. 不同的训练策略中，2-way 5-shot对比训练获得最佳性能。③. 5-way并没有比2-way训练策略产生更好的性能，表明在训练模型以区分不同类别时，仅一个负支持类别就可以。