【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

论文标题Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
作者 :Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai
发表会议 :CVPR 2020
论文链接https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf
代码与数据集https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

关键词:小样本目标检测(Few-Shot Object Detection, FSOD)、注意力机制(Attention Mechanism)、区域建议网络(Region Proposal Network, RPN)、多关系检测器(Multi-Relation Detector)、对比训练(Contrastive Training)、支持集与查询集(Support-Query Pair)、特征匹配(Feature Matching)、跨域泛化(Cross-Domain Generalization)


一、文章背景:从"数据饥渴"到"小样本学习"

传统的目标检测模型(如Faster R-CNN、YOLO、SSD等)依赖于大量高质量标注数据进行训练。然而,在现实世界中,获取大量标注数据不仅成本高昂,而且在某些特定领域(如罕见动物、医疗影像、工业缺陷检测)几乎不可行。因此,如何让模型在仅提供少量样本(Few-Shot)的情况下,快速识别并定位新类别的目标,成为计算机视觉领域的重要研究方向。

本文提出了一种全新的小样本目标检测(Few-Shot Object Detection, FSOD)框架,旨在仅用几个标注样本,就能检测出图像中从未见过的物体类别。该方法的核心创新在于:

  1. Attention-RPN:基于注意力机制的区域建议网络,能够根据支持图像(Support Image)动态筛选候选区域;
  2. Multi-Relation Detector:多关系检测器,通过多种匹配关系增强模型对正负样本的区分能力;
  3. Contrastive Training Strategy:对比式训练策略,使模型在训练阶段就学会区分"同类"与"异类";
  4. FSOD数据集:作者构建了一个包含1000个类别的高质量小样本检测数据集,为后续研究提供了重要基准。

二、问题定义:什么是小样本目标检测?

小样本目标检测的任务可以形式化为:给定一个支持图像 ,其中包含某个目标类别的清晰示例(通常是一个带标注框的局部图像),以及一个查询图像 ,该图像可能包含多个属于支持类别 c 的目标实例,模型需要在查询图像中准确地定位所有同类目标。

如果支持集中包含 N 个类别,每个类别有 K 个样本,则该任务被称为 N-way K-shot detection。例如,5-way 1-shot 表示模型需要同时识别5个新类别,每个类别仅提供1个样本。

这一任务的关键挑战在于:

  • 如何在没有类别先验知识的情况下,定位新类别的目标?
  • 如何在复杂背景中抑制误检?
  • 如何从极少量样本中提取具有泛化能力的特征?

三、核心方法:Attention-RPN + Multi-Relation Detector

3.1 整体架构

论文提出的网络架构如图所示:

该网络架构中查询图像和支持图像通过权重共享的骨干网络处理。Attention-RPN模块根据支持类别过滤候选区域。Multi-Relation Detector模块进一步匹配查询候选框与支持目标。对于N-way训练,网络扩展为多个支持分支。

整个系统基于Faster R-CNN框架,但引入了两个关键模块:

  • Attention-RPN:改进区域建议网络(RPN),使其能根据支持图像动态调整候选框生成;
  • Multi-Relation Detector:替换原Faster R-CNN的分类头,通过多关系匹配机制进行类别判别。

网络采用权重共享结构,查询图像和支持图像通过同一个骨干网络(如ResNet-50)提取特征,确保特征空间对齐。


3.2 Attention-RPN:让RPN"看见"支持图像

传统RPN是类别无关的(class-agnostic),它只能判断某个区域是否为"物体",但无法区分属于哪个类别。在小样本场景下,这会导致大量无关候选框被送入检测器,增加误检风险。

为此,作者提出 Attention-RPN,其结构如图所示:

该结构支持特征经平均池化后得到1×1×C向量,与查询特征进行逐通道相关运算,生成注意力图,用于指导RPN生成候选框。

工作原理
  1. 支持图像特征 经过全局平均池化,得到 1×1×C 的向量;
  2. 该向量作为"核",在查询图像特征图 上进行逐通道互相关(depth-wise cross correlation);
  3. 得到的注意力图 G 被送入RPN,用于生成候选框。
公式表示

该机制使得RPN在生成候选框时,优先关注与支持图像特征相似的区域,从而显著提升候选框质量

实验验证
  • Recall@100 IoU=0.5 :Attention-RPN 达到 0.9130 ,优于传统RPN的 0.8804
  • ABO(Average Best Overlap) :Attention-RPN 为 0.7282 ,优于传统RPN的 0.7127

这表明Attention-RPN能生成更多高质量候选框,为后续检测奠定基础。


3.3 Multi-Relation Detector:多维度匹配机制

即使RPN生成了高质量候选框,检测器仍需判断这些候选框是否真正属于支持类别。为此,作者设计了 Multi-Relation Detector,如图所示:

该检测器包含三个并行的"关系头"(Relation Heads),分别从不同粒度建模查询候选框与支持图像之间的相似性:

关系头 作用 特点
Global Relation Head 全局特征匹配 使用全局平均池化后的特征进行匹配,适合整体外观相似的目标
Local Relation Head 像素级匹配 计算支持图像与候选区域之间的逐像素相关性,对局部细节敏感
Patch Relation Head 块状匹配 将图像划分为多个patch,建模"一对多"匹配关系,适合纹理复杂的目标
消融实验结果

实验表明,Local Relation Head 单独表现最好,但三者联合使用 能获得最佳性能,说明不同关系头具有互补性


3.4 对比式训练策略:2-Way Contrastive Training

传统训练方式仅匹配"同类"样本对(如 ),但忽略了"异类"样本的区分能力。为此,作者提出 2-Way Contrastive Training 策略。

训练三元组构建

随机选择:

  • 一个查询图像 (含类别 c 的目标)
  • 一个正支持图像 (同类别)
  • 一个负支持图像 (不同类别,n≠c)

构成三元组

匹配对设计
  • 正匹配对 :前景候选框 + 正支持图像
  • 负匹配对 :背景候选框 + 正支持图像
  • 负匹配对 :任意候选框 + 负支持图像

训练时,按 1:2:1 的比例采样这三类匹配对,计算二元交叉熵损失。

实验效果

结果表明,①. 2-way 1-shot对比训练与传统的1-way 1-shot训练相比,使AP50提升了 7.9%,验证了对比式训练策略的有效性。②. 不同的训练策略中,2-way 5-shot对比训练获得最佳性能。③. 5-way并没有比2-way训练策略产生更好的性能,表明在训练模型以区分不同类别时,仅一个负支持类别就可以。


四、FSOD数据集:首个大规模小样本检测基准

为推动小样本目标检测研究,作者构建了 FSOD(Few-Shot Object Detection)数据集。

4.1 数据集构建流程

  1. 数据来源:整合 MS COCO、ImageNet、Open Images 等数据集;
  2. 标签统一:合并语义相同的类别(如"polar bear"与"ice bear");
  3. 质量筛选:去除标注错误、边界框过小(<0.05%图像面积)的样本;
  4. 划分策略 :训练集800类,测试集200类,类别完全不重叠,确保评估模型泛化能力。

FSOD标签树如上图所示。ImageNet类别(红圈)与Open Images类别(绿圈)融合,形成统一的层级结构。

文中将来自不同数据集的类别进行语义对齐,从而构建一个统一的、无歧义的标签体系,为跨数据集融合奠定基础。

4.2 数据集统计

FSOD数据集共1000类,66,502张图像,182,591个标注框。

4.3 数据集特点

  • 高多样性:涵盖83个父类(如哺乳动物、服装、武器等);
  • 挑战性强:测试集中26.5%的图像包含≥3个目标;
  • 类别不重叠:训练与测试类别完全分离,真正考验泛化能力。

FSOD数据集中大多数类别样本数在22~108之间,符合小样本设定。


五、实验结果:SOTA性能

5.1 定性结果展示

可以直观看到模型的强大泛化能力:仅凭一个支持样本,模型就能在复杂场景中准确检测出多个同类目标,且几乎没有误检。

5.2 与SOTA方法对比

本文方法无需进一步的训练和微调,即可获得SOTA性能。

5.3 与SOTA方法对比(ImageNet Detection数据集)

本文方法提升超过30个百分点,达到新的SOTA水平。

5.4 与SOTA方法对比(MS COCO数据集)

在MS COCO数据集上的性能对比显示,本方法在未针对COCO微调的情况下,仍取得优异表现。

Tips :本文方法不仅在自建FSOD数据集上表现优异,还能无缝迁移到其他主流检测数据集,展现出强大的跨域泛化能力。

5.5 消融实验总结

  • Attention-RPN 提升AP50约2.0%;
  • Multi-Relation Detector 提升AP50约5.0%;
  • 对比训练策略提升AP50约7.9%;
  • 三者结合实现端到端无需微调的小样本检测。

六、总结与启示

核心贡献

  1. 提出 Attention-RPN,首次将支持信息引入RPN,提升候选框质量;
  2. 设计 Multi-Relation Detector,通过多粒度匹配增强判别能力;
  3. 引入 对比训练策略,使模型学会区分"同类"与"异类";
  4. 构建 FSOD数据集,为小样本检测提供新基准。

意义与影响

  • 本文是首个无需微调的小样本目标检测框架;
  • 开启了"匹配式检测"新范式,后续许多工作(如FSCE、Dense Teacher)均受其启发;
  • 所提数据集成为小样本检测领域的重要基准。

主要参考文献

1\] Snell et al., *Prototypical Networks for Few-shot Learning* , NeurIPS 2017 \[9\] Ren et al., *LSTD: A Low-Shot Transfer Detector* , CVPR 2018 \[13\] Lin et al., *Microsoft COCO: Common Objects in Context* , ECCV 2014 \[25\] Ren et al., *Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks* , NeurIPS 2015 \[37\] Vinyals et al., *Matching Networks for One Shot Learning* , NeurIPS 2016 \[61\] Rosenberg et al., *Incremental Few-Shot Object Detection*, CVPR 2019

相关推荐
deephub5 天前
从另一个视角看Transformer:注意力机制就是可微分的k-NN算法
人工智能·深度学习·transformer·注意力机制·knn
七元权15 天前
论文阅读-Correlate and Excite
论文阅读·深度学习·注意力机制·双目深度估计
nju_spy21 天前
李沐深度学习论文精读(二)Transformer + GAN
人工智能·深度学习·机器学习·transformer·gan·注意力机制·南京大学
会写代码的饭桶24 天前
Transformers 学习入门:注意力机制剖析
transformer·注意力机制·自注意力·交叉注意力·多头注意力
失散131 个月前
自然语言处理——04 注意力机制
人工智能·自然语言处理·注意力机制·seq2seq 架构
AI波克布林1 个月前
发文暴论!线性注意力is all you need!
人工智能·深度学习·神经网络·机器学习·注意力机制·线性注意力
这张生成的图像能检测吗2 个月前
(论文速读)RMT:Retentive+ViT的视觉新骨干
人工智能·深度学习·计算机视觉·transformer·注意力机制
一勺汤2 个月前
YOLO12 改进、魔改|直方图 Transformerm模块HTB ,通过动态范围特征分组、针对性注意力与多尺度融合,提高对遮挡以及多尺度目标的关注能力
yolo·注意力机制·多尺度·遮挡·yolov12·htb·yolo12
网安INF3 个月前
深度学习中的 Seq2Seq 模型与注意力机制
人工智能·深度学习·神经网络·注意力机制·seq2seq