【遥感目标检测综述】【GRSS】遥感目标检测与深度学习的相遇：挑战与进展的元综述

Remote Sensing Object Detection Meets Deep Learning： A Meta-review of Challenges and Advances

遥感目标检测与深度学习的相遇：挑战与进展的元综述

0.论文摘要和作者信息

摘要

遥感目标检测（RSOD）是遥感领域最基础和最具挑战性的任务之一，长期以来一直受到人们的关注。近年来，深度学习技术展示了强大的特征表示能力，并导致了RSOD技术发展的巨大飞跃。在这个技术快速发展的时代，这篇综述旨在全面回顾基于深度学习的RSOD方法的最新成就。这篇综述涵盖了300多篇论文。我们确定了RSOD中的五个主要挑战，包括多尺度目标检测、旋转目标检测、弱目标检测、微小目标检测和有限监督下的目标检测，并以分层划分的方式系统地回顾了相应的方法。我们还回顾了RSOD领域广泛使用的基准数据集和评估指标，以及RSOD的应用场景。为进一步推进RSOD的研究提供了未来的研究方向。

索引术语-目标检测、遥感图像、深度学习、技术演进

作者信息

Xiangrong Zhang, Tianyang Zhang, Guanchun Wang, Peng Zhu, Xu Tang, and Licheng Jiao are with the School of Artificial Intelligence, Xidian University, Xi'an 710071, China (e-mail: xrzhang@mail.xidian.edu.cn). Xiuping Jia is with the School of Engineering and Information Technology, University of New South Wales, Canberra, ACT 2612, Australia.

1.研究背景

随着地球观测技术的快速进步，遥感卫星（如Google Earth $1$ 、WordWide-3 $2$ 和Gaofen系列卫星 $3$ - $5$ ）在空间、时间和光谱分辨率方面取得了显著提高，现在可以获得大量遥感图像。受益于可用RSI的急剧增加，人类进入了一个遥感大数据时代，RSI的自动解译成为一个活跃的产量挑战性课题 $6$ - $8$ 。

RSOD旨在确定给定RSI中是否存在感兴趣的目标，并返回每个预测目标的类别和位置。本调查中的术语"目标"是指人造或高度结构化的目标（如飞机、车辆和船舶），而不是非结构化的场景目标（如土地、天空和草地）。作为RSI自动解释的基石，RSOD受到了极大的关注。

一般来说，RSI是在具有不同地面采样距离（GSD）的头顶视点拍摄的，并且覆盖了地球表面的广泛区域。结果，地理空间目标在规模上表现出更显著的多样性，角度和外观。基于RSI中地理空间目标的特点，我们总结了RSOD在以下五个方面的主要挑战：

（1）巨大的尺度变化。一方面，不同类别的目标通常存在巨大的比例变化，如图1(b)所示：车辆可以小至10个像素区域，而飞机可以比车辆大20倍。另一方面，类别内目标也表现出广泛的尺度。因此，检测模型需要处理大规模和小规模目标。

（2）任意取向。独特的头顶视点导致地理空间目标通常以任意方向分布，如图1（c）所示。这种旋转目标检测任务加剧了RSOD的挑战，使得检测器能够感知方向非常重要。

（3）弱特征响应。通常，RSI包含复杂的上下文和大量的背景噪声。如图1（a）所示，一些车辆被阴影遮挡，并且周围的背景噪声往往具有与车辆相似的外观。这种复杂的干扰可能会淹没感兴趣的目标并恶化它们的特征表示，这导致感兴趣的目标被呈现为弱的特征响应 $9$ 。

（4）微小目标。如图1（d）所示，微小目标往往表现出极小的尺度和有限的外观信息，导致质量差的特征表示。此外，当前流行的检测范式不可避免地削弱甚至丢弃了微小目标的表示 $10$ 。微小目标检测中的这些问题给现有的检测方法带来了新的困难。

（5）昂贵的注释。地理空间目标在尺度和角度方面的复杂特征，以及细粒度注释所需的专家知识 $11$ ，使得RSI的精确框级注释成为一项耗时耗力的任务。然而，当前基于深度学习的检测器严重依赖于丰富的标记良好的数据来达到性能饱和。因此，在缺乏足够监督信息的情况下，有效的RSOD方法仍然具有挑战性。

图1。遥感图像的典型示例。（a）复杂的上下文和大量的背景噪声导致目标的特征响应较弱。（b）类别间和类别内目标都存在巨大的尺度差异。（c）目标以任意方向分布。（d）微小目标往往表现出极小的尺度。

为了应对这些挑战，在过去二十年中出现了许多RSOD方法。早期，研究人员采用模板匹配 $12$ - $14$ 和先验知识 $15$ - $17$ 进行遥感场景中的目标检测。这些早期的方法更多地依赖于手工制作的模板或先验知识，导致结果不稳定。

后来，机器学习方法 $18$ -- $21$ 已经成为RSOD的主流，它将目标检测视为一项分类任务。具体地，机器学习模型首先从输入图像中搜索一组目标建议，并提取这些目标建议的纹理、上下文和其他特征。然后，它采用独立的分类器来识别这些目标建议中的目标类别。然而，来自机器学习方法的基于浅层学习的特征显著限制了目标的表示，尤其是在更具挑战性的场景中。此外，基于机器学习的目标检测方法不能以端到端的方式训练，这在遥感大数据时代不再适用。

最近，深度学习技术 $22$ 已经从海量数据中展示了强大的特征表示能力，计算机视觉中最先进的检测器 $23$ - $26$ 实现了与人类相媲美的目标检测能力 $27$ 。利用深度学习技术的先进进展，各种基于深度学习的方法已经主导了RSOD，并导致了检测性能的显著突破。与传统方法相比，深度神经网络架构可以提取高级语义特征，并获得更鲁棒的目标特征表示。此外，高效的端到端训练方式和自动化的特征提取方式使得基于深度学习的目标检测方法更适合遥感大数据时代的RSOD。

随着RSOD的流行，近年来发表了许多地理空间目标检测调查 $9$ 、 $28$ - $34$ 。例如，Cheng等人 $29$ 回顾了RSOD的早期发展。韩等人 $9$ 重点研究了RSI中的小目标和弱目标检测。在 $30$ 中，作者回顾了飞机检测方法。李等人 $31$ 根据各种改进策略，对遥感界基于深度学习的探测器进行了彻底的调查。此外，一些工作 $28$ , $33$ , $34$ 主要集中在发布RSOD的新基准数据集，并简要回顾了遥感领域的目标检测方法。与以往的工作相比，本调查基于地理空间目标的特征，全面分析了RSOD中的主要挑战，并根据这些挑战对基于深度学习的遥感目标检测器进行了系统的分类和总结。此外，这项工作回顾了300多篇关于RSOD的论文，从而进行了更全面和系统的调查。

图2示出了本综述中目标检测方法的分类。根据RSOD中的主要挑战，我们将当前基于深度学习的RSOD方法分为五大类：多尺度目标检测、旋转目标检测、弱目标检测、微小目标检测和有限监督下的目标检测。在每个类别中，我们根据针对特定类别挑战设计的改进策略或学习范式进一步总结子类别。对于多尺度目标检测，我们主要回顾了三种广泛使用的方法：数据增强策略、多尺度特征表示和高质量多尺度锚点生成。关于旋转目标检测，我们主要关注旋转检测框表示和旋转不敏感特征学习。对于弱目标检测，我们将其分为两类：背景噪声抑制和相关上下文挖掘。对于微小目标检测，我们将其细化为三个流：判别特征提取、超分辨率重建和改进的检测度量。根据学习范式，我们将有限监督下的目标检测分为弱监督目标检测、半监督目标检测和少样本目标检测。值得注意的是，每个子类别中仍然有详细的划分，如图2中的圆角矩形所示。这种层次划分提供了对现有方法的系统回顾和总结。它有助于研究人员更全面地了解RSOD，并促进进一步的进展，这是本综述的主要目的。

图2。本文综述了基于深度学习的RSOD方法的结构化分类。采用层次划分来详细描述每个子类别。

综上所述，本次审查的主要贡献如下：

•我们根据地理空间目标的特征全面分析了RSOD中的主要挑战，包括巨大的尺度变化、任意的方向、弱的特征响应、微小的目标和昂贵的注释。

•我们系统地总结了遥感界中基于深度学习的目标检测器，并根据他们的动机。

•我们对RSOD的未来研究方向进行了前瞻性讨论，以激励RSOD的进一步发展。

2.多尺度目标检测

由于RSIs之间不同的空间分辨率，巨大的尺度变化是RSOD中众所周知的具有挑战性的问题，并严重降低了检测性能。如图3所示，我们展示了DOTAv2.0数据集中每个类别的目标像素区域的分布 $33$ 。显然，不同类别之间的比例差异很大，其中小型车辆可能仅包含小于10个像素区域，而机场超过 1 0 5 10^5 105个像素区域。更糟糕的是，巨大的类别内尺度变化进一步加剧了多尺度目标检测的困难。为了解决巨大的尺度变化问题，目前的研究主要分为数据扩充、多尺度特征表示和多尺度锚点生成。图4给出了多尺度目标检测方法的简要概述。

图3.DOTAV2.0数据集中每个类别的比例变化（类别的简称可参考 $33$ ）。类别间和类别内都存在巨大的尺度差异。

图4。多尺度目标检测方法的简要总结。

A.数据扩充

数据扩充是一种简单但广泛应用的增加数据集多样性的方法。对于多尺度目标检测中的尺度变化问题，图像缩放是一种直接有效的增强方法。赵等人 $35$ 将多尺度图像金字塔馈送到多个网络中，并融合这些网络的输出特征以生成多尺度特征表示。在 $36$ 中，Azimi等人提出了一种组合图像级联和特征金字塔网络来提取各种尺度上的目标特征。虽然图像金字塔可以有效地提高对多尺度目标的检测性能，但严重增加了推理时间和计算复杂度。为了解决这个问题，Shamsolmoali等人 $37$ 设计了一种轻量级图像金字塔模块（LIPM）。所提出的LIPM接收多个下采样图像以生成多尺度特征图，并将输出的多尺度特征图与来自主干的相应尺度特征图融合。此外，一些现代数据增强方法（例如，Moscia和Stitcher $38$ ）在多尺度目标检测中也显示出显著的有效性，尤其是对于小目标 $39$ -- $41$ 。

B.多尺度特征表示

RSOD的早期研究通常利用主干的最后一个单一特征图来检测目标，如图5（a）所示。然而，这种单尺度特征图预测限制了检测器处理具有宽尺度范围的目标 $42$ -- $44$ 。因此，多尺度特征表示方法被提出，并成为RSOD中巨大目标尺度变化问题的有效解决方案。目前的多尺度特征表示方法主要分为三股：多尺度特征集成、金字塔特征层次和特征金字塔网络。

图5。单尺度特征表示和多尺度特征表示的六种范例。（a）单尺度特征表示。（b）多尺度特征集成。（c）金字塔特征层次。（d）特征金字塔网络。(e)自上而下和自下而上。(f)跨尺度特征平衡。

1）多尺度特征集成：卷积神经网络（CNN）通常采用深度层次结构，不同层次的特征具有不同的特性。浅层特征通常包含细粒度特征（例如，目标的点、边缘和纹理）并提供详细的空间位置信息，这更适合于目标定位。相反，来自较高层的特征显示出更强的语义信息，并呈现用于目标分类的判别信息。为了组合来自不同层的信息并生成多尺度表示，一些研究人员引入了多层特征集成方法，将来自多层的特征集成到单个特征图中，并在该重建的特征图上执行检测 $45$ -- $52$ 。图5(b)描绘了多层特征集成方法的结构。

Zhang等 $48$ 设计了一种分层鲁棒CNN，通过融合三个不同层的多尺度卷积特征提取分层空间语义信息，并引入多个全连接层来增强网络的旋转和缩放鲁棒性。考虑到多层特征之间的不同范数，Lin等人 $49$ 在集成之前对每个特征应用L2归一化，以保持网络训练阶段的稳定性。与以前在卷积层级别的多尺度特征集成不同，Zheng等人 $51$ 设计了HyBlock来构建层内级别的多尺度特征表示。

HyBlock采用具有锥体感受野的可分离卷积来学习超尺度特征，缓解了RSOD中的尺度变化问题。

2）金字塔特征层次：金字塔特征层次背后的关键洞察力是，不同层中的特征可以编码来自不同尺度的目标信息。例如，小目标更可能出现在浅层中，而大目标往往存在于深层中。因此，金字塔特征层次结构采用多层特征进行独立预测，以检测具有宽比例范围的目标，如图5（c）所示。SSD $53$ 是金字塔特征层次的典型代表，在自然场景 $54$ - $56$ 和遥感场景 $57$ - $63$ 中都有广泛的扩展应用。

为了提高小型车辆的检测性能，Liang $60$ 等人在SSD中添加了一个额外的缩放分支，该分支由反卷积模块和平均池化层组成。参考SSD中的分层回归层，Wang等人 $58$ 介绍了尺度不变回归层（SIRLs），其中采用三个孤立的回归层来捕获全尺度目标的信息。在SIRLs的基础上，引入了一种新的特定尺度联合损耗来加速网络收敛。在 $64$ 中，李等人提出了在RPN和检测子网络中引入分层选择性过滤层的HSF-Net。具体地，分层选择性滤波层采用具有不同核大小（例如，1 × 1、3 × 3和5 × 5）的三个卷积层来获得多个感受野特征，这有利于多尺度船舶检测。

3）特征金字塔网络（Feature Pyramid Networks）：金字塔特征层次方法使用独立的多级特征进行检测，忽略了不同级别特征之间的互补信息，导致低级别特征的语义信息较弱。为了解决这个问题，林等人 $65$ 提出了特征金字塔网络（FPN）。如图5（d）所示，FPN引入了一种自上而下的路径，将丰富的语义信息从高层特征转移到浅层特征，导致所有级别的丰富语义特征（请参考 $65$ 中的详细信息）。由于FPN在多尺度目标检测方面的显著改进，FPN及其扩展 $66$ -- $68$ 在多尺度特征表示中起着主导作用。

考虑到地理空间目标（如桥梁、港口和机场）的极端纵横比，Hou等人 $69$ 提出了一种非对称特征金字塔网络（AFPN）。AFPN采用非对称卷积块来增强关于十字形骨架的特征表示，并提高大纵横比目标的性能。Zhang等 $70$ 设计了一种拉普拉斯特征金字塔网络（LFPN），将高频信息注入到多尺度金字塔特征表示中，这对于精确的目标检测是有用的，但被以前的工作所忽略。在 $71$ 中，Zhang等人引入了高分辨率特征金字塔网络（HRFPN），以充分利用高分辨率特征表示，从而实现精确和鲁棒的SAR船舶检测。此外，一些研究人员将新颖的特征融合模块 $72$ , $73$ 、注意力机制 $74$ -- $77$ 或膨胀卷积层 $78$ , $79$ 集成到FPN中，以进一步获得更具区分性的多尺度特征表示。

FPN引入了一种自上而下的路径，将高层语义信息传递到浅层，而低层空间信息在主干网中长距离传播后仍然在顶层丢失。利用这个问题，傅等人 $80$ 提出了一种特征融合架构（FFA），该架构将辅助的自下而上路径集成到FPN结构中，以通过短路径将低级空间信息传输到顶层特征，如图5（e）所示。FFA确保检测器提取具有丰富语义和详细空间信息的多尺度特征金字塔。同样，在 $81$ , $82$ 中，作者引入了一种双向FPN，该FPN通过可学习参数学习不同级别特征的重要性，并通过迭代的自上而下和自下而上的路径融合多级别特征。

与上述顺序增强途径 $80$ 不同，一些研究 $83$ - $94$ 采用了跨层次的特征融合方式。如图5（f）所示，跨级特征融合方法充分收集所有级别的特征，以自适应地获得平衡的特征图。程等人 $83$ 利用特征级联操作实现跨尺度特征融合。考虑到来自不同层次的特征对特征融合应该有不同的贡献，Fu等人 $84$ 提出了基于级别的注意力，以学习每个级别特征的独特贡献。由于transformer结构强大的全局信息提取能力，一些工作 $88$ 、 $89$ 引入了transformer结构来集成和细化多级特征。在 $90$ 中，Chen等人提出了一种级联注意网络，其中引入了位置监督来增强多级特征的语义信息。

C.多尺度锚生成

除了数据扩充和多尺度特征表示方法之外，多尺度锚点生成还可以解决RSOD中巨大的目标尺度变化问题。由于自然场景和遥感场景中目标尺度范围的差异，一些研究 $95$ - $104$ 修改了常见目标检测中的锚点设置，以更好地覆盖地理空间目标的尺度。

Guo等 $95$ 在检测器中注入了具有更多尺度和纵横比的额外锚点，用于多尺度目标检测。Dong等 $98$ 根据训练集中目标尺度的统计量，设计了更合适的锚定尺度。Qiu等 $99$ 将原始的方形RoI特征扩展为垂直、方形和水平RoI特征，并融合这些RoI特征，以更灵活的方式表示不同纵横比的目标。上述方法遵循固定的锚点设置，而当前的研究 $100$ - $104$ 试图在训练阶段动态学习锚点。考虑到不同类别之间的纵横比变化，Hou等人 $100$ 设计了一种新的自适应纵横比锚（SARA）来自适应地学习每个类别的适当纵横比。SARA将可学习的类别纵横比值嵌入到回归分支中，以利用位置回归损失的梯度自适应地更新每个类别的纵横比。受GA-RPN $105$ 的启发，一些研究人员 $102$ - $104$ 在检测器中引入了轻量级子网络，以自适应地学习锚点的位置和形状信息。

3.旋转目标检测

目标的任意方向是RSOD中的另一个主要挑战。由于RSI中的目标是从鸟瞰图中获取的，它们表现出任意方向的属性，因此在一般目标检测中广泛使用的水平检测框（HBB）表示不足以准确定位旋转目标。因此，许多研究人员将注意力集中在地理空间目标的任意方向属性上，这可以概括为旋转目标表示和旋转不变特征学习。图6中描绘了旋转目标检测方法的简要概述。

图6.旋转目标检测方法的简要总结。

A.旋转目标表示

旋转目标表示对于RSOD避免冗余背景和获得精确检测结果至关重要。最近的旋转目标表示方法主要可以概括为几类：五参数表示 $107$ -- $116$ 、八参数表示 $117$ -- $126$ 、角度分类表示 $106$ , $127$ 、 $129$ 、高斯分布表示 $130$ -- $133$ 和其他 $134$ -- $144$ 。

1）五参数：最流行的解决方案是用五参数方法 ( x , y , w , h , θ ) (x, y, w, h, θ) (x,y,w,h,θ)表示目标，这只是在HBB $107$ - $115$ 上增加了一个额外的旋转角度参数θ。角度范围的定义在这种方法中起着至关重要的作用，其中导出了两种定义。一些研究 $107$ - $112$ 将θ定义为与x轴的锐角，并将角度范围限制为90°，如图7(a)所示。作为最具代表性的工作，Yang等人 $107$ 遵循五参数方法来检测旋转目标，并设计了一个IoU感知损失函数来解决旋转角度的边界不连续性问题。另一组 $113$ - $116$ 将θ称为x轴和长边之间的角度，其范围为180°，如图7(b)所示。丁等人 $114$ 通过五参数方法回归旋转角度，并将水平区域的特征转换为旋转区域，以方便旋转目标检测。

图7。旋转目标的五参数表示和八参数表示方法的可视化 $106$ 。

2）八参数：与五参数方法不同，八参数方法 $117$ - $126$ 解决的是通过直接回归四个顶点 { ( a x , a y ) , ( b x , b y ) , ( c x , c y ) , ( d x , d y ) } \{(a_x, a_y), (b_x, b_y), (c_x, c_y), (d_x, d_y)\} {(ax,ay),(bx,by),(cx,cy),(dx,dy)}来表示旋转的目标，如图7（c）所示。Xia等 $117$ 首先采用了用于旋转目标表示的八参数方法，该方法通过在训练过程中最小化每个顶点与地面真实坐标之间的差异来直接监督检测模型。然而，这些顶点的序列顺序对于八参数方法避免不稳定的训练是必不可少的。如图8所示，直观地从红色虚线箭头回归目标是一条更容易的路线，但实际过程遵循红色实线箭头，这造成了模型训练的困难。为此，钱等人 $119$ ， $121$ 提出了一种调制损失函数，该函数计算不同排序顺序下的损失，并选择最小情况进行学习，有效地提高了检测性能。

图8。五参数法和八参数法的边界不连续性挑战 $119$ , $121$ 。

3）角度分类：为了从源头解决图8中描述的问题，许多研究人员 $106$ , $127$ ， $129$ 通过将角度预测问题转化为角度分类任务，绕过了回归的边界挑战。Yang等 $106$ 提出了用于旋转目标检测的第一种角度分类方法，该方法将连续角度转换为离散角度，并用新颖的圆形平滑标签训练模型。然而，角度分类头 $106$ 引入了附加参数并降低了检测器的效率。为了克服这一点，杨等人 $129$ 用一个密集编码的标签改进了 $106$ ，确保了模型的准确性和效率。

4）高斯分布：虽然上述方法取得了有希望的进展，但它们没有考虑实际检测性能和优化度量之间的不对准。最近，一系列工作 $130$ -- $133$ 旨在通过用高斯分布表示旋转目标来处理这一挑战，如图9所示。具体地，这些方法将旋转的目标转换为2D高斯分布 N ( μ , Σ ) N(μ, Σ) N(μ,Σ)，如下所示：

图9。旋转目标的高斯分布表示方法的可视化 $130$ 。

其中R表示旋转矩阵，Λ表示

特征值的对角矩阵。利用等式1中的高斯分布表示，两个旋转目标之间的IoU可以简化为两个分布之间的距离估计。此外，高斯分布表示舍弃了角边界的定义，有效地解决了角边界问题。杨等人 $130$ 提出了一种新的高斯瓦瑟斯坦距离（GWD）度量来测量分布之间的距离，该度量通过有效地近似旋转IoU来实现显著的性能。基于此，Yang等人 $131$ 引入了Kullback-Leibler散度（KLD）度量来增强其尺度不变性。

5）其他：一些研究人员通过其他方法解决旋转目标表示，如基于分割的 $134$ - $136$ 和基于关键点的 $137$ - $144$ 。基于分割的方法中具有代表性的是Mask OBB $134$ ，它在每个水平建议上部署分割方法，以获得像素级目标区域，并产生最小外部矩形作为旋转的边界框。另一方面，魏等人 $142$ 对旋转目标采用了基于关键点的表示，该表示定位目标中心并利用一对中线来表示整个目标。此外，Yang等 $145$ 提出了第一个水平框标注监督的旋转目标检测器，该检测器采用两种不同视图的自监督学习来预测旋转目标的角度。

B.旋转不变特征学习

旋转不变特征指示特征在任何旋转变换下保持一致。因此，目标的旋转不变特征学习是解决旋转目标检测中任意方向问题的一个重要研究领域。为此，许多研究人员提出了一系列学习目标旋转不变性的方法 $146$ -- $157$ ，显著改善了RSI中的旋转目标检测。

Cheng等人 $146$ 提出了第一个旋转不变目标检测器，通过使用rotationinsensitive特征来精确识别目标，该检测器强制目标的特征在不同旋转角度下保持一致。后来，程等人 $148$ 、 $149$ 采用旋转不变和fisher判别正则化器来鼓励检测器学习旋转不变和判别特征。在 $150$ ， $151$ 中，Wu等人分析了傅立叶域极坐标下目标的旋转不变性，并设计了空间频率通道特征提取模块来获得旋转不变性特征。考虑到轴对齐卷积特征和旋转目标之间的未对准，Han等人 $156$ 提出了一种定向检测模块，该模块采用一种新的对齐卷积操作来学习方向信息。在 $155$ 中，Han等人进一步设计了一个旋转等方差检测器来显式编码旋转等方差和旋转不变性。此外，一些研究人员 $80$ , $157$ 用一系列预定义的旋转锚扩展了RPN，以应对地理空间目标的任意方向特征。

我们在表I中总结了里程碑旋转目标检测方法的检测性能。

表I 旋转目标检测方法在具有旋转注释的DOTAV1.0数据集上的检测性能。

4.弱目标检测

RSI中感兴趣的目标通常嵌入在具有复杂目标空间模式和大量背景噪声的复杂场景中。复杂的上下文和背景噪声严重损害了感兴趣目标的特征表示，导致对感兴趣目标的特征响应较弱。因此，许多现有的工作集中在改进感兴趣目标的特征表示上，这可以分为两个流：抑制背景噪声和挖掘相关的上下文信息。在图10中给出了弱目标检测方法的简要概述。

图10。弱目标检测方法的简要总结。

A.抑制背景噪声

这类方法旨在通过弱化背景区域的响应来加强特征图中目标区域的弱响应。主要可以分为两类：内隐学习和外显监督。

1）内隐学习：内隐学习方法在检测器中采用精心设计的模块，在训练阶段自适应地学习重要特征并抑制冗余特征，从而减少背景噪声干扰。

在机器学习中，降维可以有效地学习紧凑的特征表示，抑制不相关的特征。利用上述性质，叶等人 $158$ 提出了一种特征过滤模块，通过连续的瓶颈层捕获低维特征图，以过滤背景噪声干扰。受人类视觉感知选择性聚焦的启发，注意机制被提出并得到了大量研究 $159$ - $161$ 。注意机制在网络学习阶段重新分配特征重要性，以增强重要特征并抑制冗余信息。因此，注意力机制也在RSOD中被广泛引入，以解决背景噪声干扰问题 $57$ , $162$ 、 $170$ 。在 $162$ 中，Huang等人强调了补丁-补丁依赖性对RSOD的重要性，并设计了一种新的非局部感知金字塔注意（NP-Attention）。NP-Attention学习空间多尺度非局部依赖性和通道依赖性，以使检测器能够专注于目标区域而不是背景。考虑到SAR图像中陆地区域的强散射干扰，Sun等 $163$ 提出了一种船舶注意力模块，以突出船舶的特征表示，减少来自陆地区域的虚警。此外，为RSOD设计的一系列注意力机制（例如，空间洗牌组增强注意力 $165$ 、多尺度空间和通道注意力 $166$ 、离散小波多尺度注意力 $167$ 等。）已经证明了它们在抑制背景噪声方面的有效性。

2）显式监督：与隐式学习方法不同，显式监督方法采用辅助显著性监督信息来显式引导检测器突出前景区域并弱化背景。

李等人 $171$ 采用区域对比度法获得显著图并构建显著特征通过融合多尺度特征图与显著图来构建金字塔。在 $172$ 中，Lei等人用显著性检测方法 $173$ 提取显著性图，并提出显著性重建网络。显著性重建网络利用显著性图作为像素级监督来指导检测器的训练，以加强特征图中的显著性区域。上述显著性检测方法通常是无监督的，并且生成的显著性图可能包含非目标区域，如图11(b)所示，从而向检测器提供不准确的引导。因此，后来的工作 $107$ 、 $134$ 、 $174$ - $180$ 将框级注释转化为目标级显著性引导信息（如图11（c）所示），以生成更准确的显著性监督。杨等人 $107$ 设计了一个像素注意力网络，该网络采用目标级显著性监督来增强目标线索并削弱背景信息。在 $175$ 中，Zhang等人提出了FoRDet，以更简洁的方式利用目标级显著性监督。具体地，所提出的FoRDet利用粗糙阶段中前景区域的预测（在框级注释下监督）来增强精细阶段中前景区域的特征表示。

图11.(a)输入图像。（b）显著性检测方法生成的显著性图 $173$ 。（c）目标级显著性图。

B.挖掘相关上下文信息

上下文信息通常是指目标与周围环境或场景之间的空间和语义关系。该上下文信息可以为无法清楚区分的目标提供辅助特征表示。因此，挖掘上下文信息可以有效地解决RSOD中的弱特征响应问题。根据上下文信息的类别，现有方法主要分为局部和全局上下文信息挖掘。

1）局部上下文信息挖掘：局部上下文信息是指目标与其周围环境在视觉信息和空间分布上的相关性 $147$ 、 $181$ - $187$ 。Zhang等人 $181$ 通过将原始区域建议缩放为三种不同的大小来生成多个局部上下文区域，并提出了一种上下文双向增强模块来融合局部上下文特征和目标特征。上下文感知卷积神经网络（CA-CNN） $182$ 采用上下文RoI挖掘层来提取目标周围的上下文信息。首先通过合并围绕目标的一系列过滤建议来生成目标的上下文RoI，然后与目标RoI融合作为用于分类和回归的最终目标特征表示。在 $183$ 中，Ma等人利用门控递归单元（GRU）将目标特征与局部上下文信息融合，从而获得目标的更具鉴别性的特征表示。图卷积网络（GCN）最近在目标-目标关系推理方面表现出了更好的性能。因此，田等人 $184$ ， $185$ 构建了空间和语义图来建模和学习目标之间的上下文关系。

2）全局上下文信息挖掘：全局上下文信息利用目标和场景之间的关联 $188$ - $195$ ，例如，车辆通常位于道路上，船舶通常出现在海上。Chen等人 $188$ 通过RoI-Align操作从全局图像特征中提取场景上下文信息，并将其与目标级RoI特征融合，以加强目标和场景之间的关系。Liu等人 $192$ 设计了一种场景辅助检测头，在场景级监督下利用场景上下文信息。场景辅助检测头将预测出的场景向量嵌入到分类分支中，实现目标级特征与场景级上下文信息的融合。在 $193$ 中，陶等人提出了一种场景上下文驱动的车辆检测方法。具体来说，引入预训练的场景分类器将每个图像块分类为三个场景类别，然后采用特定场景的车辆检测器来获得初步检测结果，最后利用场景上下文信息进一步优化检测结果。

考虑到局部和全局上下文信息的互补性，Zhang等人 $196$ 提出了一种CAD-Net来挖掘局部和全局上下文信息。CAD-Net采用金字塔局部上下文网络来学习目标级局部上下文信息，并设计了全局上下文网络来提取场景级全局上下文信息。在 $103$ 中，Teng等人提出了一种GLNet来收集从全局到局部的上下文信息，从而实现RSI的鲁棒和准确的检测器。此外，一些研究 $197$ -- $199$ 还引入了ASPP $200$ 或RFB模块 $54$ 来利用本地和全球上下文信息。

5.微小目标检测

RSI的典型地面采样距离（GSD）为1-3米，这意味着即使是大型目标（例如，飞机、船舶和储罐）也只能占据小于16 × 16像素。此外，即使在GSD为0.25 m的高分辨率RSI中，尺寸为 3 × 1.5 m 2 3×1.5m^2 3×1.5m2的车辆也仅覆盖72个像素（12 × 6）。RSI中微小目标的普遍存在进一步增加了RSOD的难度。目前关于微小目标检测的研究主要分为判别特征学习、基于超分辨率的方法和改进的检测度量。图12简要总结了微小目标检测方法。

图12。微小目标检测方法的简要总结。

A.判别特征学习

微小目标极小的尺度（小于16 × 16像素）使其表现出有限的外观信息，这对探测器学习微小目标的特征提出了严峻的挑战。为了解决上述问题，许多研究人员专注于提高微小目标的判别特征学习能力 $201$ -- $208$ 。

由于微小目标主要存在于浅层特征中，缺乏高层语义信息 $65$ ，一些文献 $201$ -- $203$ 引入自上而下的结构将高层语义信息融合到浅层特征中，以加强微小目标的语义信息。考虑到微小目标的有限外观信息，一些研究 $204$ -- $208$ 通过自注意机制或扩张卷积建立微小目标与周围上下文信息之间的联系，以增强微小目标的特征辨别能力。值得注意的是，前面提到的一些关于多尺度特征学习和上下文信息挖掘的研究也证明了在微小目标检测中的显著有效性。

B.基于超分辨率的方法

极小的尺度是微小目标检测的关键问题，因此提高图像的分辨率是提高微小目标检测性能的直观解决方案。一些方法 $209$ - $212$ 采用超分辨率策略作为检测流水线的预处理步骤，以扩大输入图像的分辨率。例如，Rabbi等人 $211$ 强调了边缘信息对于微小目标检测的重要性，并提出了一种边缘增强的超分辨率生成对抗网络（GAN）来生成具有详细边缘信息的视觉上令人愉悦的高分辨率RSI。吴等人 $212$ 开发了一种微小目标的点到区域检测框架。点到区域框架首先通过关键点预测获得建议区域，然后采用多任务GAN对建议区域执行超分辨率并检测这些建议区域中的微小目标。然而，超分辨率生成的高分辨率图像给检测流水线带来了额外的计算复杂性。利用这个问题， $213$ 和 $214$ 在特征级采用超分辨率策略来获取微小目标的判别特征表示，并有效地节省计算资源。

C.改进的微小目标检测度量

与前两种类型的方法不同，最近的高级工作 $10$ 、 $215$ - $222$ 断言，当前流行的检测范例不适合微小目标检测，并且不可避免地阻碍微小目标检测性能。Pang等人。 $215$ 认为现代探测器中过度的下采样操作导致特征图上微小目标的丢失，并提出了一种缩小和放大结构来放大特征图。在 $218$ 中，Yan等人调整标签分配中的IoU阈值，增加微小目标的正分配锚点，有利于微小目标的学习。董等人 $219$ 设计了Sig-NMS，以减少传统非最大抑制（NMS）中大型和中型目标对微小目标的抑制。

在 $10$ 中，Xu等人指出IoU度量不适用于微小目标检测。如图13所示，IoU度量对轻微的位置偏移敏感。此外，基于IoU的标签分配存在严重的尺度不平衡问题，其中微小的目标往往被分配的阳性样本不足。为了解决这些问题，Xu等人 $10$ 设计了一种归一化的Wasserstein距离（NWD）来代替IoU度量。NWD将微小目标建模为2D高斯分布，并利用高斯分布之间的归一化Wasserstein距离来表示微小目标之间的位置关系，详见 $10$ 。与IoU度量相比，所提出的NWD度量对位置偏差是平滑的，并且具有尺度平衡的特性，如图13（b）所示。在 $222$ ，Xu等人进一步提出了用于微小目标检测的感受野距离（RFLA），并实现了最先进的性能。

图13。（a）IoU偏差曲线和（b）NWD偏差曲线之间的比较 $10$ 。详见 $10$ 。

6.有限监督下的目标检测

近年来，RSI中广泛使用的基于深度学习的检测器严重依赖于具有高质量注释的大规模数据集来实现最先进的性能。然而，收集大量标记良好的数据是相当昂贵和耗时的（例如，一个边界框注释将花费大约10秒），这导致了RSOD中数据受限或注释受限的场景 $11$ 。这种缺乏足够的监督信息严重降低了检测性能。为了解决这个问题，研究人员在有限的监督下探索了RSOD中的各种任务。我们将以往的研究总结为三种主要类型：弱监督目标检测、半监督目标检测和少样本目标检测。图14提供有限监督下的目标检测方法综述。

图14。有限监督下的目标检测方法的简要总结。

A.弱监督目标检测

与全监督目标检测相比，弱监督目标检测（WSOD）只包含弱监督信息。形式上，WSOD由训练数据集 D t r a i n = { ( X i , y i ) } i = 1 I D_{train} = \{(X_i, y_i)\}^I_{i=1} Dtrain={(Xi,yi)}i=1I组成，其中 X i = { x 1 , . . . , x m i } X_i = \{x_1, ..., x_{m_i} \} Xi={x1,...,xmi}是训练样本的集合，称为bag， m i m_i mi是bag中训练样本的总数， y i y_i yi是 X i X_i Xi的弱监督信息（例如，图像级标签 $223$ 或点级标签 $224$ ）。将图像级监督有效地转移到目标级标签是WSOD的关键挑战 $225$ 。

韩等人 $226$ 引入深度玻尔兹曼机来学习目标的高级特征，并提出了一种基于贝叶斯原理的遥感WSOD弱监督学习框架。李等人 $227$ 利用场景对之间的互信息来学习判别卷积权重，并采用多尺度类别激活图来定位地理空间目标。

在WSDDN $228$ 显著性能的激励下，提出了一系列遥感WSOD方法 $229$ 、 $241$ 。如图15所示，当前WSOD方法的范例通常由两个步骤组成，其首先构建多实例学习模型(MIL)以找到对图像分类任务有贡献的建议作为伪标签，然后利用它们来训练检测器。姚等人 $229$ 引入了一种动态课程学习策略，其中检测器通过从易到难的训练过程逐步提高检测性能。冯等人 $231$ 设计了一种渐进的上下文实例细化方法，该方法通过利用周围的上下文信息来抑制低质量的目标部分并突出整个目标。Wang等 $233$ 将空间和外观关系图引入WSOD，传播高质量的标签信息以挖掘更多可能的目标。在 $240$ 中，Feng等人认为现有的遥感WSOD方法忽略了地理空间目标的任意方向，导致了旋转敏感的目标探测器。为了解决这个问题，冯等人 $240$ 提出了一种RINet，它通过采用旋转不变学习和多实例挖掘，为WSOD带来了旋转不变但多样的特征学习。

图15。最近WSOD方法的两步范例 $229$ -- $241$ 。

我们在表II中总结了里程碑WSOD方法的性能，其中采用正确定位度量（CorLoc） $242$ 来评估定位性能。

B.半监督目标检测

半监督目标检测（SSOD）通常仅包含一小部分（不超过50%）的良好标记样本 D l a b e l e d = { ( x i , y i ) } i = 1 I l a b e l e d D_{labeled} = \{(x_i, y_i)\}^{I_{labeled}}{i=1} Dlabeled={(xi,yi)}i=1Ilabeled，难以构建可靠的监督检测器，并且具有大量未标记样本 D u n l a b e l e d = { ( x j ) } j = 1 I u n l a b e l e d D{unlabeled} = \{(x_j )\}^{I_{unlabeled}}_{j=1} Dunlabeled={(xj)}j=1Iunlabeled。SSOD旨在通过从大量未标记样本中学习潜在信息来提高稀缺监督信息下的检测性能。

侯等人 $243$ 提出了一种用于半监督SAR船舶检测的SCLANet。SCLANet采用标记和未标记样本之间的对抗性学习来利用未标记样本信息，并对未标记样本采用一致性学习来增强网络的鲁棒性。伪标签生成机制也是半监督目标检测的广泛使用的方法 $244$ - $248$ ，典型范例如图16所示。首先，使用从scare标记样本中学习的预训练检测器来预测未标记样本，然后选择置信度分数较高的伪标签作为可信部分，最后，用标记和伪标记样本重新训练模型。Wu等人 $246$ 提出了一种自定进度的课程学习，该学习遵循"从易到难"的方案来选择更可靠的伪标签。钟等人 $245$ 采用主动学习策略，其中高分预测由专家手动调整，以获得精炼的伪标签。陈等人 $247$ 采用师生相互学习来充分利用未标记的样本，并迭代生成更高质量的伪标签。

图16.SSOD中伪标签生成机制的流水线。

此外，一些研究 $249$ -- $253$ 致力于弱半监督目标检测，其中未标记样本被弱注释样本取代。杜等人 $251$ ， $252$ 采用大量imagelevel标记样本来提高稀缺检测框级标记样本下的SAR车辆检测性能。陈等人 $253$ 采用了一小部分像素级标记样本和大量的检测框级标记样本来提高标签稀缺实例分割的性能。

C.少样本目标检测

少样本目标检测（FSOD）是指仅用有限数量（不超过30个）的样本检测新的类别。通常，FSOD包含一个具有丰富样本的基类数据集 D b a s e = { ( x i , y i ) , y i ∈ C b a s e } i = 1 I b a s e D_{base} = \{(x_i, y_i) , y_i ∈ C_{base}\}^{I_{base}}{i=1} Dbase={(xi,yi),yi∈Cbase}i=1Ibase和一个只有K-样本样本的新类数据集 D n o v e l = { ( x j , y j ) , y j ∈ C n o v e l } j = 1 C n o v e l ∗ K D{novel} = \{(x_j , y_j ) , y_j ∈ C_{novel}\}^{C_{novel}∗K}{j=1} Dnovel={(xj,yj),yj∈Cnovel}j=1Cnovel∗K。请注意， C b a s e C{base} Cbase和 C n o v e l C_{novel} Cnovel是脱节的。如图17所示，典型的FSOD范例由两阶段训练流水线组成，其中基础训练阶段利用丰富的基础类样本建立先验知识，并且少数样本微调阶段利用先验知识来促进少数样本新概念的学习。遥感FSOD的研究主要集中在元学习方法 $254$ - $259$ 和迁移学习方法 $260$ - $269$ 。

图17.FSOD的两阶段训练管道。

基于元学习的方法通过模拟一系列少样本学习任务来获取任务级知识，并将这些知识推广到新类的少样本学习中。李等人 $255$ 首次将元学习用于遥感FSOD，仅用1至10个标记样本就获得了令人满意的检测性能。后来，遥感界开发了一系列基于元学习的少样本探测器 $254$ -- $259$ 。例如，Cheng等人 $254$ 提出了一种原型CNN，通过学习特定于类的原型来为遥感FSOD生成更好的前景建议和类感知RoI特征。王等人 $258$ 提出了一种元度量训练范式，使少样本学习者具有灵活的可扩展性，以快速适应少样本的新颖任务。

基于迁移学习的方法旨在将从丰富的注释数据中学习到的公共知识微调到少量的新数据，并且通常包括基本训练阶段和少量的微调阶段。黄等人 $266$ 提出了一种平衡微调策略，以缓解新颖类样本和基类样本之间的数量不平衡问题。周等人 $265$ 在微调阶段引入了建议级对比度学习，以在少样本场景中学习更鲁棒的特征表示。与基于元学习的方法相比，基于迁移学习的方法具有更简单和记忆有效的训练范式。

7.数据集和评估指标

A.数据集介绍和选择

数据集在RSI中目标检测的整个发展过程中发挥了不可或缺的作用。一方面，数据集作为探测器性能评估和比较的共同点。另一方面，数据集推动研究人员解决RSOD领域越来越具有挑战性的问题。在过去十年中，发布了几个具有不同属性的数据集，以促进RSOD的发展，如表三所示。在本节中，我们主要介绍10个广泛使用的具有特定特征的数据集。

表III RSOD领域广泛使用的数据集的比较。HBB和OBB分别指水平边界框和定向边界框。*代表平均图像宽度。

NWPU VHR-10 $18$ 。该数据集是一个多类地理空间目标检测数据集。它包含十个类别的3,775个HBB注释实例：飞机、轮船、储罐、棒球场、网球场、篮球场、跑道、港口、桥梁和车辆。有800张非常高分辨率的RSI，包括来自谷歌地球的715张彩色图像和来自Vaihingen数据的85张泛锐化彩色红外图像。图像分辨率范围为0.5至2米。

VEDAI $272$ 。VEDAI是一个细粒度的车辆检测数据集，包含五个细粒度的车辆类别：露营车、轿车、皮卡、拖拉机、卡车和货车。VEDAI数据集中有1,210张图像和3,700个实例，每个图像的大小为1,024 × 1,024。小区域和车辆的任意方向是VEDAI数据集中的主要挑战。

UCAS-AOD $274$ 。UCAS-AOD数据集包括910幅图像和6029个目标，其中600幅图像中包含3210架飞机，310幅图像中包含2819辆车辆。所有图像均从Google Earth获取，图像大小约为1,000 × 1,000。

HRSC $276$ 。HRSC数据集广泛用于任意方向的船舶检测，由1,070幅图像和2,976个带有OBB注释的实例组成。这些图像取自谷歌地球，包含近海和近岸场景。图像尺寸从300 × 300到1500 × 900不等，图像分辨率从2米到0.4米不等。

SSDD $277$ 。SSDD是第一个用于SAR图像船舶检测的开放数据集，包含1,160幅SAR图像和2,456艘船舶。SSDD数据集中的SAR图像是从不同的传感器收集的，分辨率从1米到15米，具有不同的偏振（HH、VV、VH和HV）。随后，作者将SSDD数据集进一步细化和丰富为三种不同类型，以满足当前SAR船舶检测的研究 $286$ 。

xView $2$ 。xView数据集是ROSD中最大的公开可用数据集之一，在60个细粒度类中拥有大约100万个标记目标。与其他RSOD数据集相比，xView数据集中的图像是从WorldView-3在0.3 m地面样本距离处收集的，提供了更高分辨率的图像。此外，xView数据集覆盖了超过1,400平方公里的地球表面，这导致了更高的多样性。

DOTA $117$ 。DOTA是一个大规模数据集，由188,282个用HBB和OBB注释的目标组成。所有目标分为15类：飞机、轮船、储罐、棒球场、网球场、游泳池、地面跑道、港口、桥梁、大型车辆、小型车辆、直升机、环形交叉路口、足球场和篮球场。该数据集中的图像收集自谷歌地球、JL-1卫星和GF-2卫星，空间分辨率为0.1至1米。最近，最新的DOTAv2.0 $33$ 已经公开，其中包含18个类别的170多万个目标。

DIOR $28$ 。DIOR是光学RSI的目标检测数据集。该数据集中有23,463幅光学图像，空间分辨率为0.5至30米。数据集中的目标总数为192,472个，所有目标都用HBB标记。目标类别如下：飞机、机场、棒球场、篮球场、桥梁、烟囱、大坝、高速公路服务区、高速公路收费站、海港、高尔夫球场、地面田径场、立交桥、船舶、体育场、储罐、网球场、火车站、车辆、风车。

FAIR1M $34$ 。FAIR1M是一个更具挑战性的数据集，用于RSI中的细粒度目标检测，包括5个类别和37个子类别。有超过40,000张图像和超过100万个目标由定向边界框注释。这些图像是从多个平台获取的，分辨率为0.3米至0.8米，分布在不同的国家和地区。细粒度的类别、大量的目标、大范围的尺寸和方向以及多样化的场景使FAIR1M更具挑战性。

SODA-A $284$ 。SODA-A是最近发布的数据集，专为RSI中的微小目标检测而设计。该数据集由2,510幅平均图像大小为4,761 × 2,777的图像和800,203个带有OBB注释的目标组成。所有目标根据其面积范围分为四个子集（即极小、相对小、一般小和正常）。该数据集中有九个类别，包括飞机、直升机、小型车辆、大型车辆、船舶、集装箱、储罐、游泳池和风车。

上述综述表明，早期发表的数据集通常样本有限。例如，NWPU VHR10 $18$ 仅包含10个类别和3,651个实例，而UCAC-AOD $274$ 由2个类别和6,029个实例组成。近年来，研究人员不仅引入了海量数据和细粒度级别的目标，还收集了来自多传感器、各种分辨率和不同场景的数据（例如，DOTA $117$ 、DIOR $28$ 、FAIR1M $34$ ），以满足RSOD的实际应用。图18描绘了不同RSOD数据集的典型样本。

图18。不同RSOD数据集的可视化。不同的分辨率、海量的实例、多传感器图像和细粒度的类别是RSOD数据集的典型特征。

我们还在表IV中提供了数据集选择指南，以帮助研究人员为不同的挑战和场景选择合适的数据集和方法。值得注意的是，只有数据集的imagelevel注释可用于弱监督场景。至于少样本监督场景，每个场景只有K-shot框级注释样本新类，其中K设置为 { 3 , 5 , 10 , 20 , 30 } \{3,5,10,20,30\} {3,5,10,20,30}。

表IV RSOD针对不同挑战和场景的数据集选择指南。

B.评价指标

除了数据集，评估指标也同样重要。通常，推理速度和检测精度是评估检测器性能的两个常用指标。

每秒帧数（FPS）是推理速度评估的标准指标，表示检测器每秒可以检测到的图像数量。值得注意的是，图像大小和硬件设备都会影响推理速度。

平均精度（AP）是检测准确度最常用的指标。给定测试图像i，设 { ( b i , c i , p i ) } i = 1 N \{(b_i, c_i, p_i)\}^N_{i=1} {(bi,ci,pi)}i=1N表示预测检测，其中 b i b_i bi是预测框， c i c_i ci是预测标签， p i p_i pi是置信度分数。设 { b j g t , c j g t } j = 1 M \{b^{gt}_j , c^{gt}j\}^M{j=1} {bjgt,cjgt}j=1M指的是测试图像 I I I上的真实注释，其中 b j g t b^{gt}_j bjgt是地面实况框， c j g t c^{gt}_j cjgt是真实类别。如果预测检测 ( b i , c i , p i ) (b_i, c_i, p_i) (bi,ci,pi)满足以下两个标准，则将其分配为真实注释 b j g t , c j g t b^{gt}_j , c^{gt}_j bjgt,cjgt的真阳性(TP)：

•置信度得分 p i p_i pi大于置信度阈值 t t t，并且预测的标签与地面真实标签 c j g t c^{gt}_j cjgt相同。

•预测框 b i b_i bi和真实框 b j g t b^{gt}_j bjgt之间的IoU大于IoU阈值 ε ε ε。IoU的计算方法如下：

其中 a r e a ( b i ∩ b j g t ) area(b_i ∩ b^{gt}_j ) area(bi∩bjgt)和 a r e a ( b i ∪ b j g t ) area(b_i ∪ b^{gt}_j ) area(bi∪bjgt)代表预测框和真实框的交集和并集面积。

否则，认为是假阳性(FP)。值得注意的是，根据上述标准，多个预测检测可能匹配相同的真实注释，但只有具有最高置信度分数的预测检测被分配为TP，其余的是FPs $287$ .。

基于TP和FP检测，精度（P）和召回率（R）可以计算为等式3和等式4.

其中FN表示假阴性的数量。精确度测量预测检测的真阳性的分数，召回率测量正确检测的阳性的分数。然而，上述两个评估指标仅反映了检测性能的单一方面。

考虑到精确度和召回率，AP提供了检测性能的综合评估，并为每个类别单独计算。对于给定的类别，根据每次召回时最大精度的检测绘制精度/召回曲线（PRC），AP总结PRC的形状 $287$ 。对于多类目标检测，采用所有类的AP值的平均值（称为mAP）来评估整体检测精度。

早期研究主要采用基于固定IoU的AP度量（即 A P 50 AP_{50} AP50） $18$ 、 $28$ 、 $117$ ，其中IoU阈值 ε ε ε被给出为0.5。该低IoU阈值表现出对检测框偏差的高容限，并且不能满足高定位精度要求。后来，一些工作 $130$ , $131$ , $284$ 引入了一种新的评估度量，称为 A P 50 : 95 AP_{50:95} AP50:95，它对10个IoU阈值上的AP进行平均，从0.5到0.95，间隔为0.05。 A P 50 : 95 AP_{50:95} AP50:95考虑了更高的IoU阈值，并鼓励更准确的定位。

AP作为RSOD中评估度量的基石，针对不同的具体任务有各种扩展。在少样本学习场景中， A P n o v e l AP_{novel} APnovel和 A P b a s e AP_{base} APbase是评估少样本检测器性能的两个关键指标，其中 A P n o v e l AP_{novel} APnovel和 A P b a s e AP_{base} APbase分别表示新类和基类上的检测性能。一个优秀的少样本检测器应该在新类中实现令人满意的性能，并避免基类中的性能下降 $269$ 。在遥感目标的增量检测中，采用 A P o l d AP_{old} APold和 A P i n c AP_{inc} APinc来评估旧类和增量类在不同增量任务上的性能。此外，调和平均值也是增量目标检测的重要评估度量 $288$ ，它提供了旧类和增量类的综合性能评估，如等式5所述：

8.应用

深度学习技术为RSOD注入了重大创新，导致了一种从大量RSIs中自动识别感兴趣目标的有效方法。因此，RSOD方法已被应用于丰富多样的实践场景中，这些实践场景极大地支持了可持续发展目标（SDGs）的实施和社会的改善 $289$ -- $291$ ，如图19所示。

图19.RSOD的广泛应用为实施可持续发展目标和改善社会做出了重大贡献。（a）震后灾害评估中倒塌建筑物的检测。（b）用于精确农业的玉米植物检测。（c-d）可持续城市和社区的建筑和车辆检测。(e)减缓气候变化的太阳能光伏探测。(f)沿海岸探测垃圾，以保护海洋。(g)检测非洲哺乳动物，用于野生动物监测。(h)森林生态系统保护的单树检测。

A.灾害管理

自然灾害对人类生命财产安全构成严重威胁。快速准确地了解灾害影响和破坏程度对于灾害管理至关重要。RSOD方法可以从受灾地区的鸟瞰图中准确识别地面目标，为灾害管理提供了一种新的潜力 $292$ -- $296$ 。Guan等人 $293$ 提出了一种新颖的实例分割模型，用于在复杂环境中准确检测火灾，可应用于森林火灾灾害响应。Ma等 $295$ 设计了震后倒塌建筑评估的实时检测方法。

B.精准农业

随着前所未有且仍在增长的人口，确保农业生产是养活不断增长的人口的根本障碍。RSOD有能力监测作物生长和估计粮食产量，促进精准农业的进一步进步 $297$ - $302$ 。庞等人 $298$ 将RSI用于早季玉米检测，并实现了出苗率的准确估计。Chen等 $302$ 设计了一种自动草莓花检测系统，用于监测草莓田的生长周期。

C.可持续城市和社区

现在全球一半的人口居住在城市，而且这一人口在未来几十年还将继续增长。可持续城市和社区是现代城市发展的目标，RSOD可以在其中产生重大影响。例如，建筑和车辆检测 $303$ 、 $306$ 可以帮助估计人口密度分布和交通统计，为城市发展规划提供建议。基础设施分布检测 $307$ 可以辅助城市环境中的灾害评估和预警。

D.气候行动

持续的气候变化迫使人类面临气候危机的艰巨挑战。一些研究人员 $308$ -- $310$ 采用目标检测方法自动绘制苔原冰楔多边形，以记录和分析气候变暖对北极地区的影响。此外，RSOD可以统计太阳能电池板和风力涡轮机的数量和空间分布 $311$ 、 $314$ ，有助于减少温室气体排放。

E.海洋养护

海洋覆盖了地球表面的近四分之三，30多亿人依赖海洋和海岸的多样生命。海洋因污染而逐渐恶化，RSOD可以为海洋保护提供强有力的支持 $315$ 。一些工作将检测方法应用于沿海垃圾检测 $316$ 、海上漂浮塑料检测 $317$ 、深海碎片检测 $318$ 等。另一个重要的应用是船舶检测 $135$ ， $136$ ，它可以帮助监控非法捕鱼活动。

F.野生动物监测

在各个层面都观察到了全球生物多样性的丧失，目标检测与RSI相结合为野生动物保护提供了一个新的视角 $319$ -- $323$ 。Delplanque等人 $322$ 采用基于深度学习的检测器对非洲哺乳动物进行多物种检测和识别。Kellenberger等 $323$ 设计了一个弱监督野生动物检测框架，只需要图像级标签即可识别野生动物。

G.森林生态系统保护

森林生态系统在生态保护、气候调节、碳循环等方面发挥着重要作用。了解树木的状况对于森林生态系统保护至关重要 $324$ - $328$ 。萨福诺娃等人 $326$ 分析了检测到的树木树冠的形状、纹理和颜色，以确定其损害阶段，为评估森林健康提供了一种更有效的方法。萨尼-穆罕默德等人 $328$ 利用实例分割方法绘制直立枯树，这对于森林生态系统管理和保护至关重要。

9.未来方向

除了本次调查中提到的五个RSOD研究课题外，该领域还有很多工作要做。因此，我们对未来方向进行了前瞻性的讨论，以进一步改进和增强遥感场景中的探测器。

A.大比例尺遥感影像统一检测框架

受益于遥感技术的发展，可以很容易地获得高分辨率的大规模RSI（例如，超过10,000 × 10,000像素）。但受限于GPU内存，目前主流的RSOD方法在大规模RSI中未能直接进行目标检测而是采用滑动窗口策略，主要包括滑动窗口裁剪、补丁预测和结果合并。一方面，与统一检测框架相比，这种滑动窗口框架需要复杂的数据预处理和后处理。另一方面，目标通常占据RSI的小区域，海量背景的无效计算导致计算时间和内存消耗的增加。一些研究 $215$ , $329$ , $330$ 提出了一种从粗到细的检测框架，用于大规模RSI中的目标检测。该框架首先通过过滤掉无意义区域来定位感兴趣区域，然后从这些过滤后的区域中实现准确检测。

B.利用多模态遥感图像进行检测

受传感器成像机理的限制，基于单模态RSI的检测器往往存在检测性能偏差，在实际应用中难以满足 $331$ 。相反，来自不同传感器的多模态RSI有其特点。例如，高光谱图像包含高光谱分辨率和细粒度光谱特征，SAR图像提供丰富的纹理信息，光学图像表现出高空间分辨率和丰富的细节信息。多模态RSIs的集成处理可以提高场景的解释能力，获得对地理空间目标更客观、更全面的理解 $332$ - $334$ ，为进一步提高RSOD的检测性能提供了可能性。

C.遥感图像中的域自适应目标检测

由于遥感卫星传感器、分辨率和波段的多样性，以及天气条件、季节和地理空间区域的影响 $6$ ，从不同卫星收集的RSI通常来自相似但不相同的分布。这种分布差异（也称为畴隙）严重限制了检测器的泛化性能。最近关于域自适应目标检测的研究 $335$ -- $338$ 已经提出解决域间隙问题。然而，这些研究仅关注单模态中的域自适应检测器，而跨模态域自适应目标检测（例如，从光学图像到SAR图像 $339$ , $340$ ）是一个更具挑战性和值得研究的课题。

D.遥感目标的增量检测

现实世界的环境是动态和开放的，类别的数量随着时间的推移而变化。然而，主流检测器在遇到新类别时需要新旧数据来重新训练模型，导致计算成本较高。最近，增量学习被认为是解决这一问题最有希望的方法，它可以仅用新数据就能学习新知识而不忘记旧知识 $341$ 。增量学习在遥感界已有初步探索 $342$ - $345$ 。例如，Chen等人 $342$ 将知识蒸馏集成到FPN和检测头中，以在保持旧概念的同时学习新概念。增量式RSOD仍需要更深入的研究，以满足实际应用中的动态学习任务。

E.遥感场景的自监督预训练模型

当前的RSOD方法总是用ImageNet $346$ 预训练的权重初始化。然而，在自然场景和遥感场景之间存在不可避免的域差距，这可能限制了RSOD的性能。近年来，自监督预训练方法受到了广泛的关注，并在自然场景中的分类和下游任务中表现出了优异的性能。受益于遥感技术的快速进步，丰富的遥感数据 $347$ , $348$ 也为自监督预训练提供了充足的数据支持。一些研究人员 $349$ - $353$ 已经初步证明了遥感预训练在代表性下游任务上的有效性。因此，探索基于多源遥感数据的自监督预训练模型值得进一步研究。

F.紧凑和高效的目标检测架构

大多数现有的机载和星载卫星都需要将遥感数据发回进行解译，从而导致额外的资源开销。因此，有必要研究用于机载和星载平台的紧凑高效的探测器，以减少数据传输中的资源消耗。利用这一需求，一些研究人员通过模型设计 $285$ 、 $354$ 、 $355$ 、网络剪枝 $356$ 、 $357$ 和知识蒸馏 $358$ - $360$ 提出了轻量级检测器。然而，这些探测器仍然严重依赖高性能GPU，无法部署在机载和星载卫星上。因此，为有限资源场景设计紧凑高效的目标检测架构仍然具有挑战性。

10.总结

目标检测一直是遥感界一个基础但具有挑战性的研究课题。由于深度学习技术的快速发展，RSOD在过去十年中受到了相当大的关注并取得了显著的成就。在这篇综述中，我们对RSOD中现有的基于深度学习的方法进行了系统的综述和总结。首先，我们根据地理空间目标的特点总结了RSOD中的五个主要挑战，并将方法分为五个流：多尺度目标检测、旋转目标检测、弱目标检测、微小目标检测和有限监督目标检测。然后，我们采用了系统的层次划分，对每个类别中的方法进行了回顾和总结。接下来，我们介绍了RSOD领域的典型基准数据集、评估指标和实际应用。最后，考虑到现有RSOD方法的局限性，我们讨论了一些有希望的进一步研究方向。

鉴于RSOD技术的高速发展，我们相信这项调查可以帮助研究人员更全面地了解该领域的主要主题，并找到未来研究的潜在方向。