随着地球观测技术的快速进步,遥感卫星(如Google Earth[1]、WordWide-3[2]和Gaofen系列卫星[3]-[5])在空间、时间和光谱分辨率方面取得了显著提高,现在可以获得大量遥感图像。受益于可用RSI的急剧增加,人类进入了一个遥感大数据时代,RSI的自动解译成为一个活跃的产量挑战性课题[6]-[8]。












随着RSOD的流行,近年来发表了许多地理空间目标检测调查[9]、[28]-[34]。例如,Cheng等人[29]回顾了RSOD的早期发展。韩等人[9]重点研究了RSI中的小目标和弱目标检测。在[30]中,作者回顾了飞机检测方法。李等人[31]根据各种改进策略,对遥感界基于深度学习的探测器进行了彻底的调查。此外,一些工作[28], [33], [34]主要集中在发布RSOD的新基准数据集,并简要回顾了遥感领域的目标检测方法。与以往的工作相比,本调查基于地理空间目标的特征,全面分析了RSOD中的主要挑战,并根据这些挑战对基于深度学习的遥感目标检测器进行了系统的分类和总结。此外,这项工作回顾了300多篇关于RSOD的论文,从而进行了更全面和系统的调查。








由于RSIs之间不同的空间分辨率,巨大的尺度变化是RSOD中众所周知的具有挑战性的问题,并严重降低了检测性能。如图3所示,我们展示了DOTAv2.0数据集中每个类别的目标像素区域的分布[33]。显然,不同类别之间的比例差异很大,其中小型车辆可能仅包含小于10个像素区域,而机场超过 1 0 5 10^5 105个像素区域。更糟糕的是,巨大的类别内尺度变化进一步加剧了多尺度目标检测的困难。为了解决巨大的尺度变化问题,目前的研究主要分为数据扩充、多尺度特征表示和多尺度锚点生成。图4给出了多尺度目标检测方法的简要概述。












为了提高小型车辆的检测性能,Liang[60]等人在SSD中添加了一个额外的缩放分支,该分支由反卷积模块和平均池化层组成。参考SSD中的分层回归层,Wang等人[58]介绍了尺度不变回归层(SIRLs),其中采用三个孤立的回归层来捕获全尺度目标的信息。在SIRLs的基础上,引入了一种新的特定尺度联合损耗来加速网络收敛。在[64]中,李等人提出了在RPN和检测子网络中引入分层选择性过滤层的HSF-Net。具体地,分层选择性滤波层采用具有不同核大小(例如,1 × 1、3 × 3和5 × 5)的三个卷积层来获得多个感受野特征,这有利于多尺度船舶检测。

3)特征金字塔网络(Feature Pyramid Networks):金字塔特征层次方法使用独立的多级特征进行检测,忽略了不同级别特征之间的互补信息,导致低级别特征的语义信息较弱。为了解决这个问题,林等人[65]提出了特征金字塔网络(FPN)。如图5(d)所示,FPN引入了一种自上而下的路径,将丰富的语义信息从高层特征转移到浅层特征,导致所有级别的丰富语义特征(请参考[65]中的详细信息)。由于FPN在多尺度目标检测方面的显著改进,FPN及其扩展[66]--[68]在多尺度特征表示中起着主导作用。

考虑到地理空间目标(如桥梁、港口和机场)的极端纵横比,Hou等人[69]提出了一种非对称特征金字塔网络(AFPN)。AFPN采用非对称卷积块来增强关于十字形骨架的特征表示,并提高大纵横比目标的性能。Zhang等[70]设计了一种拉普拉斯特征金字塔网络(LFPN),将高频信息注入到多尺度金字塔特征表示中,这对于精确的目标检测是有用的,但被以前的工作所忽略。在[71]中,Zhang等人引入了高分辨率特征金字塔网络(HRFPN),以充分利用高分辨率特征表示,从而实现精确和鲁棒的SAR船舶检测。此外,一些研究人员将新颖的特征融合模块[72], [73]、注意力机制[74]--[77]或膨胀卷积层[78], [79]集成到FPN中,以进一步获得更具区分性的多尺度特征表示。

FPN引入了一种自上而下的路径,将高层语义信息传递到浅层,而低层空间信息在主干网中长距离传播后仍然在顶层丢失。利用这个问题,傅等人[80]提出了一种特征融合架构(FFA),该架构将辅助的自下而上路径集成到FPN结构中,以通过短路径将低级空间信息传输到顶层特征,如图5(e)所示。FFA确保检测器提取具有丰富语义和详细空间信息的多尺度特征金字塔。同样,在[81], [82]中,作者引入了一种双向FPN,该FPN通过可学习参数学习不同级别特征的重要性,并通过迭代的自上而下和自下而上的路径融合多级别特征。









旋转目标表示对于RSOD避免冗余背景和获得精确检测结果至关重要。最近的旋转目标表示方法主要可以概括为几类:五参数表示[107]--[116]、八参数表示[117]--[126]、角度分类表示[106], [127]、[129]、高斯分布表示[130]--[133]和其他[134]--[144]。

1)五参数:最流行的解决方案是用五参数方法 ( x , y , w , h , θ ) (x, y, w, h, θ) (x,y,w,h,θ)表示目标,这只是在HBB[107]-[115]上增加了一个额外的旋转角度参数θ。角度范围的定义在这种方法中起着至关重要的作用,其中导出了两种定义。一些研究[107]-[112]将θ定义为与x轴的锐角,并将角度范围限制为90°,如图7(a)所示。作为最具代表性的工作,Yang等人[107]遵循五参数方法来检测旋转目标,并设计了一个IoU感知损失函数来解决旋转角度的边界不连续性问题。另一组[113]-[116]将θ称为x轴和长边之间的角度,其范围为180°,如图7(b)所示。丁等人[114]通过五参数方法回归旋转角度,并将水平区域的特征转换为旋转区域,以方便旋转目标检测。


2)八参数:与五参数方法不同,八参数方法[117]-[126]解决的是通过直接回归四个顶点 { ( a x , a y ) , ( b x , b y ) , ( c x , c y ) , ( d x , d y ) } \{(a_x, a_y), (b_x, b_y), (c_x, c_y), (d_x, d_y)\} {(ax,ay),(bx,by),(cx,cy),(dx,dy)}来表示旋转的目标,如图7(c)所示。Xia等[117]首先采用了用于旋转目标表示的八参数方法,该方法通过在训练过程中最小化每个顶点与地面真实坐标之间的差异来直接监督检测模型。然而,这些顶点的序列顺序对于八参数方法避免不稳定的训练是必不可少的。如图8所示,直观地从红色虚线箭头回归目标是一条更容易的路线,但实际过程遵循红色实线箭头,这造成了模型训练的困难。为此,钱等人[119],[121]提出了一种调制损失函数,该函数计算不同排序顺序下的损失,并选择最小情况进行学习,有效地提高了检测性能。

图8。五参数法和八参数法的边界不连续性挑战[119], [121]。

3)角度分类:为了从源头解决图8中描述的问题,许多研究人员[106], [127] ,[129]通过将角度预测问题转化为角度分类任务,绕过了回归的边界挑战。Yang等[106]提出了用于旋转目标检测的第一种角度分类方法,该方法将连续角度转换为离散角度,并用新颖的圆形平滑标签训练模型。然而,角度分类头[106]引入了附加参数并降低了检测器的效率。为了克服这一点,杨等人[129]用一个密集编码的标签改进了[106],确保了模型的准确性和效率。

4)高斯分布:虽然上述方法取得了有希望的进展,但它们没有考虑实际检测性能和优化度量之间的不对准。最近,一系列工作[130]--[133]旨在通过用高斯分布表示旋转目标来处理这一挑战,如图9所示。具体地,这些方法将旋转的目标转换为2D高斯分布 N ( μ , Σ ) N(μ, Σ) N(μ,Σ),如下所示:




5)其他:一些研究人员通过其他方法解决旋转目标表示,如基于分割的[134]-[136]和基于关键点的[137]-[144]。基于分割的方法中具有代表性的是Mask OBB[134],它在每个水平建议上部署分割方法,以获得像素级目标区域,并产生最小外部矩形作为旋转的边界框。另一方面,魏等人[142]对旋转目标采用了基于关键点的表示,该表示定位目标中心并利用一对中线来表示整个目标。此外,Yang等[145]提出了第一个水平框标注监督的旋转目标检测器,该检测器采用两种不同视图的自监督学习来预测旋转目标的角度。



Cheng等人[146]提出了第一个旋转不变目标检测器,通过使用rotationinsensitive特征来精确识别目标,该检测器强制目标的特征在不同旋转角度下保持一致。后来,程等人[148]、[149]采用旋转不变和fisher判别正则化器来鼓励检测器学习旋转不变和判别特征。在[150],[151]中,Wu等人分析了傅立叶域极坐标下目标的旋转不变性,并设计了空间频率通道特征提取模块来获得旋转不变性特征。考虑到轴对齐卷积特征和旋转目标之间的未对准,Han等人[156]提出了一种定向检测模块,该模块采用一种新的对齐卷积操作来学习方向信息。在[155]中,Han等人进一步设计了一个旋转等方差检测器来显式编码旋转等方差和旋转不变性。此外,一些研究人员[80], [157]用一系列预定义的旋转锚扩展了RPN,以应对地理空间目标的任意方向特征。


表I 旋转目标检测方法在具有旋转注释的DOTAV1.0数据集上的检测性能。







在机器学习中,降维可以有效地学习紧凑的特征表示,抑制不相关的特征。利用上述性质,叶等人[158]提出了一种特征过滤模块,通过连续的瓶颈层捕获低维特征图,以过滤背景噪声干扰。受人类视觉感知选择性聚焦的启发,注意机制被提出并得到了大量研究[159]-[161]。注意机制在网络学习阶段重新分配特征重要性,以增强重要特征并抑制冗余信息。因此,注意力机制也在RSOD中被广泛引入,以解决背景噪声干扰问题[57], [162]、[170]。在[162]中,Huang等人强调了补丁-补丁依赖性对RSOD的重要性,并设计了一种新的非局部感知金字塔注意(NP-Attention)。NP-Attention学习空间多尺度非局部依赖性和通道依赖性,以使检测器能够专注于目标区域而不是背景。考虑到SAR图像中陆地区域的强散射干扰,Sun等[163]提出了一种船舶注意力模块,以突出船舶的特征表示,减少来自陆地区域的虚警。此外,为RSOD设计的一系列注意力机制(例如,空间洗牌组增强注意力[165]、多尺度空间和通道注意力[166]、离散小波多尺度注意力[167]等。)已经证明了它们在抑制背景噪声方面的有效性。










RSI的典型地面采样距离(GSD)为1-3米,这意味着即使是大型目标(例如,飞机、船舶和储罐)也只能占据小于16 × 16像素。此外,即使在GSD为0.25 m的高分辨率RSI中,尺寸为 3 × 1.5 m 2 3×1.5m^2 3×1.5m2的车辆也仅覆盖72个像素(12 × 6)。RSI中微小目标的普遍存在进一步增加了RSOD的难度。目前关于微小目标检测的研究主要分为判别特征学习、基于超分辨率的方法和改进的检测度量。图12简要总结了微小目标检测方法。



微小目标极小的尺度(小于16 × 16像素)使其表现出有限的外观信息,这对探测器学习微小目标的特征提出了严峻的挑战。为了解决上述问题,许多研究人员专注于提高微小目标的判别特征学习能力[201]--[208]。












与全监督目标检测相比,弱监督目标检测(WSOD)只包含弱监督信息。形式上,WSOD由训练数据集 D t r a i n = { ( X i , y i ) } i = 1 I D_{train} = \{(X_i, y_i)\}^I_{i=1} Dtrain={(Xi,yi)}i=1I组成,其中 X i = { x 1 , . . . , x m i } X_i = \{x_1, ..., x_{m_i} \} Xi={x1,...,xmi}是训练样本的集合,称为bag, m i m_i mi是bag中训练样本的总数, y i y_i yi是 X i X_i Xi的弱监督信息(例如,图像级标签[223]或点级标签[224])。将图像级监督有效地转移到目标级标签是WSOD的关键挑战[225]。






半监督目标检测(SSOD)通常仅包含一小部分(不超过50%)的良好标记样本 D l a b e l e d = { ( x i , y i ) } i = 1 I l a b e l e d D_{labeled} = \{(x_i, y_i)\}^{I_{labeled}}{i=1} Dlabeled={(xi,yi)}i=1Ilabeled,难以构建可靠的监督检测器,并且具有大量未标记样本 D u n l a b e l e d = { ( x j ) } j = 1 I u n l a b e l e d D{unlabeled} = \{(x_j )\}^{I_{unlabeled}}_{j=1} Dunlabeled={(xj)}j=1Iunlabeled。SSOD旨在通过从大量未标记样本中学习潜在信息来提高稀缺监督信息下的检测性能。





少样本目标检测(FSOD)是指仅用有限数量(不超过30个)的样本检测新的类别。通常,FSOD包含一个具有丰富样本的基类数据集 D b a s e = { ( x i , y i ) , y i ∈ C b a s e } i = 1 I b a s e D_{base} = \{(x_i, y_i) , y_i ∈ C_{base}\}^{I_{base}}{i=1} Dbase={(xi,yi),yi∈Cbase}i=1Ibase和一个只有K-样本样本的新类数据集 D n o v e l = { ( x j , y j ) , y j ∈ C n o v e l } j = 1 C n o v e l ∗ K D{novel} = \{(x_j , y_j ) , y_j ∈ C_{novel}\}^{C_{novel}∗K}{j=1} Dnovel={(xj,yj),yj∈Cnovel}j=1Cnovel∗K。请注意, C b a s e C{base} Cbase和 C n o v e l C_{novel} Cnovel是脱节的。如图17所示,典型的FSOD范例由两阶段训练流水线组成,其中基础训练阶段利用丰富的基础类样本建立先验知识,并且少数样本微调阶段利用先验知识来促进少数样本新概念的学习。遥感FSOD的研究主要集中在元学习方法[254]-[259]和迁移学习方法[260]-[269]。







表III RSOD领域广泛使用的数据集的比较。HBB和OBB分别指水平边界框和定向边界框。*代表平均图像宽度。

NWPU VHR-10[18]。该数据集是一个多类地理空间目标检测数据集。它包含十个类别的3,775个HBB注释实例:飞机、轮船、储罐、棒球场、网球场、篮球场、跑道、港口、桥梁和车辆。有800张非常高分辨率的RSI,包括来自谷歌地球的715张彩色图像和来自Vaihingen数据的85张泛锐化彩色红外图像。图像分辨率范围为0.5至2米。

VEDAI[272]。VEDAI是一个细粒度的车辆检测数据集,包含五个细粒度的车辆类别:露营车、轿车、皮卡、拖拉机、卡车和货车。VEDAI数据集中有1,210张图像和3,700个实例,每个图像的大小为1,024 × 1,024。小区域和车辆的任意方向是VEDAI数据集中的主要挑战。

UCAS-AOD[274]。UCAS-AOD数据集包括910幅图像和6029个目标,其中600幅图像中包含3210架飞机,310幅图像中包含2819辆车辆。所有图像均从Google Earth获取,图像大小约为1,000 × 1,000。

HRSC[276]。HRSC数据集广泛用于任意方向的船舶检测,由1,070幅图像和2,976个带有OBB注释的实例组成。这些图像取自谷歌地球,包含近海和近岸场景。图像尺寸从300 × 300到1500 × 900不等,图像分辨率从2米到0.4米不等。


xView[2]。xView数据集是ROSD中最大的公开可用数据集之一,在60个细粒度类中拥有大约100万个标记目标。与其他RSOD数据集相比,xView数据集中的图像是从WorldView-3在0.3 m地面样本距离处收集的,提供了更高分辨率的图像。此外,xView数据集覆盖了超过1,400平方公里的地球表面,这导致了更高的多样性。




SODA-A[284]。SODA-A是最近发布的数据集,专为RSI中的微小目标检测而设计。该数据集由2,510幅平均图像大小为4,761 × 2,777的图像和800,203个带有OBB注释的目标组成。所有目标根据其面积范围分为四个子集(即极小、相对小、一般小和正常)。该数据集中有九个类别,包括飞机、直升机、小型车辆、大型车辆、船舶、集装箱、储罐、游泳池和风车。

上述综述表明,早期发表的数据集通常样本有限。例如,NWPU VHR10[18]仅包含10个类别和3,651个实例,而UCAC-AOD[274]由2个类别和6,029个实例组成。近年来,研究人员不仅引入了海量数据和细粒度级别的目标,还收集了来自多传感器、各种分辨率和不同场景的数据(例如,DOTA[117]、DIOR[28]、FAIR1M [34]),以满足RSOD的实际应用。图18描绘了不同RSOD数据集的典型样本。


我们还在表IV中提供了数据集选择指南,以帮助研究人员为不同的挑战和场景选择合适的数据集和方法。值得注意的是,只有数据集的imagelevel注释可用于弱监督场景。至于少样本监督场景,每个场景只有K-shot框级注释样本新类,其中K设置为 { 3 , 5 , 10 , 20 , 30 } \{3,5,10,20,30\} {3,5,10,20,30}。

表IV RSOD针对不同挑战和场景的数据集选择指南。




平均精度(AP)是检测准确度最常用的指标。给定测试图像i,设 { ( b i , c i , p i ) } i = 1 N \{(b_i, c_i, p_i)\}^N_{i=1} {(bi,ci,pi)}i=1N表示预测检测,其中 b i b_i bi是预测框, c i c_i ci是预测标签, p i p_i pi是置信度分数。设 { b j g t , c j g t } j = 1 M \{b^{gt}_j , c^{gt}j\}^M{j=1} {bjgt,cjgt}j=1M指的是测试图像 I I I上的真实注释,其中 b j g t b^{gt}_j bjgt是地面实况框, c j g t c^{gt}_j cjgt是真实类别。如果预测检测 ( b i , c i , p i ) (b_i, c_i, p_i) (bi,ci,pi)满足以下两个标准,则将其分配为真实注释 b j g t , c j g t b^{gt}_j , c^{gt}_j bjgt,cjgt的真阳性(TP):

•置信度得分 p i p_i pi大于置信度阈值 t t t,并且预测的标签与地面真实标签 c j g t c^{gt}_j cjgt相同。

•预测框 b i b_i bi和真实框 b j g t b^{gt}_j bjgt之间的IoU大于IoU阈值 ε ε ε。IoU的计算方法如下:

其中 a r e a ( b i ∩ b j g t ) area(b_i ∩ b^{gt}_j ) area(bi∩bjgt)和 a r e a ( b i ∪ b j g t ) area(b_i ∪ b^{gt}_j ) area(bi∪bjgt)代表预测框和真实框的交集和并集面积。





早期研究主要采用基于固定IoU的AP度量(即 A P 50 AP_{50} AP50)[18]、[28]、[117],其中IoU阈值 ε ε ε被给出为0.5。该低IoU阈值表现出对检测框偏差的高容限,并且不能满足高定位精度要求。后来,一些工作[130], [131], [284]引入了一种新的评估度量,称为 A P 50 : 95 AP_{50:95} AP50:95,它对10个IoU阈值上的AP进行平均,从0.5到0.95,间隔为0.05。 A P 50 : 95 AP_{50:95} AP50:95考虑了更高的IoU阈值,并鼓励更准确的定位。

AP作为RSOD中评估度量的基石,针对不同的具体任务有各种扩展。在少样本学习场景中, A P n o v e l AP_{novel} APnovel和 A P b a s e AP_{base} APbase是评估少样本检测器性能的两个关键指标,其中 A P n o v e l AP_{novel} APnovel和 A P b a s e AP_{base} APbase分别表示新类和基类上的检测性能。一个优秀的少样本检测器应该在新类中实现令人满意的性能,并避免基类中的性能下降[269]。在遥感目标的增量检测中,采用 A P o l d AP_{old} APold和 A P i n c AP_{inc} APinc来评估旧类和增量类在不同增量任务上的性能。此外,调和平均值也是增量目标检测的重要评估度量[288],它提供了旧类和增量类的综合性能评估,如等式5所述:





















受益于遥感技术的发展,可以很容易地获得高分辨率的大规模RSI(例如,超过10,000 × 10,000像素)。但受限于GPU内存,目前主流的RSOD方法在大规模RSI中未能直接进行目标检测而是采用滑动窗口策略,主要包括滑动窗口裁剪、补丁预测和结果合并。一方面,与统一检测框架相比,这种滑动窗口框架需要复杂的数据预处理和后处理。另一方面,目标通常占据RSI的小区域,海量背景的无效计算导致计算时间和内存消耗的增加。一些研究[215], [329], [330]提出了一种从粗到细的检测框架,用于大规模RSI中的目标检测。该框架首先通过过滤掉无意义区域来定位感兴趣区域,然后从这些过滤后的区域中实现准确检测。




由于遥感卫星传感器、分辨率和波段的多样性,以及天气条件、季节和地理空间区域的影响[6],从不同卫星收集的RSI通常来自相似但不相同的分布。这种分布差异(也称为畴隙)严重限制了检测器的泛化性能。最近关于域自适应目标检测的研究[335]--[338]已经提出解决域间隙问题。然而,这些研究仅关注单模态中的域自适应检测器,而跨模态域自适应目标检测(例如,从光学图像到SAR图像[339], [340])是一个更具挑战性和值得研究的课题。




当前的RSOD方法总是用ImageNet[346]预训练的权重初始化。然而,在自然场景和遥感场景之间存在不可避免的域差距,这可能限制了RSOD的性能。近年来,自监督预训练方法受到了广泛的关注,并在自然场景中的分类和下游任务中表现出了优异的性能。受益于遥感技术的快速进步,丰富的遥感数据[347], [348]也为自监督预训练提供了充足的数据支持。一些研究人员[349]-[353]已经初步证明了遥感预训练在代表性下游任务上的有效性。因此,探索基于多源遥感数据的自监督预训练模型值得进一步研究。







