【遥感目标检测】【数据集】DOTA:用于航空图像中目标检测的大规模数据集

DOTA:A large-scale dataset for object detection in aerial images

DOTA:用于航空图像中目标检测的大规模数据集

CVPR 2018

论文地址
数据集地址

0.论文摘要

目标检测是计算机视觉中一个重要而富有挑战性的问题。尽管过去十年见证了自然场景中目标检测的重大进展,但这种成功在航空图像中进展缓慢,这不仅是因为地球表面上目标实例的规模、方向和形状的巨大变化,还因为航空场景中目标的注释良好的数据集的稀缺。为了推进地球视觉(也称为地球观测和遥感)中的目标检测研究,我们引入了一个用于航空图像中目标检测(DOTA)的大规模数据集。为此,我们从不同的传感器和平台收集了2806幅航拍图像。每个图像的大小约为4000 × 4000像素,并且包含呈现各种比例、方向和形状的目标。然后,航空图像判读专家使用15个常见的目标类别对这些DOTA图像进行注释。完全注释的DOTA图像包含188,282个实例,每个实例都由任意(8 d.o.f.)四边形标记。为了建立地球视觉中目标检测的基线,我们在DOTA上评估了最先进的目标检测算法。实验表明,DOTA很好地代表了真实的地球视觉应用,具有相当的挑战性。

1.研究背景

地球视觉中的目标检测是指在地球表面定位感兴趣的目标(例如,车辆、飞机)并预测它们的类别。与常规目标检测数据集(其中目标通常由于重力而向上定向)相反,空中图像中的目标实例通常以任意定向出现,如图1所示,这取决于地球视觉平台的视角。

图1:取自DOTA的一个例子。(a)DOTA中的典型图像,由跨多个类别的许多实例组成。(b)说明实例方向和大小的变化。(c)、(d)分别说明稀疏实例和拥挤实例。在这里,我们展示了DOTA中十五个可能类别中的四个。(b)、(c)、(d)中显示的示例是从源图像(a)裁剪的。直方图(e)、(f)显示了DOTA中实例相对于大小和方向的分布。

利用计算机视觉的最新进展并考虑到地球视觉应用的高需求,人们对航空图像中的目标检测进行了广泛的研究[24, 15, 18, 3, 20, 39, 19, 32, 31, 22]。这些方法中的大多数[39,19,32,3]试图将为自然场景开发的目标检测算法转移到航空图像域。最近,在基于深度学习的目标检测算法的成功推动下,地球视觉研究人员已经寻求基于在大规模图像数据集(例如,ImageNet[6]和MSCOCO[14])上预训练的微调网络的方法,用于空中领域的检测,例如参见[19,30,2,3]。

虽然这种基于微调的方法是探索的合理途径,但是诸如图1的图像揭示了航空图像中的目标检测任务与常规目标检测任务不同:

-航空图像中目标实例的比例变化是巨大的。这不仅是因为传感器的空间分辨率,还因为同一目标类别内的尺寸变化。

-许多小目标实例拥挤在航空图像中,例如,港口中的船舶和停车场中的车辆,如图1所示。此外,航空图像中的实例频率是不平衡的,例如,一些小尺寸(例如1k × 1k)图像包含1900个实例,而一些大尺寸图像(例如4k × 4k)可能仅包含少数小实例。

-航空图像中的目标经常以任意方向出现。也有一些长宽比非常大的实例,例如桥。

除了这些困难之外,地球视觉中目标检测的研究还受到数据集偏差问题的挑战[29],即跨数据集的泛化程度通常较低。为了减轻这种偏差,应该对数据集进行注释以反映现实世界应用程序的需求。

因此,从自然图像中学习的目标检测器不适用于航空图像也就不足为奇了。然而,现有的用于航空图像中目标检测的注释数据集,如UCAS-AOD[41]和NWPU VHR-10[2],倾向于使用理想条件下的图像(背景清晰且没有密集分布的实例),这不能充分反映问题的复杂性。

为了推进地球视觉中目标检测的研究,本文介绍了一种用于航空图像中目标检测的大规模数据集(DOTA)。我们通过众包从不同的传感器和平台收集了2806幅航拍图像。每个图像的大小约为4k × 4k像素,包含不同比例、方向和形状的目标。这些DOTA图像由航空图像判读专家对15个常见目标类别进行了注释。完全注释的DOTA数据集包含188,282个实例,每个实例都由任意四边形标记,而不是通常用于自然场景中目标注释的轴对齐边界框。这项工作的主要贡献是:

-据我们所知,DOTA是地球视觉中最大的带注释的目标数据集,具有多种类别。它可用于开发和评估目标航空图像中的探测器。我们将继续更新DOTA,以扩大规模和范围,并反映不断变化的现实世界条件。

-我们还在DOTA上对最先进的目标检测算法进行基准测试,这可以作为未来算法开发的基线。

除了推进地球视觉中的目标检测研究,DOTA还将向计算机视觉中的传统目标检测提出有趣的算法问题。

2.动机

近年来,数据集在数据驱动的研究中发挥了重要作用[36, 6, 14, 40, 38, 33]。像MSCOCO[14]这样的大型数据集有助于促进目标检测和图像字幕研究。当涉及到分类任务和场景识别任务时,ImageNet[6]和Places[40]也是如此。

然而,在空中目标检测中,缺少了一个在图像数量和详细注释方面都类似于MSCOCO和ImageNet的数据集,这成为地球视觉研究的主要障碍之一,特别是对于开发基于深度学习的算法。空中目标检测对于远程目标跟踪和无人驾驶有着极大的帮助。因此,尽可能接近真实世界应用的大规模和具有挑战性的空中目标检测基准对于促进该领域的研究至关重要。

我们认为,一个好的航空图像数据集应该具备四个属性,即1)大量的图像,2)每个类别的许多实例,3)正确定向的目标注释,以及4)许多不同类别的目标,这使其接近现实世界的应用。然而,现有的航空图像数据集[41, 18, 16, 25]有几个共同的缺点:数据和类别不足,缺乏详细的注释,以及图像分辨率低。此外,它们的复杂性不足以被认为是现实世界的反映。

像TAS[9]、VEDAI[25]、COWC[21]和DLR 3K慕尼黑车辆[16]这样的数据集只关注车辆。UCAS-AOD[41]包含车辆和飞机,而HRSC2016[18]仅包含船舶,尽管给出了细粒度的类别信息。所有这些数据集的类数量都很少,这限制了它们对复杂场景的适用性。相比之下,NWPU VHR-10[2]由十个不同类别的目标组成,而其实例总数仅为3000左右。表1中显示了这些现有数据集的详细比较。与这些航空数据集相比,正如我们将在第4节中看到的,DOTA因其巨大的目标实例、任意但分布良好的方向、各种类别和复杂的空中场景而具有挑战性。而且DOTA中的场景与自然场景是重合的,所以DOTA对现实世界的应用更有帮助。

表1:航空图像中DOTA和目标检测数据集之间的比较。BB是边界框的缩写。单点是指仅提供实例中心坐标的注释。不考虑细粒度类别。例如,DOTA由15个不同的类别组成,但只有14个主要类别,因为小型车辆和大型车辆都是车辆的子类别。

当涉及到一般目标数据集时,ImageNet和MSCOCO由于图像数量多、类别多和注释详细而受到青睐。ImageNet在所有目标检测数据集中拥有最多数量的图像。然而,每张图像的平均实例数远远小于MSCOCO和我们的DOTA,加上其干净的背景和精心选择的场景的限制。DOTA中的图像包含了数量极其庞大的目标实例,有的甚至超过了1000个实例。PASCAL VOC数据集[7]在每个图像和场景的实例方面类似于ImageNet,但图像数量不足使其不适合处理大多数检测需求。我们的DOTA在实例数量和场景类型方面类似于MSCOCO,但DOTA的类别没有MSCOCO多,因为在航拍图像中可以清楚看到的目标非常有限。

此外,DOTA在上述大型通用目标检测基准中的独特之处在于,DOTA中的目标是用适当定向的边界框(简称OBB)进行注释的。OBB可以更好地包围目标,并将拥挤的目标彼此区分开来。在第3节中进一步描述了用OBB注释航空图像中的目标的好处。我们在DOTA、PASCAL VOC、ImageNet和MSCOCO之间进行了比较,以显示表2中的差异。

表2:DOTA和其他通用目标检测数据集之间的比较。BBox是边界框的缩写,Avg. BBox quantity表示每个图像的平均边界框数量。请注意,就每个图像的平均实例数而言,DOTA大大超过了其他数据集。

3.DOTA的注释

3.1.图片集

在航空图像中,所用传感器的分辨率和种类是产生数据集偏差的因素[5]。为了消除偏差,我们数据集中的图像是从多个传感器和平台(如谷歌地球)以多种分辨率收集的。为了增加数据的多样性,我们收集了由航空图像判读专家精心选择的在多个城市拍摄的图像。我们记录每张图像的位置和拍摄时间的准确地理坐标,以确保没有重复的图像。

3.2.类别选择

在我们的DOTA数据集中选择并注释了15个类别,包括飞机、船舶、储罐、棒球场、网球场、游泳池、地面跑道、港口、桥梁、大型车辆、小型车辆、直升机、环形交叉路口、足球场和篮球场。

类别是由航空图像判读专家根据一类目标是否常见及其对现实世界应用的价值来选择的。前10个类别在现有数据集中是常见的,例如[16, 2, 41, 21],我们保留了它们,除了我们进一步将车辆分为大型和小型车辆,因为这两个子类别在航空图像中有明显的差异。其他的主要是从实际应用中的数值中加入的。例如,考虑到移动目标在航空图像中非常重要,我们选择直升机。选择环岛是因为它在道路分析中起着重要的作用。

是否考虑"东西"类别值得讨论。如SUN数据集[34]所示,"物品"类别(如港口、机场、停车场)通常没有明确的定义。然而,它们提供的上下文信息可能有助于检测。我们只采用harbor类别,因为它的边界相对容易定义,并且有丰富的harbor实例.在我们的图像来源中。足球场是DOTA中的另一个新类别。

在图2中,我们将DOTA的类别与NWPU VHR-10[2]进行了比较,后者在以前的空中目标检测数据集中具有最多的类别。请注意,DOTA不仅在类别数量上超过了NWPU VHR-10,而且在每个类别的实例数量上也超过了。

图2:DOTA和NWPU VHR-10在实例类别和响应数量方面的比较。

3.3.注释方法

我们考虑不同的注释方式。在计算机视觉中,许多视觉概念,如区域描述、目标、属性和关系,都用边界框进行注释,如[12]所示。边界框的常见描述是 ( x c , y c , w , h ) (x_c, y_c, w, h) (xc,yc,w,h),其中 ( x c , y c ) (x_c, y_c) (xc,yc)是中心位置, w , h w, h w,h分别是边界框的宽度和高度。

没有许多方向的目标可以用这种方法充分注释。然而,以这种方式标记的边界框不能准确或紧凑地勾勒出定向实例,例如航拍图像中的文本和目标。在如图3©和(d)所示的极端但实际上常见的条件下,两个边界框之间的重叠如此之大,以至于现有技术的目标检测方法无法区分它们。为了补救这一点,我们需要找到一种适合面向目标的注释方法。

图3:所采用注释方法的可视化。黄点代表起点,它指的是:(a)平面的左上角,(b)扇形棒球场的中心,(c)大型车辆的左上角。(d)是水平矩形注释的失败情况,与(c)相比,这带来了高重叠。

用于注释定向目标的一个选项是在一些文本检测基准[37]中采用的基于 θ θ θ的定向边界框,即 ( x c , y c , w , h , θ ) (x_c, y_c, w, h, θ) (xc,yc,w,h,θ),其中 θ θ θ表示与标准边界框的水平方向的角度。该方法的一个缺陷是不能紧凑地封装不同部分之间变形较大的定向目标。考虑到航拍图像中复杂的场景和目标的各种方位,我们需要摒弃这种方法,选择一种更加灵活易懂的方式。替代方案是任意四边形边界框,其可以表示为 { ( x i , y i ) , i = 1 , 2 , 3 , 4 } \{(x_i, y_i), i = 1, 2, 3, 4\} {(xi,yi),i=1,2,3,4},其中 ( x i , y i ) (x_i, y_i) (xi,yi)表示定向边界框的顶点在图像中的位置。顶点按顺时针顺序排列。这种方式在面向文本检测基准中被广泛采用[11]。我们从这些研究中汲取灵感,使用任意四边形检测框来注释目标。

为了进行更详细的注释,如图3所示,我们强调第一个点 ( x 1 , y 1 ) (x_1, y_1) (x1,y1)的重要性,它通常意味着目标的"头部"。对于直升机、大型车辆、小型车辆、港口、棒球场、船舶和飞机,我们仔细表示它们的第一点,以丰富潜在的用途。而对于足球场、游泳池、桥梁、地面田径场、篮球场和网球场,没有视觉线索来决定第一个点,因此我们选择左上角点作为起点。

图4显示了我们数据集中带注释的patches(不是整个原始图像)的一些样本。

图4:DOTA中带注释的图像示例。除了大型车辆的六个样品外,我们每个类别展示了三个样品。

值得注意的是,Papadopoulos等人[23]探索了一种替代的注释方法,并验证了其效率和鲁棒性。我们假设,通过更精心设计的注释方法,注释将更加精确和健壮,并且替代注释协议将促进更有效的众包图像注释。

3.4.数据集拆分

为了保证训练数据和测试数据分布近似匹配,我们随机选择一半的原始图像作为训练集,1/6作为验证集,1/3作为测试集。我们将为训练集和验证集公开提供所有带有标签的原始图像,但不为测试集提供。为了测试,我们目前正在构建一个评估服务器。

4.DOTA的属性

4.1.图像大小

与自然图像数据集中的图像相比,航空图像通常非常大。我们的数据集中图像的原始大小从大约800 × 800到大约4k × 4k,而常规数据集中(例如PASCALVOC和MSCOCO)的大多数图像不超过1k × 1k。我们对原始的完整图像进行注释,而不将其分割成碎片,以避免单个实例被分割成不同碎片的情况。

4.2.实例的各种方向

如图1(f)所示,我们的数据集在不同方向的实例中实现了良好的平衡,这对于学习鲁棒检测器非常有帮助。此外,我们的数据集更接近真实场景,因为在现实世界中看到各种方向的目标是很常见的。

4.3.空间分辨率信息

我们还提供了数据集中每个图像的空间分辨率,这意味着实例的实际大小,并在航空目标检测中起着重要作用。空间分辨率对于检测任务的重要性有两个方面。首先,它允许模型对同一类别的各种目标更具适应性和鲁棒性。众所周知,从远处看,目标会显得更小。同一目标大小不同,会困扰模型,伤害分类。然而,模型可以更多地关注提供分辨率信息的形状,而不是目标的大小。第二,它更适合细粒度分类。例如,区分小船和大型军舰会很简单。

空间分辨率也可用于过滤我们数据集中的错误标记异常值,因为大多数类别的实际大小的类内变化是有限的。在一个小的空间分辨率范围内,通过选择尺寸与同一类别的目标相差较大的目标,可以找到离群值。

4.4.类别的各种像素大小

按照[35]中的约定,我们将水平边界框的高度(我们简称为像素大小)称为实例大小的度量。我们根据水平边界框的高度将数据集中的所有实例分为三个部分:小的用于10到50的范围,中的用于50到300的范围,大的用于300以上的范围。表3示出了不同数据集中的三个实例分割的百分比。很明显,PASCAL VOC数据集、NWPU VHR-10数据集和DLR 3K慕尼黑车辆数据集分别由中间实例、中型实例和小型实例主导。然而,我们在小型实例和中型实例之间实现了良好的平衡,这更类似于真实世界的场景,因此有助于在实际应用中更好地捕捉不同大小的目标。

表3:航空图像和自然图像中一些数据集的实例大小分布比较。

值得注意的是,像素大小在不同的类别中有所不同。例如,一辆车可以小到30,然而,一座桥可以大到1200,这是一辆车的40倍。来自不同类别的实例之间的巨大差异使得检测任务更具挑战性,因为模型必须足够灵活,以处理极其微小和巨大的目标。

4.5.实例的各种纵横比

纵横比(AR)是基于锚的模型的一个重要因素,如Faster RCNN [27]和YOLOv2 [26]。我们计算了数据集中所有实例的两种AR,为更好的模型设计提供参考:1)最小外接水平矩形检测框的AR,2)原始四边形检测框的AR。图5示出了我们的数据集中的实例的这两种类型的纵横比分布。我们可以看到实例的纵横比变化很大。此外,在我们的数据集中有大量具有大纵横比的实例。

图5:DOTA中的实例统计。AR表示纵横比。(a)水平检测框的AR。(b)定向检测框的AR。(c)每个图像的注释实例数量的直方图。

4.6.图像的各种实例密度

航空图像包含数千个实例是很常见的,这与自然图像不同。例如,ImageNet[6]中的图像平均包含2个类别和2个实例,而MSCOCO分别包含3.5个类别和7.7个实例。我们的数据集每张图像的实例要丰富得多,最多可达2000个。图5示出了我们的DOTA数据集中的实例数量。

在单个图像中有如此多的实例,不可避免地会看到实例密集的区域。对于COCO,实例不是一个接一个地注释的,因为遮挡使得很难区分一个实例和它的相邻实例。在这些情况下,实例组被标记为具有名为"人群"的属性的一个段。然而,对于航空图像来说,情况并非如此,因为由于从上面的视角,很少存在遮挡。因此,我们可以逐个注释密集区域中的所有实例。图4示出了密集填充实例的示例。在这些情况下检测目标对当前的检测方法提出了巨大的挑战。

5.评估

我们评估了DOTA上最先进的目标检测方法。对于水平目标检测,我们精心选择Faster R-CNN [27]、R-FCN [4]、YOLOv2 [26]和SSD[17]作为我们的基准测试算法,因为它们在一般目标检测上表现出色。对于定向目标检测,我们修改了原始的Faster RCNN算法,使得它可以预测表示为 { ( x i , y i ) , i = 1 , 2 , 3 , 4 } \{(x_i, y_i), i = 1, 2, 3, 4\} {(xi,yi),i=1,2,3,4}的正确定向的边界框。

请注意,主干网络分别是用于R-FCN和Faster R-CNN的ResNet-101[8]、用于SSD的InceptionV2[10]和用于YOLOv2的定制GoogLeNet[28]。

5.1.评估任务

为了评估DOTA上最先进的基于深度学习的检测方法,我们提出了两个任务,即水平检测框检测(简称HBB)和定向检测框检测(简称OBB)。更具体地说,我们在两种不同的ground truth上评估这些方法,HBB或OBB,不管这些方法是如何训练的。

5.2 评估原型

DOTA中的图像非常大,无法直接发送到基于CNN的检测器。因此,我们从原始图像中裁剪一系列1024 × 1024的补丁,步幅设置为512。请注意,在裁剪过程中,一些完整的目标可能会被切割成两部分。为了方便起见,我们将原始目标的面积表示为 A o A_o Ao,将分割部分 P i P_i Pi的面积表示为 a i , ( i = 1 , 2 ) a_i, (i = 1, 2) ai,(i=1,2)。然后我们计算原始目标区域上的部分区域, U i = a i A o U_i = \frac{a_i}{A_o} Ui=Aoai。最后,我们将 U i < 0.7 U_i < 0.7 Ui<0.7的部分 P i P_i Pi标记为困难,对于另一个,我们保持其与原始注释相同。对于新生成部分的顶点,我们需要确保它们可以用拟合方法被描述为一个顺时针方向有4个顶点的定向检测框。

在测试阶段,我们首先发送裁剪后的图像块以获得临时结果,然后将结果组合在一起以恢复原始图像上的检测结果。最后,我们基于预测的类别对这些结果使用非最大抑制(NMS)。我们将HBB实验的NMS阈值保持为0.3,定向实验的NMS阈值保持为0.1。通过这种方式,我们间接地在DOTA上训练和测试基于CNN的模型。

对于评估指标,我们采用与PASCAL VOC相同的mAP计算。

5.3 具有水平边界框的基线

HBB实验的标签是通过计算原始注释边界框上的轴对齐边界框来生成的。为了公平起见,我们保持所有实验的设置和超参数与相应论文中描述的相同[27,4,26,17]。

HBB预测的结果如表4所示。请注意,SSD的结果比其他型号略低。我们怀疑这应该归因于SSD数据增强策略中的随机裁剪操作,这在一般目标检测中非常有用,而在非常小的训练实例的航空目标检测中会退化。结果进一步表明了航空物体和一般物体在实例大小方面的巨大差异。

表4:用HBB地面实况评估的基线模型的数值结果(AP)。类别的简称定义为:BD-棒球场、GTF-地面跑道、SV-小型车辆、LV-大型车辆、TC-网球场、BC-篮球场、SC-储罐、SBF-足球场、RA-环岛、SP-游泳池和HC-Helicopter。FR-H表示在水平检测框上训练的Faster R-CNN[27]。

5.4.具有定向边界框的基线

OBB的预测是困难的,因为现有技术的检测方法不是为定向目标设计的。因此,我们选择Faster R-CNN作为其准确性和效率的基本框架,然后对其进行修改以预测定向检测框。

由RPN(区域建议网络)生成的ROI(感兴趣区域)是矩形,其可以被写成 R = ( x m i n , y m i n , x m a x , y m a x ) R = (x_{min}, y_{min}, x_{max}, y_{max}) R=(xmin,ymin,xmax,ymax),对于更详细的解释, R = { ( x i , y i ) , i = 1 , 2 , 3 , 4 } R=\{(x_i, y_i), i = 1, 2, 3, 4\} R={(xi,yi),i=1,2,3,4},其中 x 1 = x 4 = x m i n x_1 = x_4 = x_{min} x1=x4=xmin, x 2 = x 3 = x m a x x_2=x_3=x_{max} x2=x3=xmax, y 1 = y 2 = y m i n y_1=y_2=y_{min} y1=y2=ymin, y 3 = y 4 = y m a x y_3=y_4=y_{max} y3=y4=ymax。在R-CNN过程中,每个RoI被附加到写为 G = { ( g x i , g y i ) , i = 1 , 2 , 3 , 4 } G = \{(g_{xi}, g_{y_i}), i = 1, 2, 3, 4\} G={(gxi,gyi),i=1,2,3,4}的ground truth的定向边界框。然后R-CNN的输出目标 T = { ( t x i , t y i ) , i = 1 , 2 , 3 , 4 } T = \{(t_{xi}, t_{y_i}), i = 1, 2, 3, 4\} T={(txi,tyi),i=1,2,3,4}计算为, t x i = ( g x i − x i ) / w t_{xi} = (g_{xi} − x_i)/w txi=(gxi−xi)/w, t y i = ( g y i − y i ) / h t_{y_i} = (g_{y_i} − y_i)/h tyi=(gyi−yi)/h,其中 w = x m a x − x m i n w = x_{max} − x_{min} w=xmax−xmin, h = y m a x − y m i n h = y_{max} − y_{min} h=ymax−ymin,类似于[13]。

其他设置和超参数保持与Faster R-CNN[27]中描述的相同。数值结果如表5所示。与我们实施的对于OBB的Faster R-CNN,我们用OBB的GT评估了在HBB上训练的YOLOv2、R-FCN、SSD和Faster R-CNN。如表5所示,在HBB上训练的那些方法的结果远低于在OBB上训练的Faster R-CNN,这表明对于航空场景中的定向目标检测,这些方法应该进行相应的调整。

表5:用OBB的GT评估的基线模型的数值结果(AP)。FR-O意味着在定向检测框上训练的Faster RCNN[27]。

5.5.实验分析

当分析表4中显示的结果时。小型车辆、大型车辆和船舶等类别的性能远不能令人满意,这归因于它们在航空图像中的尺寸小和密集位置。相比之下,大型和离散的物体,如飞机、游泳池和网球场,表现相当公平。

在图6中,我们比较了HBB和OBB的目标检测实验之间的结果。对于图6(a)和(b)所示的密集堆积和定向物体,HBB实验中物体的定位精度远低于OBB实验,并且许多结果通过后处理操作被抑制。因此,OBB回归是面向目标检测的正确方法,可以真正集成到实际应用中。在图6(c)中,以OBB风格注释的大纵横比目标(如港口、桥梁)对于当前检测器来说很难回归。但是在HBB风格中,这些目标通常具有正常的纵横比,因此,结果似乎相当好,如图6(d)所示。然而,在极其密集的场景中,例如在图6(e)和(f)中,HBB和OBB的结果都不令人满意,这意味着当前检测器的缺陷。

图6:使用训练有素的Faster R-CNN在DOTA上测试的可视化结果。顶部和底部分别说明了HBB和OBB在取向、大纵横比和密度情况下的结果。

6.跨数据集验证

跨数据集泛化[29]是对数据集泛化能力的评估。与其他空中物体检测数据集相比,我们选择UCAS-AOD数据集[41] 对其相对大量的数据进行跨数据集泛化。由于UCAS-AOD没有官方数据拆分,我们随机选择1110个进行训练,400个进行测试。我们选择YOLOv2作为下面描述的所有实验的测试检测器,并为所有标签选择HBB风格的注释。在UCAS-AOD中,输入图像大小更改为960 × 544,大约是原始图像大小,而其他设置保持不变。

结果显示在表6中。YOLOv2-A和YOLOv2-D模型的两个数据集的性能差异分别为35.8和15.6。这表明DOTA极大地覆盖了UCAS-AOD,此外还有更多UCAS-AOD没有的模式和属性。这两种模型在DOTA上的得分都很低,这反映出DOTA更具挑战性。

表6:跨数据集泛化的结果。上图:在UCAS-AOD上评估的检测性能。下图:在DOTA上评估的检测性能。YOLOv2-A和YOLOv2-D分别用UCAS-AOD和DOTA训练。

7.结论

我们建立了一个用于航空图像中定向目标检测的大规模数据集,它比该领域任何现有的数据集都大得多。与一般的目标检测基准相比,我们用定向检测框注释了大量分布良好的定向目标。我们假设这个数据集具有挑战性,但类似于自然航空场景,更适合实际应用。我们还建立了航空图像中目标检测的基准,并通过修改主流检测算法来展示产生定向检测框的可行性。

在大图像中检测密集的小实例和具有任意方向的极大实例将是特别有意义和具有挑战性的。我们相信DOTA不仅会推动地球视觉中目标检测算法的发展,也会对计算机视觉中的一般目标检测提出有趣的算法问题。

相关推荐
玄明Hanko2 分钟前
小模型干大事情,基于LLaMA-Factory+Lora入门级微调开源AI模型
人工智能·llama
视觉语言导航29 分钟前
具身导航如何利用取之不尽的网络视频资源!RoomTour3D:基于几何感知的视频-指令训练调优
人工智能·深度学习·机器人·具身智能
Kai HVZ40 分钟前
《机器学习》——PCA降维
人工智能·机器学习
程序猿阿伟1 小时前
《鸿蒙Next旅游应用:人工智能赋能个性化与智能导览新体验》
人工智能·harmonyos·旅游
云空2 小时前
《火焰烟雾检测开源神经网络模型:智能防火的科技护盾》
人工智能·深度学习
深兰科技2 小时前
大模型赋能医疗项目,深兰科技与武汉协和医院达成合作
人工智能·科技·ai·深兰科技
深图智能2 小时前
PyTorch使用教程(3)-Tensor包
人工智能·pytorch·深度学习
云空2 小时前
《Compact Convolutional Transformers:开启计算机视觉新篇》
人工智能·深度学习·计算机视觉·分类·keras
西猫雷婶2 小时前
python学opencv|读取图像(三十六)(反)零值处理
人工智能·opencv·计算机视觉
深度之眼2 小时前
2025年CNN与Transformer融合的创新点思路
人工智能·深度学习·cnn·transformer