Vision-based Anti-UAV Detection and Tracking
基于视觉的反无人机检测与跟踪
0.论文摘要
摘要
摘要------无人机在各个领域得到了广泛的应用,其对安全和隐私的侵犯引起了社会的关注。近年来,已经推出了几种用于无人机的检测和跟踪系统,但它们大多基于射频、雷达和其他介质。我们假设计算机视觉领域已经足够成熟,可以检测和跟踪入侵的无人机。因此,我们提出了一个可见光模式数据集,称为大连理工大学反无人机数据集,简称DUT反无人机。它包含一个总共10,000张图像的检测数据集和一个包含20个视频的跟踪数据集,包括短期和长期序列。所有帧和图像都经过精确的手动注释。我们使用这个数据集来训练几种现有的检测算法,并评估算法的性能。还在我们的跟踪数据集上测试了几种跟踪方法。此外,我们提出了一种清晰简单的跟踪算法,结合检测,继承了检测器的高精度。大量的实验表明,融合检测后的跟踪性能有了很大的提高,从而为使用我们的数据集进行无人机跟踪提供了一种新的尝试。
索引术语-反无人机,数据集,检测,跟踪。
代码地址
1.研究背景
随着工业技术的成熟,无人机逐渐成为主流。它们因体积小、价格低、操作简单[4]而广泛应用于物流[1]、交通[2]、监控[3]等领域。无人机虽然提供了便利,但也带来了一系列问题。不是公共安全,就是个人安全隐私,都很容易受到侵犯。因此,对非法或无意入侵无人机的检测和跟踪至关重要。然而,目前还没有一套完整可靠的反无人机检测跟踪系统。现有的检测和预警技术大多基于雷达[5]、射频(RF)[6]和声学传感器[7],这些技术往往存在成本高、易受噪声影响等局限性。这些限制导致不可靠的结果。因此,这些现有的算法不能被广泛使用。它们的应用范围仅限于机场和其他公共场所。
近年来,基于深度学习的方法在计算机视觉的各个领域[8]、[9]、[10]、[11]、[12]发展迅速,尤其是用于目标检测和跟踪。它们的成熟为建立反无人机高性能跟踪系统提供了可能。许多通用的目标检测模型,如Faster-RCNN [11]和SSD[13],以及常见的跟踪模型,如SiamFC[12]和DiMP[14],目前是可用的。然而,当直接应用于无人机检测和跟踪时,这些通用方法表现不佳。即使检测算法已经逐渐成熟和商业化,但复杂背景下的小目标检测仍然是一个问题,这是反无人机检测旨在解决的问题。无人机经常与噪声和干扰较大的复杂背景融合。遮挡也会发生,并给跟踪任务带来挑战。提出了改进YOLOv3[15],利用低秩和稀疏矩阵分解进行分类[16]等一系列方法来解决前述问题,并取得了良好的效果。
我们工作的主要动机是使用现有的最先进的检测和跟踪方法,在数据层面和方法层面有效地适应和解决反无人机任务。首先,基于深度学习的方法需要大量的训练数据来获得稳健和准确的性能。虽然提出了几个相应的数据集,如AntiUAV[17]和MAV-VID[18],但它们仍然不足以训练高性能模型。因此,为了在数据层面充分利用现有的反无人机任务检测和跟踪方法,并促进该领域的进一步发展,我们提出了一个无人机可见光数据集,包括检测和跟踪子集。我们还使用我们的训练集重新训练了几种检测方法。其次,我们试图在方法层面进一步提高无人机跟踪性能。具体来说,我们提出了一种融合策略来结合检测和跟踪方法。
我们的主要贡献总结如下。
•我们提出了一个名为DUT Anti-UAV的反无人机数据集,其中包含检测和跟踪子集。检测数据集包括训练集(5200个图像)、验证集(2600个图像)和测试集(2200个图像)。跟踪数据集包括20个序列。它将公开发布,用于学术研究。
•我们在我们的数据集上评估最先进的方法,包括14个检测器和8个跟踪器。检测器都使用我们的DUT反无人机检测数据集的训练集进行重新训练。
•针对无人机跟踪任务提出了一种清晰简单的融合算法。该算法将检测集成到跟踪中,同时利用了检测器的高精度。大量的实验表明,对于大多数跟踪器和检测器的组合,跟踪性能都有显著提高。
2.相关工作
A.无人机视图下的目标检测与跟踪
与反无人机任务不同,如今更多的是从无人机的角度讨论目标检测和跟踪。与移动车辆上的摄像头相比,无人机更灵活,因为它易于控制。因此,无人机常用于实现空中目标跟踪。到目前为止,已经构建了几个无人机数据集,例如用于跟踪的UAV123[19],用于检测的DroneSURF[20]和CARPK[21],等等。
此外,已经提出了几种相应的算法[22], [23], [24]来解决这两个任务。无人机检测和跟踪大多是从上面俯瞰的,为此它获得了很大的视野。但也带来了新的挑战,如密度高、物体小、背景复杂等。对于这些属性,Yu等人[22]在跟踪中使用交换目标上下文采样(EOCS)方法[25]考虑上下文信息,以推断目标之间的关系。为解决相机快速运动问题,Li等[23]基于背景特征点,通过射影变换优化相机运动模型。此外,邢等人[24]考虑到在实时跟踪中,无人机上使用的计算资源是有限的。为了补充轻量级网络,他们提出了一个轻量级Transformer层,然后将其集成到金字塔网络中,从而最终构建一个基于CPU的实时跟踪器。
上述算法在现有的无人机跟踪基准上表现良好,也促进了空中目标跟踪的商业化。无人机跟踪越来越受到人们的关注,这使得反无人机跟踪也变得至关重要。
B.反无人机方法论
近年来,来自无人机的安全问题越来越多。尤其是考虑到国家安全,许多国家投入了大量时间和精力,在军事基地研究部署了相当成熟的非基于深度学习的反无人系统。大学和研究机构正在不断优化这些反无人系统。
ADS-ZJU[26]。该系统结合多种监视技术,实现无人机检测、定位、防御。它部署了三个传感器来收集声学信号、视频图像和射频信号。然后将信息发送到中央处理单元以提取用于检测和定位的特征。ADS-ZJU使用短时傅立叶变换来提取接收到的声学信号的频谱特征,并使用定向梯度的直方图来描述图像特征。它还利用无人机射频信号频谱与WiFi信号频谱不同的特点,利用射频信号在不同通信信道上的强度分布来描述射频特征。特征提取后,利用支持向量机(SVM)并行进行音频检测、视频检测和射频检测。之后,在来自视频图像的特定地理区域的约束下,可以通过混合测量(包括DOA和RSS)来估计无人机的位置。采用多种监控技术,互补多种技术的优缺点,使系统具有较高的准确性。同时,它可以进行简单的基于视觉的系统无法做到的射频干扰。但在该系统中,各单元分散,使得系统覆盖面积较大,其高昂的成本也使其不适合民用。
动坐标追踪[27]。本研究提出了一种双轴旋转跟踪机构,使用双轴跟踪装置,即两组步进电机搭配热成像或全彩色摄像机和传感模块来测量无人机的飞行高度。该设备动态计算球坐标中的经度和纬度坐标。热成像和全彩相机可选地在各种天气条件下使用,使系统在不同环境中都很稳定。这种用于反无人机系统的无人机跟踪装置价格低廉,实用性强,然而,其对硬件设施的要求仍然较高。
C.无人机数据集
除了利用其他媒体解决无人机检测问题外,由于近年来计算机视觉的快速发展,人们也开始利用基于深度学习的目标跟踪算法进行无人机跟踪。在计算机视觉任务中,数据集是获得具有较强鲁棒性的模型的重要因素。因此,用于无人机检测和跟踪的数据集一直被提出。下面描述几个相对完整的现有UAV数据集。
MAV-VID[18]。这是Kaggle发布的数据集,其中无人机是唯一检测到的物体。它包含64个视频(总共40,323张图片),其中53个用于训练,11个用于验证。在这个数据集中,无人机的位置相对集中,位置之间的差异大多是水平的。检测到的物体很小,其平均大小为整个图像的0.66%。而在我们的数据集中,无人机的分布是分散的,水平和垂直分布相对更均匀,这使得我们的数据集训练的模型更鲁棒。
无人机与鸟类检测挑战[28]。该数据集是在第16届IEEE高级视频和基于信号的监控(AVSS)国际会议上提出的。顾名思义,该数据集的主要特征是除了无人机之外,图片中还不能忽视许多鸟类。检测器必须成功地区分无人机和鸟类,在不响应鸟类的同时警告无人机。然而,两者的大小、颜色甚至形状都可能相似,这给检测任务带来了挑战。与第一个版本不同的是,这个数据集除了海景之外,还增加了陆地场景,由不同的相机拍摄。该数据集的另一个特点是检测到的物体的大小极小。根据统计分析,检测到的无人机的平均尺寸为34 × 23(图像尺寸的0.1%)。77个视频由近10,000张图像组成。鉴于这种情况,针对该数据集改进算法,成功地降低了高误报率,并在该方法鲁棒性强的情况下进一步推广到其他领域,弥补了该数据集的意义。这种数据集中的场景大多是海边的,视野开阔。与他们不同的是,我们大多在建筑物多的地方收集数据,更适合民用。
Anti-UAV[17]。这是一个标记了可见光和红外双模信息的数据集,由318个完全标记的视频组成。其中160个视频用作训练集,91个用作测试集,其余用作验证集,总共186,494张图像。
将数据集中的无人机分为七个属性,系统地总结了无人机检测任务中可能出现的几种特殊情况。录制的视频包含两种环境,即白天和夜晚。在这两种环境中,两种模态的检测起着不同的作用。从位置分布来看,反无人机的运动范围较广,但大多集中在中心区域,与其他两个数据集和我们的数据集相比方差较小。该数据集侧重于解决基于视觉的检测器在夜间表现不佳的问题,而我们的数据集旨在通过丰富多个方面的多样性来提高模型的鲁棒性,如不同的无人机类型、不同的场景信息、不同的光照条件和不同的天气。
Brian等人[29]收集并整合了上述三个无人机数据集(即MAV-VID[18]、Drone-vs-Bird[28]和Anti-UAV [17]),并使用最先进的四种目标检测(FasterRCNN[11]、YOLOv3[30]、SSD[13]和DETR[31])和三种跟踪方法(SORT[32]、DeepSORT[33]和Tracktor[34])进行了基准性能研究。与这项工作相比,我们提出了一个新的数据集,用于无人机检测和跟踪任务。此外,我们的实验更加充分。我们从五种类型的检测器和三种类型的骨干网络的组合中评估了14种不同版本的检测器。我们还展示了8种不同跟踪器在我们的数据集上的跟踪性能。
反无人机界还有一场挑战赛[35],至今已经举办了两次。这一挑战鼓励了新颖而精确的多尺度物体跟踪方法,极大地促进了这一任务的发展。例如,第二届AntiUAV挑战赛的获胜者SiamSTA[36]提出了一种基于时空注意力的Siamese跟踪器,该跟踪器对生成具有局部邻域的候选建议提出了空间和时间限制。
3.DUT反无人机基准测试
为了帮助无人机检测和跟踪领域的发展,我们提出了一个无人机检测和跟踪数据集,命名为DUT反无人机。它包含检测和跟踪子集。检测数据集被分成三个集合,即训练集、测试集和验证集。跟踪数据集包含20个序列,其中目标是各种无人机。它用于测试无人机跟踪算法的性能。
A.数据集拆分
我们的DUT反无人机数据集包含检测和跟踪子集。检测数据集被分成训练集、测试集和验证集。跟踪数据集包含20个短期和长期序列。所有帧和图像都经过精确的手动注释。图像和物体的详细信息如表I所示。具体来说,检测数据集总共包含10,000幅图像,其中训练集、测试集和验证集分别具有5200、2200和2600幅图像。考虑到一幅图像包含多个目标的情况,检测目标的总数为10,109个,其中训练集、测试集和验证集分别具有5243个、2245个和2621个目标。
B.数据集特征
与一般的目标检测和跟踪数据集(例如,COCO[37]、ILSVRC[38]、LaSOT [39]、OTB[40])相比,所提出的无人机检测和跟踪数据集最显著的特点是小目标的比例更大。此外,鉴于无人机多在室外飞行,背景通常比较复杂,这增加了无人机检测和跟踪任务的难度。我们从以下几个方面分析了所提出的数据集的特征。
图像分辨率。数据集包含各种分辨率的图像。对于检测数据集,最大图像的高度和宽度为3744和5616,而最小图像的大小为160 × 240;他们之间的巨大差异。跟踪数据集具有1080 × 1920和720 × 1280分辨率的两种类型帧。图像分辨率的各种设置可以使模型适应不同大小的图像,避免过拟合。
目标和背景。为了丰富物体的多样性,防止模型过度拟合,我们选择了超过35种类型的无人机。在图3中可以看到几个示例。数据集中的场景信息也是多样的。鉴于无人机大多在户外飞行,我们数据集的背景室外环境,包括天空、乌云、丛林、高层建筑、居民楼、农田、操场。此外,我们的数据集中还考虑了各种光照条件(如白天、夜晚、黎明和黄昏)和不同的天气(如晴天、阴天和下雪天)。图4中示出了来自检测子集的各种示例。我们数据集中复杂的背景和明显的室外照明变化对于训练鲁棒和高性能的无人机检测模型至关重要。
图3。我们数据集中不同类型无人机的示例。
图4。我们的数据集的检测图像和注释的示例。
目标比例。无人机的尺寸往往很小,户外环境广阔。因此,在我们的数据集中,小目标的比例很大。我们根据完整图像计算物体面积比,并绘制比例分布的直方图,分别如表I和图2所示。对于检测数据集,包括训练集、测试集和验证集,平均目标面积比约为0.013,最小目标面积比为1.9 E-06,最大目标占整个图像的0.7。大多数物体都很小。整个图像中的目标大小的比例大约小于0.05。对于跟踪数据集,序列中目标的比例平滑变化。平均物体面积比为0.0031,最大比为0.045,最小比为2.7 E-04。与一般检测和跟踪数据集中的目标相比,小目标更难检测和跟踪,也更容易出现故障,如漏检和跟踪丢失。
图2.DUT反无人机数据集的纵横比和比例分布。
目标纵横比。表I和图2还示出了物体纵横比。我们数据集中的目标有不同的纵横比,最大值为6.67,最小值为1.0。在一个序列中,相同的物体具有显著的纵横比变化。例如,"video10"中的目标纵横比在1.0和4.33之间变化。大多数目标的纵横比在1.0到3.0之间。
目标位置。图1以散点图的形式描述了目标相对中心位置的位置分布。大多数物体都集中在图像的中心。所有集合中目标运动的范围不同,并且目标的水平和垂直运动分布均匀。对于跟踪数据集,一个序列中的目标的边界框是连续的。根据图1(d),除了图像的中心区域之外,目标还频繁地向图像的右侧和左下方移动。
图1.DUT反无人机数据集的位置分布。
C.数据集挑战
通过对最后一小节中提出的数据集特征的分析,我们发现无人机检测和跟踪遇到了许多困难和挑战。主要挑战是物体太小、背景复杂或与物体相似、光线变化明显。也容易出现物体模糊、快速运动、相机运动和视野外的情况。图4和图5分别示出了反映上述挑战的检测和跟踪数据集的示例。
图4。我们的数据集的检测图像和注释的示例。
图5。我们的数据集的跟踪序列和注释的示例。
4.实验
4.1 A.DUT反无人机数据集上的检测
我们选择了几种最先进的检测方法。我们使用Faster-RCNN[11]、Cascade-RCNN[41]和ATSS[42],它们是两阶段方法,以及YOLOX[43]和SSD[13],这是一阶段方法。两阶段模型通常具有更高的精度,而一阶段模型在速度方面表现更好。下面提供这些算法的描述。
Faster-RCNN[11]。该方法通过解决选择性搜索带来的区域建议的耗时问题,对Fast-RCNN[44]进行了几项改进。提出了区域建议网络(RPN)来代替选择性搜索。这个网络有两个分支,即分类和回归。分类和回归进行两次,因此该方法的精度较高。
Cascade-RCNN[41]。它由一系列检测器组成,这些检测器的交集超过并集(IoU)阈值不断增加。检测器被逐级训练,并且一个检测器的输出是IoU阈值更高的下一个检测器的输入(换句话说,具有更高质量的检测器)。该方法保证了每个检测器的数量,从而减少了过拟合问题。
ATSS[42]。它声称基于锚和无锚检测器之间的本质区别是定义正训练样本和负训练样本的方式。提出了一种可以根据样本选择正负样本的算法目标的统计特征。
YOLO[43]。YOLO系列以其极高的速度和相对较高的精度而闻名。随着物体检测的发展,它可以集成大多数先进的技术,从而实现一轮又一轮的迭代。在YOLOv5达到峰值性能后,YOLOX[43]开始专注于无锚检测器、高级标签分配策略和端到端(无NMS)检测器,这些都是这些年来的重大进步。升级后,与COCO(上下文中名为Common Objects的检测数据集)[37]上的YOLOv3[30]相比,它表现出了显著的性能。
SSD[13]。它也是一个一阶段检测器。它结合了几个不同分辨率的特征图,从而通过多尺度训练提高了模型的性能。对不同大小物体的检测有很好的效果。只涉及单个网络,使模型易于训练。
我们将这些检测器的主干网络替换为几个经典的主干网络,包括ResNet18[45]、ResNet50[45]和VGG16[46],并获得了14种不同版本的检测方法。14个检测器都在DUT反无人机检测数据集的训练子集上重新训练。此外,我们使用平均精度(mAP)和每秒帧数(FPS)来评估方法的性能。结果如表II所示。ResNet50的Cascade-RCNN表现最好,ResNet18的YOLOX最快。
表II模型和主干的不同组合的检测结果。MAP和FPS的最好结果被标记为红色。
我们还通过使用具有不同IoU阈值的P-R曲线来可视化不同检测器的性能,如图6所示。在P-R曲线中,P表示精度,R表示召回率。通常,它们之间存在负相关关系,以R为横坐标、P为纵坐标绘制的曲线可以有效地反映一个检测器的综合性能。此外,我们在图10中说明了几个定性结果。Faster-RCNN和Cascade-RCNN可以得到准确的检测框和相应的置信度分数,而YOLO 错误地将背景检测为目标。
图6。所有检测器的P-R曲线。
图10.检测结果的定性比较。第一行到最后一行依次表示Faster-RCNN-ResNet50、Cascade-RCNNResNet50、ATSS-ResNet50、SSD-VGG16和YOLO-DarkNet的检测结果,包括目标边界框和对应的置信度分数。放大后看得更清楚。
B.跟踪DUT反无人机数据集
我们选择几个现有的最先进的跟踪器,并在我们的跟踪数据集上执行它们。跟踪性能显示在表III的第三列("节点"列)中。我们使用三种度量方法来评估跟踪性能。首先,成功计算目标真实和预测的边界框之间的IoU。它可以反映预测的目标检测框的大小和比例的准确性。其次,精度通过计算真实和跟踪结果之间的像素距离来测量中心位置误差。但容易受到目标尺寸和图像分辨率的影响。为了解决这个问题,引入范数Pre来使用0和0.5之间的曲线下面积(AUC)对跟踪器进行排名。
我们总共选择了七种跟踪算法。下面提供了它们的描述。
SiamFC[12]。该方法是基于全卷积孪生网络的经典生成式跟踪算法。它在模板补丁和搜索区域之间进行互相关运算,以定位目标。此外,采用多尺度策略来决定目标的规模。
SiamRPN++[47]。它将区域建议网络(RPN)引入孪生网络,其主干网络可以很深。该框架有两个分支,包括选择最佳锚点的分类分支和预测锚点偏移的回归分支。与SiamFC相比,SiamRPN++由于引入了RPN机制,去掉了多尺度策略,因此更加健壮和快速。
ECO[48]。该方法是一种经典的基于相关滤波的跟踪算法。它引入了因式分解卷积算子来减少模型参数。提出了一种训练样本空间的紧凑生成模型,在保证样本集多样性的同时减少训练样本数量。此外,还提出了一种高效的模型更新策略,以提高跟踪器的速度和鲁棒性。
ATOM[49]。该模型结合了目标分类和检测框预测。前一个模块是在线训练的,以保证很强的辨别能力。后一个模块使用IoU损失,通过离线训练预测目标和预测边界框之间的重叠。这种组合赋予跟踪器高辨别能力和良好的回归能力。
DiMP[14]。该方法在ATOM的基础上,引入一个判别学习损失,引导网络学习更多的判别特征。还设计了一个高效的优化器来加速网络的收敛,进一步提高了算法的性能。
TransT[50]。TransT是一种基于Transformer的方法。由于其基于注意力的特征融合网络,该方法能够提取丰富的语义特征图,并在大多数跟踪基准上实现了最先进的性能。
SPLT[51]。它是一个主要基于两个模块的长期跟踪器,即细读模块和略读模块。细读模块包含一个有效的边界框回归器来生成一系列目标建议,目标验证器用于根据置信度分数选择最佳建议。略读模块用于证明目标在当前帧中的状态,并选择合适的搜索方式(全局搜索或局部搜索)。这些提高了该方法的速度,使其能够实时跟踪。
LTMU[52]。它也是一个长期跟踪器。该方法的主要贡献是提出了一个经过训练的元更新器离线,用于证明跟踪器是否需要在当前帧中更新。大大提高了跟踪器的鲁棒性。此外,设计了一个长期跟踪框架,该框架基于基于SiamRPN的重新检测器、在线验证器和具有所提出的元更新器的在线本地跟踪器。该方法在长期和短期跟踪基准上都表现出了较强的判别能力和鲁棒性。
我们可以发现LTMU在我们的跟踪数据集上表现最好,其中成功率为0.608,Norm Pre为0.783。TransT、DiMP和ATOM也表现出良好的表现,成功率分别为0.586、0.578和0.574。SiamFC的性能最差,其中成功率为0.381,精度为0.623。
C. Tracking with detection
为了进一步提高跟踪性能,并充分利用我们的数据集,包括检测集和跟踪集,我们提出了一种清晰简单的结合检测的跟踪算法。融合策略如图7和算法1所示。给定跟踪器 T \mathcal{T} T和检测器 D \mathcal{D} D,我们首先基于第一帧的真实 G T 0 GT_0 GT0初始化跟踪器 T \mathcal{T} T。对于每个后续帧,我们从跟踪器获得边界框 b b o x t bbox_t bboxt及其置信度分数 s c o r e t score_t scoret。如果 s c o r e t score_t scoret小于 τ t τ_t τt,我们将其视为不可靠的结果,并引入检测机制。接下来,检测器获得边界框 b b o x e s d bboxes_d bboxesd及其置信度分数 s c o r e s d scores_d scoresd。如果得分的最高分高于 τ d τ_d τd和 s c o r e t score_t scoret,我们将相应的检测到的边界框 b b o x d bbox_d bboxd设置为当前结果;否则, b b o x t bbox_t bboxt是最终结果。在本文中,超参数 τ t τ_t τt和 τ d τ_d τd设置为0.9。为了研究不同参数值对我们的融合方法的影响,我们分别改变超参数 τ t τ_t τt和 τ d τ_d τd的值。图8示出了我们的跟踪器对这两个参数是鲁棒的。即参数 τ t τ_t τt和 τ d τ_d τd的巨大变化仅引起跟踪结果的微小波动(小于1%)。
图8。不同参数值对融合方法的影响。
在提出的融合策略的基础上,我们尝试了一系列跟踪器和检测器的不同组合。具体来说,我们选择了上述八个跟踪器(SiamFC、ECO、SPLT、ATOM、SiamRPN++、DiMP、TransT和LTMU)和五个具有不同类型骨干网的检测器(总共14个不同版本)。详细跟踪结果如表III所示。每个跟踪器的成功和精度图如图9所示。融合检测后,所有跟踪器的跟踪性能都有显著提高。例如,与基线跟踪器SiamFC相比,融合方法SiamFC+Faster-RCNN(VGG16)在成功率方面增加了23.4%。性能最好的跟踪器LTMU在融合检测器Faster-RCNN(VGG16)后,也进一步提高了其性能。跟踪性能改善的程度取决于检测算法。对于大多数跟踪器来说,Faster-RCNN是更好的融合选择,尤其是对于其VGG16版本。相反,ATSS很难为跟踪器提供额外的性能优势。除了Faster-RCNN之外,Cascade-RCNN也可以提高跟踪性能。图11显示了原始跟踪器和我们的融合方法的定性比较,其中选择模型Faster-RCNN-VGG16作为融合检测器。融合检测后,跟踪器在大多数场景下都能表现得更好。其中,LTMU-DET的性能最好,可以应对大多数挑战。
图9.DUT反无人机数据集上跟踪器的成功和精度图。
图11。跟踪结果的定性比较。"noDET"表示没有融合检测的纯跟踪结果,"DET"结果我们选择模型Faster-RCNNVGG16。放大看彩色效果更好。
5.结论
在本文中,我们提出了用于无人机检测和跟踪的DUT反无人机数据集。它包含两个集合,即检测和跟踪。前者有来自10,000张图像的10,109个目标,这些目标被分成三个子集(训练、测试和验证)。后者包含20个序列,其平均长度为1240。所有图像和帧都是手动精确注释的。我们从5种类型的组合中设置了14种不同版本的探测器检测算法和3种类型的主干网络。这些方法使用我们的检测-训练数据集重新训练,并在我们的检测-测试数据集上进行评估。此外,我们在跟踪数据集上展示了8个跟踪器的跟踪结果。为了进一步提高跟踪性能并充分利用我们的检测和跟踪数据集,我们提出了一种简单明了的跟踪器和检测器融合策略,并评估了8个跟踪器和14个检测器组合的跟踪结果。大量的实验表明,我们的融合策略可以显著提高所有跟踪器的跟踪性能。
6.引用文献
- [1] J. P. ˇ Skrinjar, P. ˇ Skorput, and M. Furdi ́ c, "Application of unmanned aerial vehicles in logistic processes," in International Conference "New Technologies, Development and Applications", 2018, pp. 359--366.
- [2] Y. Xu, G. Yu, Y. Wang, X. Wu, and Y. Ma, "Car detection from lowaltitude UAV imagery with the faster R-CNN," Journal of Advanced Transportation, vol. 2017, pp. 1--10, 2017.
- [3] H. Cheng, L. Lin, Z. Zheng, Y. Guan, and Z. Liu, "An autonomous vision-based target tracking system for rotorcraft unmanned aerial vehicles," in IEEE/RSJ International Conference on Intelligent Robots and Systems, 2017, pp. 1732--1738.
- [4] M. Lort, A. Aguasca, C. Lopez-Martinez, and T. M. Marı ́n, "Initial evaluation of sar capabilities in UAV multicopter platforms," Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 11, no. 1, pp. 127--140, 2017.
- [5] F. Hoffmann, M. Ritchie, F. Fioranelli, A. Charlish, and H. Griffiths, "Micro-doppler based detection and tracking of UAVs with multistatic radar," in IEEE Radar Conference, 2016, pp. 1--6.
- [6] A. H. Abunada, A. Y. Osman, A. Khandakar, M. E. H. Chowdhury, T. Khattab, and F. Touati, "Design and implementation of a rf based anti-drone system," in IEEE International Conference on Informatics, IoT, and Enabling Technologies, 2020, pp. 35--42.
- [7] X. Chang, C. Yang, J. Wu, X. Shi, and Z. Shi, "A surveillance system for drone localization and tracking using acoustic arrays," in IEEE 10th Sensor Array and Multichannel Signal Processing Workshop, 2018, pp. 573--577.
- [8] G. Gao, Y. Yu, M. Yang, H. Chang, P. Huang, and D. Yue, "Crossresolution face recognition with pose variations via multilayer localityconstrained structural orthogonal procrustes regression," Information Sciences, vol. 506, pp. 19--36, 2020.
- [9] G. Gao, Y. Yu, J. Xie, J. Yang, M. Yang, and J. Zhang, "Constructing multilayer locality-constrained matrix regression framework for noise robust face super-resolution," Pattern Recognition, vol. 110, p. 107539, 2021.
- [10] G. Gao, Y. Yu, J. Yang, G.-J. Qi, and M. Yang, "Hierarchical deep cnn feature set-based representation learning for robust cross-resolution face recognition," IEEE Transactions on Circuits and Systems for Video Technology, 2020.
- [11] S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," Advances in Neural Information Processing Systems, vol. 28, 2015.
- [12] L. Bertinetto, J. Valmadre, J. F. Henriques, A. Vedaldi, and P. H. Torr, "Fully-convolutional siamese networks for object tracking," in European Conference on Computer Vision, 2016, pp. 850--865.
- [13] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, "Ssd: Single shot multibox detector," in European Conference on Computer Vision, 2016, pp. 21--37.
- [14] G. Bhat, M. Danelljan, L. V. Gool, and R. Timofte, "Learning discriminative model prediction for tracking," in IEEE International Conference on Computer Vision, 2019, pp. 6182--6191.
- [15] Y. Hu, X. Wu, G. Zheng, and X. Liu, "Object detection of UAV for anti-UAV based on improved yolo v3," in Chinese Control Conference, 2019, pp. 8386--8390.
- [16] C. Wang, T. Wang, E. Wang, E. Sun, and Z. Luo, "Flying small target detection for anti-UAV based on a gaussian mixture model in a compressive sensing domain," Sensors, vol. 19, no. 9, p. 2168, 2019.
- [17] N. Jiang, K. Wang, X. Peng, X. Yu, Q. Wang, J. Xing, G. Li, J. Zhao, G. Guo, and Z. Han, "Anti-UAV: A large multi-modal benchmark for UAV tracking," arXiv preprint arXiv:2101.08466, 2021.
- [18] A. Rodriguez-Ramos, J. Rodriguez-Vazquez, C. Sampedro, and P. Campoy, "Adaptive inattentional framework for video object detection with reward-conditional training," IEEE Access, vol. 8, pp. 124 451--124 466, 2020.
- [19] M. Mueller, N. Smith, and B. Ghanem, "A benchmark and simulator for UAV tracking," in European Conference on Computer Vision, 2016, pp. 445--461.
- [20] I. Kalra, M. Singh, S. Nagpal, R. Singh, M. Vatsa, and P. Sujit, "Dronesurf: Benchmark dataset for drone-based face recognition," in IEEE International Conference on Automatic Face & Gesture Recognition, 2019, pp. 1--7.
- [21] M.-R. Hsieh, Y.-L. Lin, and W. H. Hsu, "Drone-based object counting by spatially regularized regional proposal network," in IEEE International Conference on Computer Vision, 2017, pp. 4145--4153.
- [22] H. Yu, G. Li, W. Zhang, Q. Huang, D. Du, Q. Tian, and N. Sebe, "The unmanned aerial vehicle benchmark: Object detection, tracking and baseline," International Journal of Computer Vision, vol. 128, no. 5, pp. 1141--1159, 2020.
- [23] S. Li and D.-Y. Yeung, "Visual object tracking for unmanned aerial vehicles: A benchmark and new motion models," in AAAI Conference on Artificial Intelligence, 2017.
- [24] D. Xing, N. Evangeliou, A. Tsoukalas, and A. Tzes, "Siamese transformer pyramid networks for real-time UAV tracking," arXiv preprint arXiv:2110.08822, 2021.
- [25] H. Yu, L. Qin, Q. Huang, and H. Yao, "Online multiple object tracking via exchanging object context," Neurocomputing, vol. 292, pp. 28--37, 2018.
- [26] X. Shi, C. Yang, W. Xie, C. Liang, Z. Shi, and J. Chen, "Anti-drone system with multiple surveillance technologies: Architecture, implementation, and challenges," IEEE Communications Magazine, vol. 56, no. 4, pp. 68--74, 2018.
- [27] B.-H. Sheu, C.-C. Chiu, W.-T. Lu, C.-I. Huang, and W.-P. Chen, "Development of UAV tracing and coordinate detection method using a dual-axis rotary platform for an anti-UAV system," Applied Sciences, vol. 9, no. 13, p. 2583, 2019.
- [28] A. Coluccia, A. Fascista, A. Schumann, L. Sommer, M. Ghenescu, T. Piatrik, G. De Cubber, M. Nalamati, A. Kapoor, M. Saqib et al., "Dronevs-bird detection challenge at IEEE AVSS2019," in IEEE International Conference on Advanced Video and Signal Based Surveillance, 2019, pp. 1--7.
- [29] B. K. Isaac-Medina, M. Poyser, D. Organisciak, C. G. Willcocks, T. P. Breckon, and H. P. Shum, "Unmanned aerial vehicle visual detection and tracking using deep neural networks: A performance benchmark," in IEEE International Conference on Computer Vision, 2021, pp. 12231232.
- [30] J. Redmon and A. Farhadi, "Yolov3: An incremental improvement," arXiv preprint arXiv:1804.02767, 2018.
- [31] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, "End-to-end object detection with transformers," in European Conference on Computer Vision, 2020, pp. 213--229.
- [32] A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft, "Simple online and realtime tracking," in IEEE International Conference on Image Processing, 2016, pp. 3464--3468.
- [33] N. Wojke, A. Bewley, and D. Paulus, "Simple online and realtime tracking with a deep association metric," in IEEE International Conference on Image Processing, 2017, pp. 3645--3649.
- [34] P. Bergmann, T. Meinhardt, and L. Leal-Taixe, "Tracking without bells and whistles," in IEEE International Conference on Computer Vision, 2019, pp. 941--951.
- [35] J. Zhao, G. Wang, J. Li, L. Jin, N. Fan, M. Wang, X. Wang, T. Yong, Y. Deng, Y. Guo et al., "The 2nd Anti-UAV workshop & challenge: Methods and results," arXiv preprint arXiv:2108.09909, 2021.
- [36] B. Huang, J. Chen, T. Xu, Y. Wang, S. Jiang, Y. Wang, L. Wang, and J. Li, "Siamsta: Spatio-temporal attention based siamese tracker for tracking UAVs," in IEEE International Conference on Computer Vision, 2021, pp. 1204--1212.
- [37] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll ́ ar, and C. L. Zitnick, "Microsoft CoCo: Common objects in context," in European Conference on Computer Vision, 2014, pp. 740755.
- [38] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein et al., "Imagenet large scale visual recognition challenge," International Journal of Computer Vision, vol. 115, no. 3, pp. 211--252, 2015.
- [39] H. Fan, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, H. Bai, Y. Xu, C. Liao, and H. Ling, "LaSOT: A high-quality benchmark for large-scale single object tracking," in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 5374--5383.
- [40] Y. Wu, J. Lim, and M.-H. Yang, "Object tracking benchmark," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 9, pp. 1834--1848, 2015.
- [41] Z. Cai and N. Vasconcelos, "Cascade R-CNN: Delving into high quality object detection," in IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6154--6162.
- [42] S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Z. Li, "Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection," in IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 9759--9768.
- [43] Z. Ge, S. Liu, F. Wang, Z. Li, and J. Sun, "Yolox: Exceeding yolo series in 2021," arXiv preprint arXiv:2107.08430, 2021.
- [44] R. Girshick, "Fast R-CNN," in IEEE International Conference on Computer Vision, 2015, pp. 1440--1448.
- [45] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770--778.
- [46] K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.
- [47] B. Li, W. Wu, Q. Wang, F. Zhang, J. Xing, and J. Yan, "SiamRPN++: Evolution of siamese visual tracking with very deep networks," in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 4282--4291.
- [48] M. Danelljan, G. Bhat, F. Shahbaz Khan, and M. Felsberg, "ECO: Efficient convolution operators for tracking," in IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6638--6646.
- [49] M. Danelljan, G. Bhat, F. S. Khan, and M. Felsberg, "ATOM: Accurate tracking by overlap maximization," in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 4660--4669.
- [50] X. Chen, B. Yan, J. Zhu, D. Wang, X. Yang, and H. Lu, "Transformer tracking," in IEEE Conference on Computer Vision and Pattern Recognition, 2021, pp. 8126--8135.
- [51] B. Yan, H. Zhao, D. Wang, H. Lu, and X. Yang, "'Skimming-perusal' tracking: A framework for real-time and robust long-term tracking," in IEEE International Conference on Computer Vision, 2019, pp. 23852393.
- [52] K. Dai, Y. Zhang, D. Wang, J. Li, H. Lu, and X. Yang, "Highperformance long-term tracking with meta-updater," in IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 6298--6307.