【Anti-UAV410】论文阅读

摘要

无人机在红外视频中的感知，对于有效反无人机是很重要的。现有的跟踪数据集存在目标大小和环境问题，不能完全表示复杂的逼真场景。因此作者就提出了Anti-UAV410数据集，该数据集总共410个视频和超过438K个标注框。为了应对复杂环境无人机跟踪，作者提出了SiamDT方法。SiamDT采用了双重语义特征提取机制，明确地对动态背景杂波中的目标进行建模，从而能够有效地跟踪小型无人机。SiamDT包含了三个关键步骤：双语义RPN建议（DS-RPN），通用R-CNN和背景干扰抑制。（pami论文最重要的特点就是工作量大）

1. introduction

随着深度学习和自动化技术的快速发展，无人机（UAV）已经无处不在，并广泛应用于航空摄影和环境监测等各个领域[1]。然而，沿着无人机的广泛应用，它们也对公共安全构成了潜在的威胁。因此，必须监测它们的行动，包括它们的位置和轨迹，以确保安全和安保。然而，由于无人机的体积小，其周围环境复杂，无人机的定位和跟踪仍然是一个需要仔细考虑的具有挑战性的问题。

传统的热红外目标跟踪数据集主要强调对大规模目标跟踪数据集，这可能不适合小目标跟踪场景。虽然已经引入了Anti-UAV数据集[2]来解决UAV跟踪问题，但它在真实场景表示方面仍然存在局限性。该数据集中的无人机通常易于观察，因为它们的尺寸较大且背景干净，无法完全捕捉到真实世界跟踪情况的复杂性。（反衬作者提出的数据集背景复杂目标小）。

为了解决这一局限性，我们开发了一个新的数据集Anti-UAV 410，它是目前热红外（TIR）领域中无人机单目标跟踪的最大基准。该数据集包括410个序列，总共有超过438 k个边界框，专门设计用于应对无人机跟踪挑战。反无人机410着重于还原真实的场景中的反无人机跟踪问题，即，远程成像下的小型无人机目标跟踪。如图1（左）所示，Anti-UAV 410覆盖了野外的各种跟踪场景，如森林、山脉、湖泊等，这些场景可能会引入过多的背景噪声，使跟踪器从背景区域学习。因此，Anti-UAV 410给野外无人机的跟踪带来了新的挑战，即微小目标和动态杂波背景。

由于热红外（TIR）图像中缺少颜色特征，传统的TIR跟踪方法通常使用浅特征，例如用于目标表示的轮廓[7]，[8]，[9]，[10]，[11]，这些特征具有高度的可解释性。然而，考虑到无人机通常尺寸较小并且在混乱的环境中操作，这些浅手工制作的特征不足以准确地将无人机与具有相似视觉外观的背景干扰物区分开。 （但是如果深层特征的话，小目标特征又容易消失，如何找到一个合适深度的特征来检测小目标）

为了弥合这些差距，我们设计了一种新的双语义提取机制，以捕获语义显著性的目标，是歧视性的，容易定位在搜索模板。双语义提取机制由两个阶段的模块组成：i）双语义RPN建议（DS-RPN），其通过构建Siamese branched RPN来预测候选建议，该Siamesebranched RPN对目标区域和模板之间的关系以及前景对象存在的概率进行建模; ii）通用R-CNN（VR-CNN），其基于通过共享权重的R-CNN融合的信息来细化预测建议。与传统的Siamese跟踪器[12]，[13]，[14]不同，在训练过程中只学习模板和目标候选区域之间的匹配语义，SiamDT还学习单个前景概率语义，以确定当前目标候选区域包含前景对象的概率。具体来说，我们引入了一个额外的分支来输出当前目标区域中前景语义的概率，当目标候选区域中没有语义对象时，该概率几乎为零。基于鲁棒的特征表示，我们进一步引入第三分支iii）背景干扰抑制，其通过存储所有可能的负样本的手工制作的映射来增强跟踪器对动态背景干扰的辨别能力。通过步骤1和步骤2的共同作用，可以以上级的方式获得关于小目标的具有显式语义的归纳表示。该模型主要解决了背景复杂下的小目标跟踪问题。 贡献如下：

我们介绍了一个名为Anti-UAV 410的大规模热红外（TIR）基准，它是反无人机系统和跟踪方法的宝贵资源。此外，我们还评估了反无人机410上现有最先进的跟踪器的性能，并为未来的比较提供了全面的基线。
我们提出了一种SiamDT，它利用强大的双语义功能，以提高微小目标的监控，并包括一个背景抑制分支，以减轻动态背景杂波。SiamDT提出了一种新的小目标TIR跟踪方案。
我们在新提出的Anti-UAV 410基准以及Anti-UAV [2]数据集上实现了最新的跟踪性能，并在其他通用数据集（如LaSOT [15]和GOT-10 k [16]）上展示了泛化能力。

无人机跟踪任务可分为两类，一类是空中视点跟踪，另一类是反无人机跟踪 。虽然它们都与无人机有关联，但这两种跟踪任务之间存在根本区别。

空中视点跟踪采用无人机作为采集设备，从空对地视角发现感兴趣区域，对跟踪目标没有限制。近年来，空中跟踪任务得到了广泛的关注和研究成果。Dronescapes [17]提供了一个来自多任务学习的真实的场景的大规模无人机视频数据集。UAV123 [18]和UAVDT [19]构建了无人机基准，重点关注无人机平台捕获的视频中的目标跟踪。UAVDark135 [20]、DarkTrack2021 [21]和NAT2021 [22]是夜间空中跟踪的先驱数据集，[23]中提出了一种基于相关Transformer的UAV夜间跟踪器。反无人机跟踪则是将跟踪目标固定为无人机，模拟真实的反无人机场景，旨在解决无人机跟踪的现实问题。因此，空中视点跟踪和反无人机跟踪本质上是两种不同的跟踪任务，适用于不同的跟踪场景。Jiang等人[2]提出了一个多模态的反无人机数据集，由318对全内反射可见光视频序列组成，为反无人机跟踪研究提供了宝贵的资源。然而，数据集中的目标大多是大尺寸的，并且跟踪场景主要包括天空或城市建筑物，这可能不像真实世界场景那样复杂。Zhao等人[24]提出了DUT数据集，其中包含用于检测任务的10，000个可见UAV图像和用于跟踪任务的20个可见序列。不幸的是，DUT数据集的跟踪部分的量远小于用于训练和评估反无人机算法的量。为了克服上述方法的局限性，我们提出了Anti-UAV 410数据集，其中包括更真实的场景，以更好地模拟实际跟踪场景。

2.1 热红外数据集

早期的热红外（TIR）数据集主要用于行人检测[25]，[26]。近年来，随着TIR传感器的发展，提出了一些TIR数据集，这有助于目标跟踪的发展。贝格等人[27]介绍了第一个用于跟踪的TIR基准（VOT-TIR 2015），由20个不同物体的热图像序列组成，使用8种不同类型的传感器从7个不同的来源收集。VOT-TIR 2016 [5]通过公开征集贡献并将简单序列替换为社区提供的序列来扩展VOT-TIR 2015。VOT-RGBT 2019 [4]是一个双模式数据集，共包含234个序列，平均长度为335帧，旨在充分利用RGB和热图像信息来增强跟踪器的性能。Liu等人[6]提出了一种具有更广泛对象和场景的大规模数据集（LSOTB-TIR），为跟踪带来了更大的挑战。LSOTB-TIR由1,400个TIR序列组成，超过600 K帧，是迄今为止最大的TIR对象跟踪数据集。Zhang等人[28]提出使用生成对抗网络（GAN）从大量标记的RGB数据中生成合成TIR数据，以解决有限TIR训练样本的问题。

然而，无人机跟踪专用数据缺乏，阻碍了反无人机任务的开展。最近，Jiang等人[2]提出了一种多模态无人机数据集，但目标大小和目标背景都偏离了实际跟踪场景。为了弥补上述差距，我们提出了Anti-UAV 410数据集，为反无人机跟踪算法的训练和评估提供了一个平台。

2.2 热红外跟踪器

特征提取是获取物体精细语义信息的关键技术。在文献中已经提出了几种方法用于TIR跟踪中的特征提取。Yu等人[29]根据TIR目标的轮廓信息修改了方向梯度直方图（HOG）特征，并使用密集样本训练跟踪器，在TIR跟踪中实现了有希望的性能。Zhang等人[7]训练了一个Siamese网络来提取TIR特征，并证明了红外目标浅层特征在区分跟踪器方面的有效性。Huang等人[8]引入了时空注意力约束来抑制杂波背景的干扰，从而增强了跟踪器在杂波背景中科普纹理较少的红外目标的能力。Chen等人[30]，[31]提取了手工制作的特征，如运动和边缘特征，以增强TIR跟踪器的区分能力。Burceanu等人[32]提出了一种双通道跟踪算法，该算法使用一条通道来解决噪声干扰，另一条通道来适应目标外观的变化，这为跟踪具有严重噪声干扰的红外无人机目标提供了一个很好的思路。Zhang等人。[33]提供了一个小目标数据集（TSFMO）以及一个专用的小目标跟踪器（S-KeepTrack）。虽然S-keepTrack是针对RGB视频序列而设计的，但它能够应对小目标和快速运动的挑战，因此在红外图像中跟踪反无人机方面具有应用潜力。Jiang et al. [2]提出了一种新的训练策略，可以帮助跟踪器学习更强大的类级语义信息，并为TIR跟踪获得更具鉴别力的实例级特征。然而，这些方法大多数主要针对大尺寸的TIR目标，而对微小目标的跟踪却很少受到重视。为了解决这个问题，我们开发了一个有效的特征提取方法和背景干扰抑制策略TIR小目标跟踪。这些技术旨在捕获细粒度的语义信息并抑制来自杂乱背景的干扰，从而能够更准确和鲁棒地跟踪TIR图像中的小尺寸目标。

3. ANTI-UAV410数据集

传统的数据集通常优先跟踪干净背景下的大型物体，这可能无法完全捕捉到无人机的真实场景，因为无人机通常在杂乱的背景中作为小物体运行。为了解决这一限制，我们提出了Anti-UAV 410，这是一个旨在更能代表真实场景的数据集，具有许多具有微小目标和动态背景的跟踪场景。

为了在真实环境中创建反无人机跟踪挑战的逼真表现，我们在各种复杂的场景中捕获了跟踪视频。这些场景包括两种不同的照明条件（白天和夜晚）、两个季节（秋季和冬季）以及各种各样的背景，例如建筑物（30%）、山脉（20%）、森林（5%）、城市区域（30%）、云（10%）、水面（3%）等。在中波红外光谱中以每秒25帧（FPS）的帧率记录所获取的视频序列。从这些序列中，我们选择了100分钟的视频进行细致的逐帧注释，总计超过150，000帧。为了进一步增加数据集的大小，我们还整合了来自第一届反无人机挑战赛网站[34]和反无人机数据集[2]的视频。这些视频经过裁剪和清理，以确保一致性和质量，从而创建了Anti-UAV 410数据集。i）由于某些视频序列的边框上有文本，我们采用了裁剪操作来去除这些干扰。ii）因为反无人机是双模式数据集，所以一些视频片段不适合于单独的TIR跟踪（例如，TIR视频中的一些在第一帧中没有目标，而对应的可见视频有）。我们丢弃这样的帧，以便它可以用于独立的TIR跟踪。我们将此过程称为"清洁"操作。Anti-UAV 410数据集中视频的平均长度为1069帧，这对跟踪器具有强大的目标重新检测能力提出了挑战。数据集拆分：Anti-UAV 410数据集分为三个集：训练集，由200个序列组成;验证集，由90个序列组成;测试集，由120个序列组成 。与之前的数据集不同，我们根据序列的属性将数据集仔细地划分为三个集合。训练集、测试集和验证集的属性分布如图2所示，三个子集在每个挑战属性上的比例相对均匀，此时使用训练集可以更好地学习无人机跟踪在野外场景中所面临的挑战。不需要特殊的技术，我们通过人工调整，使Anti-UAV 410数据集呈现出这样的分布。

规模分布：为了在现实场景中复制反无人机跟踪的挑战，我们专注于增加Anti-UAV 410数据集中小目标的比例。Anti-UAV 410中所有序列的帧大小设置为640×512，我们将目标大小定义为边界框的对角线长度。为了将目标尺寸分布与其他广泛使用的TIR数据集（如PTB-TIR [26]，LSOTBTIR [6]，VOT-TIR 2015 [35]，VOT-TIR 2016 [5]，Anti-UAV [2]和VOT-RGBTIR 2019 [4]）进行比较，我们分析了目标尺寸的分布。在反无人机跟踪任务中，很少有尺度大于70 × 70像素的无人机目标。考虑到无人机固有的小规模性，我们对微小型无人机目标进行了更严格的定义。我们首先将微小目标的大小分隔符设置为10个像素。为了尽可能均匀地分布不同的缩放属性，我们将大小范围定义为4个区间：微小[2，10）、小[10，30）、中等[30，50）和正常[50，inf] 。比较结果见表II。值得注意的是，Anti-UAV 410数据集显示了很大比例的小目标，其中超过一半的目标的尺寸小于50像素，甚至包括一定比例的微小目标（尺寸小于10像素），这些微小目标被其他数据集（如VOT-TIR 2015 [35]、VOT-TIR 2016 [5]、PTB-TIR [26]和LSOTB [6]）遗漏。

反无人机数据集[2]是一个多模态数据集，包括318个视频对。该数据集旨在解决不同模式下反无人机跟踪的挑战，例如基于视觉的跟踪器可能表现不佳的低光条件。然而，我们提出的反无人机410数据集是专门针对解决远程反无人机跟踪问题而定制的。它旨在提高跟踪器对背景杂波的鲁棒性，并增强其对小型无人机目标的识别能力。与具有相对较大目标尺寸（平均对角线长度为40像素）和均匀背景（主要由天空和城市建筑物组成）的反无人机数据集不同，我们收集了大量野生反无人机跟踪视频，以复制具有不同背景和具有挑战性跟踪条件的真实场景。

4. SiamDT

从Siamese跟踪器（如SiamATL [36]，SiamFC [37]，SiamRPN [13]，DaSiamRPN [14]，SiamBAN [38]和SiamCAR [39]）的成功中汲取灵感，我们使用多分支架构开发了自己的Siamese无人机跟踪器（SiamDT），如图3所示。具体而言，SiamDT采用了一个包含注意力机制的Siamese特征提取子网络，并采用Swin Transformer [40]作为骨干特征提取器。与传统的Siamese跟踪器不同，SiamDT的决策子网络由三个专门的分支组成。一个分支被设计为抑制背景噪声，而另一个分支预测目标区域中语义信息目标存在的先验概率。最后一个分支执行检测图像与模板之间的相似性评估.。重要的是，这些分支由三个专门设计的模块支持：Dual-Semantic RPN Proposals（DS-RPN），Versatile R-CNN（VR-CNN）和QueryConvolutionModule（将模板编码为候选区域并通过组合VR-CNN预测相似性得分）。

详细内容见论文

4.1 Dual-Semantic RPN

大多数单级连体跟踪器[13]，[14]，[41]都依赖于普通RPN网络来建立搜索图像和模板之间的关联。尽管这些普通RPN网络在大多数情况下表现良好，但由于其固有的区域搜索策略，当搜索图像明显大于模板图像时，它们往往会失败或做出不适当的跟踪决策。针对这一局限性，本文提出了一种Dual-Semantic RPN（DS-RPN）网络，该网络具有一个执行全局搜索的分支。实验表明了该方法能有效地预测出最优候选方案。

Global RPN：受GlobalTrack [42]和Siam R-CNN [12]中使用的方法的启发，我们结合了RoI池化层以实现全局RPN生成。具体来说，在模板分支中，我们提取目标区域的特征，并通过RoI对齐层对其进行处理。在检测分支中，从整个测试图像中提取全局特征，并使用RPN网络来生成大量的候选建议。然后将每个建议与目标特征对齐，以实现与模板目标的全局匹配。

4.2 Versatile R-CNN Module for Results Refine

以前的研究[12]，[42]已经证明，两阶段网络结构在跟踪任务中的性能优于单阶段网络结构。基于这一发现，我们结合了R-CNN的第二阶段[44]，并引入了一个通用的R-CNN头，它能够有效地处理第IV-B节中提取的双重语义特征的对齐建议。

4.3 Three-Branch Network for Decision Making

5. 实验

未使用Anti-UAV 410进行训练：表III显示了未使用Anti-UAV 410训练集进行训练的原始跟踪性能结果，按状态精度进行排名。从该表中，我们可以得出以下结论：

（1）一些利用更深网络进行特征提取的跟踪器，例如Stark-ST 101、SwinTrack-Base和SeqTrack-B384，并没有显著优于使用更浅特征的跟踪器。例如Stark-ST 50、SwinTrack-Tiny和SeqTrack-B256。这是由于目标的尺寸很小，并且它在红外图像中占据的像素数量有限，这使得更深层次的网络难以有效地利用其语义表示能力。

（2）值得注意的是，采用全局检测方法的跟踪器，如Siam R-CNN和GlobalTrack，表现非常好。我们将其归因于它们处理相机运动和重新检测从屏幕上丢失的目标的能力，从而提高整体跟踪性能。

（3）在传统跟踪数据集中取得领先地位的跟踪器，如SwinTrack和MixFormerV2，不一定在TIR视频中的反无人机跟踪任务中表现出色。由于反无人机跟踪的挑战与传统跟踪不同，对跟踪器的要求也会有所不同。

（4）为TIR视频序列设计的跟踪器，如MMNet，MLSSNet和CMD-DiMP，在反无人机跟踪任务中表现不佳。这是因为这些跟踪器只强调补偿TIR视频中颜色信息的损失，而没有增强捕获小目标和抑制背景热噪声干扰的能力。

所有重新训练的跟踪器保留默认设置和默认预训练权重，实验结果如表IV所示。具体来说，表格左侧的数字表示使用作者提供的原始模型获得的结果，而右侧的数字表示使用我们提出的训练集进行训练后的结果。随着我们的Anti-UAV 410训练集的加入，跟踪器的性能在验证集和测试集上都有一定程度的提高。值得注意的是，在Anti-UAV 410数据集的帮助下，有六个跟踪器在两个集合上的性能都提高了10%以上 。这清楚地表明了我们的数据集在增强反无人机应用跟踪器性能方面的价值。提出的SiamDT方法在测试集和验证集上分别以68.19和71.65的分数排名第一。SiamDT比全局两阶段跟踪方法GlobalTrack和Siam R-CNN的性能略有提高，与TCTrack跟踪器相比，最大精度提高近30%。值得注意的是，SiamDT在测试集上超过了重新训练的Stark，TransT和ToMP算法10%以上，这些都是最近的基于transformer的跟踪算法。更重要的是，与基于Swin Transformer的跟踪器SwinTrack相比，SiamDT实现了超过10%的性能提升。

消融实验

全局搜索策略的影响：SiamNGS（Non Global Search，NGS）代表了与SiamDT相同的算法，但采用了与SiamRPN相同的邻域搜索策略来取代SiamDT的全局搜索。如果没有全局搜索，SiamDT将面临惊人的12.5%的跟踪性能损失 ，证明了全局搜索在反无人机跟踪任务中的重要性。由于无人机目标通常非常小，这导致邻域搜索区域和完整图像的百分比相对较小，并且快速移动的无人机可以很容易地逃离这样的搜索区域，使得跟踪器完全无效。

背景干扰抑制模块的效果：SiamBDS代表将BDS模块引入SiamMS的方法。如表VI所示，在BDS模块的帮助下，SiamBDS在Anti-UAV 410测试集上的准确度提高了1.6%。这表明我们的BDS模块有效地抑制了背景干扰，增强了反无人机跟踪的鲁棒性。

双重语义模块的效果：我们进行了实验，以验证跟踪性能的改善与双重语义信息。SiamDS表示在没有BDS模块的情况下将SiamMS和SiamFS结合在一起的算法。从SiamDS和SiamMS、SiamFS的对比来看，借助更强大的特征学习机制，SiamDS在AntiUAV410测试集上的表现优于SiamMS（0.9%）和SiamFS（1.3%）。这充分证明了双语义信息对跟踪性能的改善，可以应对语义信息较少的微小目标的挑战，推动TIR跟踪的发展。

不同骨干的影响：我们进一步研究了不同主干网络对TIR跟踪性能的影响。表VII显示了使用不同主干的SiamDT的性能。我们观察到SiamDT受益于最近流行的Swin Transformer主干。此外，我们从表中可以看出，更深的网络并不一定会带来更好的跟踪结果。这是因为小目标占用的像素较少，而更深的特征具有更低的分辨率，这可能导致不准确的跟踪结果。

不同损失函数对SiamDT的影响：我们进一步比较了L1、Smooth L1、GIOU和DIOU等不同损失函数对SiamDT的影响。比较的结果如表VIII所示，从中我们可以看出，不同的损失函数对跟踪器的性能几乎没有影响。因此，SiamDT对损失函数的使用没有严格的限制。