【CVPR2025】自适应特征知识蒸馏助力实时无人机跟踪,鲁棒性显著提升

背景

  • 无人机(UAV)在众多领域都有广泛应用,而无人机跟踪也变得愈发重要。不过,无人机跟踪面临视角复杂、运动模糊、严重遮挡以及效率受限等诸多挑战。
  • 近年来,视觉跟踪领域从基于判别相关滤波(DCF)的方法逐渐向深度学习(DL)方法转变,尤其是采用单流架构并结合预训练的视觉Transformer(ViT)骨干网络,虽取得了一定成功,但在面对目标遮挡时,这些单流ViT模型往往缺乏有效的应对策略。

图1展示了ORTrack与其他先进无人机跟踪器在UAVDT数据集上的性能对比,突出了ORTrack-DeiT在精度和速度方面的卓越表现,同时展示了轻量级版本ORTrack-D-DeiT在保持高精度的同时显著提升了跟踪速度,体现了该方法在实时无人机跟踪任务中的优势。

创新点

  • 提出基于空间Cox过程的遮挡鲁棒表示学习方法:为了提升ViT在无人机跟踪中的遮挡鲁棒性,作者提出了一种新的框架ORTrack,通过强制目标特征表示对随机掩蔽操作具有不变性,利用空间Cox过程模拟目标遮挡,使模型能够学习到对遮挡鲁棒的特征表示,且该方法仅在训练时增加均方误差(MSE)损失,推理时无需额外计算开销,可轻松集成到其他跟踪框架中。
  • 引入自适应特征知识蒸馏方法(AFKD):为了提高模型的实时性,作者提出了AFKD方法,创建了一个更紧凑的跟踪器ORTrackD。AFKD方法通过自适应模仿教师模型ORTrack的行为来提升学生模型的效率,它根据跟踪任务的难易程度(通过GIoU损失的偏离量来衡量)动态调整知识蒸馏的程度,在保证较高效率的同时,尽量减少对精度的影响。

方法

这篇文章提出了一种学习遮挡鲁棒的视觉Transformer(ViT)模型的方法,用于实时无人机(UAV)跟踪。该方法的主要创新点包括:

  1. 基于空间Cox过程的遮挡鲁棒表示学习(Occlusion-Robust Representations,ORR)

    • 为了提高ViT模型在无人机跟踪中的遮挡鲁棒性,作者提出了一种新的框架,称为ORTrack。该框架通过强制目标特征表示对随机掩蔽操作具有不变性,从而学习到对遮挡鲁棒的特征表示。
    • 随机掩蔽操作通过空间Cox过程建模,模拟目标遮挡。这种随机掩蔽操作在训练过程中使用,使模型能够学习到对遮挡鲁棒的特征表示。在推理阶段,无需进行掩蔽操作,因此不会增加额外的计算开销。
    • 具体来说,作者定义了两种随机掩蔽操作:一种是基于空间Cox过程的掩蔽操作(mC),另一种是来自MAE的掩蔽操作(mU)。通过比较这两种方法,作者证明了基于空间Cox过程的掩蔽操作在模拟遮挡方面更为有效。
  2. 自适应特征知识蒸馏(Adaptive Feature-Based Knowledge Distillation,AFKD)

    • 为了提高模型的实时性,作者提出了AFKD方法,创建了一个更紧凑的跟踪器,称为ORTrack-D。
    • AFKD方法通过自适应地模仿教师模型ORTrack的行为来提升学生模型的效率。具体来说,AFKD方法根据跟踪任务的难易程度(通过GIoU损失的偏离量来衡量)动态调整知识蒸馏的程度。
    • 在训练过程中,教师模型的权重保持固定,而学生模型通过特征蒸馏损失(Lafkd)从教师模型中学习知识。这种自适应的蒸馏策略确保了学生模型在处理复杂场景时能够更好地模仿教师模型的行为,而在简单场景中则不过度拟合教师模型的特定特征。
  3. 预测头和训练损失

    • ORTrack使用一个预测头来直接估计目标的边界框。预测头由多个Conv-BN-ReLU层组成,将搜索图像的输出令牌重新解释为二维空间特征图,然后输入到预测头中。
    • 预测头输出目标的局部偏移、归一化的边界框大小和目标分类分数。通过加权焦损(weighted focal loss)进行分类,结合L1损失和GIoU损失进行边界框回归。
    • 总体损失函数包括预测损失和遮挡鲁棒表示学习的损失,用于端到端训练教师模型。在知识蒸馏阶段,总体损失包括预测损失和自适应特征知识蒸馏损失。

图2展示了ORTrack框架的训练流程,包括教师模型和学生模型的训练阶段,其中教师模型通过随机掩蔽操作学习遮挡鲁棒的特征表示,学生模型则通过自适应特征知识蒸馏方法从教师模型中学习知识,以提高跟踪效率。

实验

  • 数据集与对比方法:作者在多个无人机跟踪基准数据集上进行了实验,包括DTB70、UAVDT、VisDrone2018和UAV123,将所提出的方法与其他26种最新的先进跟踪器进行了比较,涵盖了DCF、CNN和ViT等不同类型的跟踪器。
  • 实验结果:实验结果表明,ORTrack在多个评估指标上均取得了优异的性能,如在UAVDT数据集上,ORTrack-DeiT达到了83.4%的精度和236 FPS的速度,ORTrack-D-DeiT在精度略有下降的情况下速度提升至313 FPS,其综合性能在所有对比方法中名列前茅。此外,在与其他轻量级跟踪器和深度跟踪器的比较中,ORTrack也展现出了优越的准确性和速度,证明了其在无人机跟踪领域的先进性。
  • 消融实验:通过消融实验验证了所提方法中各个组件的有效性,包括遮挡鲁棒表示(ORR)和自适应特征知识蒸馏(AFKD)对跟踪性能的提升作用,以及所提出的基于空间Cox过程的掩蔽算子的优越性。

总结

这篇文章针对无人机跟踪中的遮挡问题,提出了一种新的基于ViT的遮挡鲁棒表示学习方法,并结合自适应特征知识蒸馏技术,实现了在保持高精度的同时大幅提升跟踪效率的目标。通过大量的实验验证,所提出的ORTrack框架在多个无人机跟踪基准上均取得了最先进的性能,为实时无人机跟踪提供了一种有效的解决方案。

相关推荐
Narutolxy2 小时前
大模型数据分析破局之路20250512
人工智能·chatgpt·数据分析
浊酒南街2 小时前
TensorFlow中数据集的创建
人工智能·tensorflow
2301_787552873 小时前
console-chat-gpt开源程序是用于 AI Chat API 的 Python CLI
人工智能·python·gpt·开源·自动化
layneyao3 小时前
AI与自然语言处理(NLP):从BERT到GPT的演进
人工智能·自然语言处理·bert
jndingxin4 小时前
OpenCV 的 CUDA 模块中用于将多个单通道的 GpuMat 图像合并成一个多通道的图像 函数cv::cuda::merge
人工智能·opencv·计算机视觉
格林威4 小时前
Baumer工业相机堡盟工业相机的工业视觉中为什么偏爱“黑白相机”
开发语言·c++·人工智能·数码相机·计算机视觉
灬0灬灬0灬5 小时前
深度学习---常用优化器
人工智能·深度学习
_Itachi__5 小时前
Model.eval() 与 torch.no_grad() PyTorch 中的区别与应用
人工智能·pytorch·python
白光白光5 小时前
大语言模型训练的两个阶段
人工智能·机器学习·语言模型
巷9556 小时前
OpenCV图像金字塔详解:原理、实现与应用
人工智能·opencv·计算机视觉