51c视觉~合集2~目标跟踪

我自己的原文哦~https://blog.51cto.com/whaosoft/14225731

一、Transformer目标跟踪

单目标跟踪是计算机视觉中一个众所周知且具有挑战性的研究课题。在过去的二十年中,许多研究人员提出了各种算法来解决这个问题,并取得了令人满意的结果。最近,基于Transformer的跟踪方法由于其卓越的跟踪鲁棒性,开创了单目标跟踪的新时代。尽管已经进行了几项综述研究来分析跟踪器的性能,但在单目标跟踪中引入Transformer之后,仍需要进行另一项调查研究。本文旨在分析Transformer跟踪方法的文献和性能。因此对Transformer跟踪方法进行了深入的文献分析,并评估了它们在具有挑战性的基准数据集上的跟踪鲁棒性和计算效率。此外,论文还测量了他们在不同跟踪场景下的表现,以找出他们的优势和劣势。本文的调查深入了解了Transformer跟踪方法的基本原理、面临的挑战及其未来方向。

论文的主要贡献如下:

🔹 论文对基于Transformer的跟踪方法的文献进行了全面调查。本文没有包括基于非Transformer的跟踪器,因为之前的研究已经涵盖了它们;

🔹 论文已经通过实验评估并比较了五个具有挑战性的基准数据集上Transformers在VOT中的跟踪鲁棒性,方法是将最先进的跟踪器分类和分析为完全基于Transformer的跟踪器、基于CNN-Transformer的追踪器和基于CNN的跟踪器;

🔹 使用作者提供的源代码,在通用计算平台上评估了先进状态跟踪器的计算效率;

🔹 论文对三个基准数据集进行了跟踪属性评估,以确定最近跟踪者最具挑战性的场景;

🔹 基于实验结果,论文为基于Transformer的单目标跟踪的未来方向提供了建议。

论文在表1中总结了先前的研究,并对其进行了分类

Li等人[66]评估了:

OTB-100和VOT2015基准上22个跟踪器的性能和效率,对基于深度学习的跟踪器进行了第一次实验调查。此外,他们还根据11个跟踪属性比较了跟踪器的个人性能,然后确定了未来的方向。最近,Marvasti Zadeh等人[21]基于**跟踪器的网络架构、跟踪方法、长期跟踪、鸟瞰跟踪和在线跟踪能力,对基于深度学习的VOT进行了全面的实验调查。**此外,他们还根据具有挑战性的属性比较了跟踪基准,并对跟踪器进行了跟踪速度比较。

Chen等人[75]在最近开发的基准上对深度和手工制作的跟踪器进行了实验调查:

OTB、VOT、LaSOT[77]、GOT-10k和TrackingNet[79]。尽管这些实验评估研究回顾了文献,然后在几个方面比较了最近提出的深度跟踪器的跟踪性能,但它们没有太多地关注基于跟踪效率的比较。

在过去两年中,与基于CNN的深度跟踪器相比,基于Transformer的单目标跟踪器显示出了出色的跟踪性能和效率。先前的实验调查研究没有回顾基于Transformer的跟踪器的文献,也没有分析其优缺点,因此论文对这些跟踪器进行了详细的文献综述。然后分析了它们在五个基准数据集上的性能:OTB-100、LaSOT、GOT-10k、TrackingNet和UAV123[80]。**此外还根据跟踪速度、浮点运算(FLOP)的数量和跟踪模型中的参数数量详细比较了这些跟踪器的效率。**最后还根据实验结果讨论了基于Transformer的跟踪的未来方向。

Transformer

Transformer[36]最初被引入机器翻译任务

基于其巨大的成功和效率,它被用于其他NLP任务,如文档汇总和生成**。** Transformer架构基于注意力机制,通过使用编码器和解码器组件实现,如图2所示。编码器组件通过将N个相同的编码器层堆叠在彼此之上而由它们组成,并且解码器组件也由N个相同解码器层组成,它们也堆叠在彼此上。Transformer架构的编码器和解码器组件分别如图2的左侧和右侧所示。在Transformer架构中,所有编码器层都有两个子层:一个自注意力层和一个全连接的前馈层。除了这两个子层之外,所有解码器层在中间都有一个编码器-解码器注意层。

Transformer架构[36]接收作为向量序列的输入

使用位置嵌入算法将关于该序列中每个令牌的位置的信息添加到其表示中。嵌入之后,输入数据被馈送到编码器的自注意力层,因为它有助于捕获上下文关系。另一方面,在解码器层中,编码器-解码器注意力子层用于集中于输入数据的相关部分。

在自注意之后,使用全连接的前馈层来学习注意力特征的复杂表示。它有一个简单的架构,其中有两个线性变换和一个非线性激活。**该层可以描述为内核大小为1的两个卷积。在编码器和解码器层中,包括残差连接,然后是标准化层。**残差连接用于保存来自原始输入数据的线索,并使模型能够学习输入数据的更准确表示。

在解码器层堆叠之后,使用线性层来产生输出向量。最后,使用Softmax层来产生输出的概率。基于Transformer在NLP任务中的成功,一些研究尝试将其应用于计算机视觉任务,并提出了几种体系结构。在这些模型中**,ViT[37]比其他具有简单架构的模型更有效,如图3所示。与最先进的卷积神经网络(CNN)模型相比,当在大型数据集上进行训练时,ViT显示出优越的结果。** 此外,ViT的作者通过微调在中小型数据集中测试了它,并显示出适度的结果。在ViT在图像识别中取得成功之后,已经提出了几种ViT模型,并将其用于其他计算机视觉任务,如图像分割、图像增强、图像生成、视频字幕和对象跟踪。为了降低ViT的计算复杂性,Swin Transformer[41]在划分图像的非重叠窗口内局部执行自注意力,并为跨窗口连接引入了移位窗口划分机制。与ViT中的固定大小令牌不同,Swin Transformer通过从小尺寸补丁开始,然后在更深的Transformer层中逐渐合并相邻补丁,以进行多尺度预测,从而克服缩放问题,从而构建分层表示。由于纯Transformer模型难以捕获局部信息,CVT[86]将两种基于卷积的操作纳入ViT架构,即卷积令牌嵌入和卷积投影。由于ViT不太擅长编码更精细级别的特征,VOLO[87]引入了称为Outlooker的轻量级注意力机制,以有效地利用更精细级别信息对令牌表示进行编码。总体而言,ViT开创了计算机视觉任务的新时代。

Transformer在单目标跟踪中的应用

🔹 基于模型架构、特征提取和特征集成技术,最近的深度跟踪器可分为三类:

🔹 基于CNN的跟踪器[29、88、89、90、31、91、32、92、93、34、33、94];

🔹 基于CNN-Transformer的跟踪器[46、47、48、49、50、51、52、53、54、55、56、57];

🔹 完全基于Transformer的追踪器[58、59、60、61、62、63、64];

基于CNN的跟踪器仅依赖于CNN架构进行特征提取和目标检测,而基于CNN-Transformer的跟踪器和完全基于Transformer的跟踪器分别部分和完全依赖于Transformer架构。鉴于之前的几项研究[76,75,71]已经全面回顾了基于CNN的跟踪器的文献,本节仅关注基于CNN-Transformer的跟踪器和完全基于Transformer的追踪器的文献。然而,基于CNN的跟踪器包含在实验分析中(第5节),其性能与基于CNN Transformer的跟踪器和完全基于Transformer的跟踪器进行了比较。

通常,Transformer架构需要大量训练样本[37]来训练其模型。由于目标是在跟踪序列的第一帧中给出的,因此在VOT中不可能获得大量样本,因此所有完全基于Transformer和基于CNN-Transformer的跟踪器都使用预先训练的网络,并将其视为骨干模型。此外,这些跟踪器中的一些在跟踪过程中更新其模型,而其中一些没有更新。此外,他们在各种基准数据集上进行了训练,如COCO[95]、LaSOT、GoT-10k、TrackingNet和Youtube BB[96]。此外,这些跟踪器中的一些使用背景信息来跟踪目标,而有些没有。表2总结了所有基于Transformer和基于CNNTransformer的方法,提供了它们的主干网络、模板更新细节、训练数据集、训练方案细节以及它们是否具有背景意识的信息。

论文回顾了基于CNN-Transformer和完全基于Transformer的跟踪器的模型架构的文献。这些跟踪器可分为**"两流两阶段"跟踪器和"一流一阶段"跟踪器。**在"两流两阶段"跟踪器中,使用两个相同的网络分支管道(两个流)来提取目标图像和搜索图像的特征。此外,在这类跟踪器中,目标模板和搜索区域的特征提取和特征融合在两个可区分的阶段(两阶段)完成。另一方面,在"One Stream One Stage"跟踪器中,使用单个网络管道,通过单个阶段一起完成特征提取和特征融合。到目前为止,所有基于CNN-Transformer的跟踪器都被提出为"双流两阶段"方法,而完全基于Transformer的追踪器可以被分类为"双流二阶段"和"一流一阶段"方法。图4显示了基于CNNTransformer和完全基于Transformer的跟踪器的分类。

基于CNN-Transformer的跟踪器

最近大多数基于CNN的跟踪器[29,88,89,90,31,91,32,92,93,34,33,94]通过使用两个相同的卷积神经网络管道遵循孪生网络架构。在这些跟踪器中,通过使用两个相同的CNN分支提取目标模板和搜索区域的特征。然后通过使用相关函数在搜索区域的特征中找到目标特征的相似性来完成目标定位。尽管相关操作对于特征相似性匹配过程简单且快速,但它不足以捕捉目标模板和搜索区域之间的非线性交互(遮挡、变形和旋转),因此跟踪器的性能受到限制。为了成功地解决这个问题,研究人员开始使用Transformer对基于CNN-Transformer的跟踪器进行特征融合。

与大多数基于CNN的跟踪器类似,基于CNN-Transformer的跟踪器也使用两个类似孪生的相同网络管道。在这些管道的开头,使用CNN提取目标模板和搜索区域的特征。然后,将提取的深度特征展平为向量,然后将其馈送到Transformer以捕获搜索区域中目标的相似性。所有基于CNN-Transformer的跟踪器都使用两个流、两个阶段的方法,两个相同的网络管道分别使用卷积和Transformer架构执行特征提取和特征融合。

Wang等人提出了第一个基于CNN-Transformer的跟踪器:

46\]通过将Transformer引入生成和区分跟踪范式中。在他们的孪生式跟踪架构中,一组模板补丁和搜索区域被馈送到CNN主干,以提取深度特征。然后,如图5所示,提取的模板特征被馈送到Transformer的编码器,以使用注意力机制捕获高质量目标的特征。类似地,搜索区域特征被馈送到Transformer解码器,以通过将来自先前帧的信息性目标线索与搜索区域特征聚合来产生解码特征。在TrSiam管道中,与SiamFC\[24\]跟踪器类似,从编码特征中裁剪目标特征,然后与解码特征交叉关联以定位目标位置。在TrDiMP流水线中,对编码特征应用端到端鉴别相关滤波器(DCF)以生成响应图,然后使用该响应图来定位搜索区域中的目标。由于该跟踪器中使用了Transformer,因此使用了一组目标模板的提示来定位目标,因此跟踪器能够定位具有严重外观变化的目标。 **Yu等人\[50\]在VOT中引入了编码器-解码器Transformer架构:** \[36\]其跟踪器称为DTT。他们还使用了类似孪生的跟踪框架,并使用主干CNN架构提取了深层特征。在他们的跟踪模型中,目标模板被输入背景场景,然后Transformer架构捕获目标的最具辨别力的线索。由于他们的方法涉及在不需要训练单独的判别模型的情况下进行跟踪,因此它很简单,并且在基准数据集中表现出了很高的跟踪速度。 **TransT\[47\]跟踪器中提出了另一种类似孪生的架构:** 如图6所示,TransT跟踪器有三个模块:CNN骨干网络、基于Transformer的特征融合网络和预测网络**。**与其他基于CNN-Transformer的跟踪器类似,使用ResNet50\[97\]模型提取目标模板和搜索区域的特征。然后,使用1x1卷积层重塑这些特征,并将其馈送到特征融合网络。基于Transformer的特征融合网络具有N个特征融合层,每个层具有自上下文增强模块(ECA)和交叉特征增强模块(CFA),以分别增强自注意力和交叉注意力。最后,融合的特征被馈送到预测网络,它分别使用简单的分类和回归分支来定位目标并找到坐标。TransT跟踪器通过使用Transformer进行特征融合而不是之前方法的相关匹配,显示出比基于CNN的跟踪器更好的性能。其他相关算法可以参考论文。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) 总之,基于CNN-Transformer的跟踪器使用CNN主干(如ResNet或AlexNet)提取了目标模板和搜索区域的深层特征。然后,这些深层特征被增强,然后通过将它们馈送到Transformer中来相互关联。最后,使用Transformer的输出特征来预测目标位置。基于CNN-Transformer的跟踪器成功地优于孪生网络,**因为它们使用了可学习的Transformer而不是线性互相关运算。**虽然,一些早期的跟踪器从目标检测任务中借用了Transformer架构,并在没有任何修改的情况下使用它们,但最近的方法确定了基于Transformer的跟踪问题,然后相应地修改了其架构。总的来说,基于CNN-Transformer的跟踪器显示出比基于CNN的跟踪器更好的跟踪性能。 **基于全Transformer的跟踪器** 尽管基于CNN-Transformer的跟踪器利用了Transformer的注意力机制进行特征增强和目标模板和搜索区域的特征集成,但它们仍然依赖卷积特征,因为它们使用主干CNN进行特征提取。由于CNN是通过局部卷积核捕获特征的,**因此基于CNN-Transformer的跟踪器很难捕获全局特征表示。** 最近,针对一些计算机视觉任务,如目标检测、目标分类和分割,提出了几种全Transformer架构。这些Transformer架构不依赖CNN特性,因此它们能够捕获全局特性表示。**ViT\[37\]是计算机视觉中第一个完全Transformer架构。**ViT被提出用于通过分割的图像分类,然后将图像作为16x16个图像块的序列馈送给Transformer。当ViT在大规模数据集上训练时,其表现优于基于CNN的图像分类器。由于ViT的巨大成功,计算机视觉中提出了许多后续的Transformer架构。ViT的预定义位置嵌入方案被CPVT\[99\] Transformer架构中的条件位置嵌入替代。TNT\[100\]方法使用Transformer内部转换器框架将16x16图像补丁进一步细分为4x4个子补丁。TNT中使用内部变换块和外部变换块来分别捕获子patch之间的相互作用和patch之间的关系。与CNN类似,Swin Transformer\[41\]通过开始学习小尺寸patch的特征表示,然后在更深的Transformer层中逐渐合并相邻面片,来捕获图像的分层表示。CVT\[86\]将两种基于卷积的操作合并到用于图像分类的Vision Transformer架构中,即卷积令牌嵌入和卷积投影。 由于全Transformer架构在其他计算机视觉任务中的成功,研究人员开始将其用于单目标跟踪。基于跟踪网络公式,我们将全Transformer跟踪器分为"双流两阶段"跟踪器和"一流一阶段"跟踪器,并在以下小节中回顾了它们的文献。 **双流两阶段** 双流两阶段跟踪器具有两个相同的、独立的孪生式基于Transformer的特征提取分支,以提取目标模板和搜索区域的特征。在特征提取之后,使用另一个Transformer网络来融合这些特征,然后预测目标位置。 **Xie等人提出了第一个完全基于Transformer的"双流两阶段"跟踪器:** \[58\],称为**DualTFR**。在该跟踪器中,模板和搜索区域图像被分割为标记,然后被馈送到相应的特征提取分支。DualTFR在特征提取分支中具有一组局部注意力模块(LAB),以在小尺寸窗口中提取初一里。然后,提取的特征被馈送到全局注意力模块(GAB)以捕获长距离相关性。最后,如图11所示,两个分支的输出特征被馈送到交叉注意力模块,以计算目标模板和搜索区域之间的关注度。由于LAB在高分辨率特征地图上的标记的小窗口内计算关注度,而GAB在低分辨率特征地图中计算同一图片的所有标记之间的注意力,DualTFR跟踪器在保持高于实时速度的同时成功地实现了高精度。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) **单流一阶段** 单流一阶段跟踪器**具有完全基于Transformer的网络架构的单一管道**。此外,在这些方法中,特征提取和特征融合过程在单个阶段中完成,而不是在前面提到的跟踪方法中的两个阶段。 **Cui等人\[61\]发现:** 结合特征提取和特征融合过程对目标跟踪很重要,因为它能够提取搜索区域中更多的目标特定线索并提高相关性。基于这一事实,他们提出了一种完全基于Transformer的单流单级跟踪器,称为MixFormer。如图13所示,MixFormer跟踪器中使用了一组混合注意力模块(MAM),以同时提取和集成目标模板和搜索区域的特征。MixFormer跟踪器使用多个目标模板和搜索区域作为输入,并使用简单的基于卷积的预测头部网络来定位目标。此外,MixFormer利用预训练的CVT Transformer\[86\]设计MAM模块,因为CVT非常适合捕捉图像中的局部和全局特征相关性。代替CVT的自注意力机制,MAM在目标模板和搜索区域令牌上采用双重注意机制,以分别捕获目标特定和搜索特定线索。此外,在MAM模块中使用了非对称混合注意力技术,以通过消除目标和搜索区域的标记之间不必要的交叉注意力来降低计算成本。根据报告的结果,**MixFormer在基准数据集中显示出优异的跟踪性能。**然而,MixFormer显示出较差的跟踪速度,因为MAM模块的计算效率很低。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) **Chen等人\[62\]提出了另一种单流一阶段跟踪器:** 其称为**Sim-Track** 。在该跟踪器中,如图14所示,预训练的ViT\[37\]模型被用作主干Transformer,以结合特征提取和融合。在Sim-Track方法中,目标模板和搜索区域被拆分为一组标记,连接起来,然后通过它们的位置嵌入被馈送到主干Transformer。由于拆分过程,目标模板标记包含一些背景区域,**SimTrack采用了中央凹开窗技术来准确捕捉目标特定线索。**在中央凹开窗技术中,模板图像的较小区域被裁剪,目标位于中间,然后被序列化为图像标记。除了目标模板和搜索区域的标记外,中央凹序列还被馈送到Transformer以捕获更多目标特定特征。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) **Ye等人\[63\]开发另一种单流一阶段方法:** 称为OSTrack,它还结合了使用ViT主干的特征学习和特征融合过程,如图15所示。他们发现,**来自搜索图像的一些令牌包含背景信息,因此在跟踪过程中包括这些令牌是不必要的。基于这一事实**,OSTrack在一些编码器层中包括一个早期候选消除模块,以删除包含背景信息的令牌。由于采用了候选消除模块,提高了OSTrack的跟踪速度和精度。由OSTrack有效地利用了目标模板和搜索区域特征之间的信息流,提取了目标特定的辨别线索,并消除了不必要的背景特征,因此在基准数据集中表现出了优异的跟踪性能和高跟踪速度。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) **Lan等人\[64\]提出了一种具有候选令牌消除模块的完整Transformer跟踪器:** 其跟踪器称为**ProContEXT**。ProContEXT跟踪器的架构如图16所示。该跟踪器通过使用上下文感知自注意力模块来捕捉目标模板的空间和时间线索。在该跟踪器中,静态目标模板、具有空间和时间线索的动态目标模板以及搜索区域被分割,然后被馈送到关注模块。ProContEXT的候选令牌消除模块比OSTrack工作得更好,因为它在背景令牌去除中包含时间线索。根据报告的结果,ProContEXT方法优于OSTrack,并在跟踪基准方面表现出最先进的性能。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) 总之,单流一阶段跟踪器使用完全Transformer架构将特征学习和特征融合过程结合在一起。在这些跟踪器中,目标模板和搜索区域图像被拆分为标记,并与它们的位置嵌入相连接,然后被馈送到Transformer。由于这些跟踪器使用单个Transformer网络提取特征,模板标记和搜索区域的特征被有效地集成,从而识别出更多的区别性特征,并消除不必要的特征。基于这些事实,**在所有基准数据集上,与其他类型的跟踪器相比,完全基于Transformerbased的单流一阶段跟踪器表现出了出色的性能。** **实验分析** 在过去的二十年中,已经提出了大量用于单目标跟踪的方法。由于使用不同的评估度量在不同的基准数据集上评估了它们的性能,因此对这些方法的实验评估对于确定未来方向非常重要,特别是在VOT中引入Transformer之后。在这项研究中,论文评估了所有基于CNN Transformer和完全基于Transformer的跟踪器的跟踪鲁棒性和计算效率性能。此外,论文还将最近提出的12个基于神经网络的跟踪器纳入了这项实验评估和分析研究。五个基准数据集用于评估跟踪器的性能,其详细信息和评估指标在第5.1节中描述。第5.2节和第5.3节分别给出了跟踪鲁棒性和效率结果。 **基准数据集和评估指标** 构建了几个基准数据集,并可公开用于VOT。基于目标对象类、大小、注释方法、跟踪序列的长度、属性和复杂性,每个数据集都不同于其他数据集。此外,这些数据集遵循各种性能指标来衡量跟踪器的性能。为了分析最近跟踪器的性能,论文选择了五个基准数据集:OTB100、UAV123、LaSOT、TrackingNet和GoT-10k。表3总结了这些数据集的详细信息。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) 论文评估了OTB100、UAV123、TrackingNet、La-SOT和GoT-10k基准数据集上方法的跟踪性能,并在本节中给出了定性结果。为了进行无偏见的评估并比较它们的跟踪性能,论文使用它们的源代码再现了跟踪器的成功和精度分数以及它们的属性跟踪结果。此外考虑了最近一些跟踪器的报告结果,因为它们的源代码不可用。论文为这项实验评估研究选择了31个单目标跟踪器。它们在过去四年中发表在著名的会议和索引期刊上。在本评估中,**这些选定的跟踪器被分类为基于CNN的跟踪器、基于CNN Transformer的跟踪器和基于Fully Transformer的追踪器,然后讨论它们的分类性能。**表4总结了这些跟踪器的总体性能,表5详细列出了它们的属性结果。以下小节将讨论这些方法对每个基准数据集的跟踪性能。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) ![](https://img-home.csdnimg.cn/images/20230724024159.png) ![](https://img-home.csdnimg.cn/images/20230724024159.png) **OTB100数据集分析** 论文使用OTB100的社会工具包来评估跟踪器的跟踪性能。根据曲线下面积(AUC)得分对成功图进行排名,而**20像素阈值的精度(P)得分**用于评估跟踪器。除了总体评估外,还使用工具包基于11个跟踪属性及其成功图测量了跟踪器的性能,如图17所示。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) ![](https://img-home.csdnimg.cn/images/20230724024159.png) 根据表4中的总体成功率和精度分数,基于CNN-Transformer的跟踪器和基于CNN的跟踪器总体上都取得了较高的性能。TrTr\[49\]跟踪器通过用变压器代替孪生跟踪的交叉关联机制,**在准确度和精度方面在OTB100上表现出优异的性能**。类似地,TrDiMP\[46\]通过利用基于CNN-Transformer的架构的时间线索,展示了竞争成功和精确得分。另一方面,基于CNN的孪生追踪器:SiamAttn\[90\]和SiamRN\[34\]分别显示出较高的成功率和准确率。 与其他基准数据集相比,完全基于Transformer的跟踪器的跟踪性能略低于OTB100上的其他两种类型。基于CNN-Transformer的跟踪器和基于CNN的跟踪器是基于暹罗架构的相似性匹配方法。他们通过捕获和匹配代表局部区域线索的卷积特征,在OTB100中表现出更好的性能。由于大多数OTB视频的帧数较少,因此目标的外观在许多序列中保持不变。因此,基于CNN的特征提取和匹配显示出优异的跟踪结果。另一方面,完全基于Transformer的方法的性能主要依赖于它们的时间线索学习和全局特征捕获能力,并且它们的性能在OTB100上略有限制,因为大多数跟踪序列具有帧数较少的低分辨率视频。 基于表5中的结果和图17中的图表,OTB100的基于属性的评估表明,数据集对最近的跟踪器不再具有挑战性。完全基于Transformer的跟踪器:MixFormer\[61\]、SparseTT\[60\]和ProContEXT\[64\]在许多具有挑战性的属性中显示出比基于CNN的跟踪器更好的性能。特别是,几乎所有完全基于Transformer的跟踪器都成功地处理了快速运动(FM)和视野外(OV)场景,由于其长距离特征捕获能力,其性能大大超过了基于CNN的跟踪器。另一方面,全Transformer跟踪器在背景杂波(BC)和变形(DEF)方面表现不佳,因为它们在短距离视频中的辨别能力较差。总体而言,**基于CNN Transformer的跟踪器TrTr\[49\]通过将CNN功能与Transformer架构相结合,成功地处理了OTB100中的所有跟踪挑战。** **UAV123数据集的分析** 在UAV123数据集中跟踪目标比在其他基准数据集中更困难,因为目标对象在空中跟踪序列中相对较小。因此,跟踪器可以捕捉到有限的视觉线索,并且无法依赖强大的外观模型。此外,在UAV123中跟踪目标更具挑战性,因为目标对象和相机经常改变位置和方向。论文使用了UAV123的官方工具包来测量跟踪器的精度和成功率,并进行跟踪属性评估。 完全基于Transformer的单阶段单流跟踪器在UAV123中显示出基于整体精度和成功率分数的卓越性能,因为其Transformer模型结合了特征学习和未来融合过程。特别是,OSTrack\[63\]跟踪器在UAV123中表现出优异的性能,成功率得分为70.7%,准确率得分为92.3%。SimTrack\[62\]和MixFormer\[61\]方法在UAV123数据集中也显示出良好的结果。在基于CNN Transformer的跟踪器中,CSWinTT\[56\]和AiATrack\[57\]方法分别显示出更好的成功率和精度分数。基于CNN的跟踪器:KeepTrack\[94\]获得了第二高的精度分数,因为它在不严重依赖外观模型的情况下具有干扰物处理能力。 基于图18和表5,基于Transformer的跟踪器在UAV123基准测试的几乎所有属性中都表现出优异的性能。OSTrack\[63\]和ProContEXT\[64\]跟踪器成功地处理了背景杂波(BC)、部分遮挡(POC)、视野外(OV)和尺度变化(SV)场景,因为它们具有强大的辨别能力和背景特征消除技术**。**另一方面,基于CNN Transformer的跟踪器:CSWinTT\[56\]和AiATrack\[57\]在快速运动(FM)、照明变化(IV)和纵横比变化(ARC)场景中显著优于完全基于Transformer的追踪器。 基于实验分析,全遮挡(FOC)和低分辨率(LR)是UAV123数据集中最具挑战性的属性,因为所有跟踪器都在努力捕捉空中跟踪视频中这些场景中的强烈外观线索。总之,对UAV123数据集上最先进的跟踪器的评估表明,它们的性能仅为一般水平。**这一发现凸显了进一步研究和创新的必要性,以提高空中跟踪系统的准确性和可靠性。** **LaSOT数据集的分析** 对LaSOT数据集的实验分析对于确定VOT的未来方向非常重要,因为它具有几个具有挑战性的场景的长期跟踪序列。论文使用了LaSOT数据集的社会工具包来衡量这些方法的跟踪性能。实验结果入图19所示: ![](https://img-home.csdnimg.cn/images/20230724024159.png) 总体而言,完全基于Transformer的跟踪器显示出优异的性能,而基于CNN-Transformer的追踪器在LaSOT基准测试中显示出可观的性能。另一方面,基于CNN的方法在LaSOT数据集中的整体跟踪和属性方面的性能非常有限,因为它们无法包括时间线索并在搜索区域中提取目标特定特征。**基于属性成功率,快速运动和完全遮挡对于最先进的跟踪器来说是最具挑战性的**。 **TrackingNet数据集的分析** TrackingNet数据集有超过30k个训练和511个测试视频序列,分别有1400万和225个注释。由于TrackingNet数据集包含分辨率、目标对象类和帧速率等多种多样的视频,因此**评估该数据集的跟踪性能对于许多现实应用程序来说非常重要。与LaSOT数据集类似,论文使用成功率、精度分数和标准化精度对TrackingNet数据集中的跟踪器进行排名。**由于测试集注释不可公开使用,因此无法在此数据集中进行属性比较。 与其他基准数据集类似,ProContEXT\[64\]跟踪器在TrackingNet数据集中表现出优异的性能,成功率为84.6%,标准化精度为89.2%,精度得分为83.8%。此外,其他基于单流一阶段的全Transformer跟踪器:OSTrack\[63\]和MixFormer\[61\]方法也显示出具有竞争力的跟踪性能。双流两阶段跟踪器:Swin-Track\[59\]显示出第三高的成功率和精度分数。 **跟踪效率分析** 分析跟踪效率与分析跟踪性能一样重要,因为它对许多实际和现实应用程序至关重要。在这一效率分析比较中,论文包括了所有最近的跟踪器,除了一些方法,因为它们的源代码和跟踪模型不公开。为了进行无偏比较,每个跟踪器的效率结果是通过在具有NVIDIA Quadro P4000 GPU和64GB RAM的计算机上执行源代码获得的。本文没有改变这些方法的跟踪模型的参数,并通过在LaSOT基准数据集上评估跟踪器获得了效率结果。 论文评估了跟踪器在其跟踪模型中的跟踪速度、参数数量和浮点运算(FLOP)数量方面的效率。**跟踪速度对于许多实际应用来说都很重要,因此将其视为效率比较的重要指标。**它是通过计算一种方法每秒处理的平均帧数来计算的。由于报告的方法跟踪速度取决于硬件和实现平台,论文使用PyTorch深度学习框架计算了同一硬件平台上跟踪器的跟踪速度。参数数量是基于深度学习的跟踪方法中的另一个效率指标,因为参数数量较少的模型在硬件方面效率高,占用较少的RAM空间,因此可以在移动设备和平板电脑等小型设备中工作。跟踪方法的参数数是传递给优化器的参数总数,在大多数情况下,它不依赖于跟踪方法的输入大小。论文使用pyTorch默认函数来测量跟踪模型的参数总数。 论文已经将浮点运算(FLOP)的数量作为衡量跟踪模型效率的第三个指标。除了完全基于Transformer的跟踪器之外,方法的FLOP数量取决于跟踪模型和相应的搜索图像大小,因为目标模板特征仅在跟踪序列的第一帧中计算。**在完全基于Transformer的跟踪器中,在每个帧中计算目标模板的特征,因此模板的大小影响FLOP。**尽管一些跟踪器的FLOP数量很高,但它们仍然能够高速跟踪目标,因为它们的模型高度并行,现在GPU可以成功地处理它们。然而,这些方法不适用于仅在CPU和移动设备上运行的某些应用程序。表6中报告了跟踪器的总体效率结果,以及它们在LaSOT基准上的相应搜索图像大小和成功分数。 ![](https://img-home.csdnimg.cn/images/20230724024159.png) 根据表6中获得的效率结果,基于CNN的跟踪器显示出比其他两种类型的跟踪器更好的性能。特别是,SiamDW\[88\]跟踪器通过使用基于CNN主干的残差单元内的轻加权裁剪,以52.58 FPS的跟踪速度和246万个参数获得了最高效率的结果。SiamGAT\[33\]跟踪器实现了41.99 FPS的跟踪速度。其跟踪模型具有1423万个参数和14.23 gigaFLOPs,搜索图像大小为287x287。尽管最近大多数基于CNN的跟踪器在计算上都很高效,**但SiamRPN+\[29\]跟踪器由于使用了更深的CNN主干架构进行特征提取,因此以5.17 FPS的跟踪速度获得了较差的效率结果。**SiamRN\[34\]方法在基于CNN的跟踪器中也显示出第二低的效率结果,由于其计算昂贵的关系检测器模块,其平均跟踪速度为6.51 FPS和116.87 gigaFLOPs。 总体而言,大多数基于CNN-transformer的跟踪器成功地平衡了跟踪鲁棒性和计算效率。特别是,基于CNN-transformer的跟踪器的FLOP数量大大低于其他两类,因为它们成功地从基于CNN的功能中捕捉到了强大的线索,即使使用了轻量级骨干网络。特别是,AiATrack\[57\]跟踪器实现了31.22 FPS的平均跟踪速度和1795万个参数,同时在LaSOT数据集上保持了69%的成功分数。尽管AiATrack方法在大搜索区域中搜索目标,但它只有9.45 gigaFLOPs,因为它的模型更新机制使用了特征重用技术,以避免额外的计算成本。在基于CNN Transformer的跟踪器中,HiFT\[51\]方法以37.06 FPS的跟踪速度和1107万个参数获得了最高的效率,同时显示了相当高的跟踪精度。由于HiFT跟踪器使用了轻量级AlexNet\[20\]作为主干特征提取网络,它以较少的FLOPs实现了最高效率的结果。基于其平均跟踪速度,CSWinTT\[56\]跟踪器以8.76 FPS的速度显示出较差的结果,因为这种方法的循环转移注意力机制在计算上很昂贵。 总之,基于CNN的跟踪器在跟踪速度、参数数量和浮点运算数量方面取得了更好的结果。然而,它们的跟踪鲁棒性比其他两类更差。另一方面,尽管完全基于Transformer的跟踪器显示出出色的跟踪鲁棒性,但它们的效率低于其他两种类型。基于**CNNTransformer的跟踪器通过结合基于CNN的特征提取和基于Transformer的特征融合**,成功地平衡了跟踪的鲁棒性和效率。 **讨 论** **调查结果汇总** 这项调查研究的重点是分析在其跟踪模型架构中使用Transformer的视觉目标跟踪器的子集的文献和性能。虽然Transformer最初是在NLP任务中引入的,但由于它们的注意力机制,它们在各种计算机视觉任务中表现出了优异的性能。Transformer在过去三年中被用于视觉目标跟踪方法,并由于其全局特征学习能力而表现出优异的性能改进。论文 介绍了不同类型的基于Transformer的跟踪器,并根据它们如何应对跟踪挑战分析了它们的单独性能。此外将Transformer跟踪器的性能与最先进的基于CNN的跟踪器进行了比较,以表明它们如何在短时间内以较大的优势克服现有方法。 论文调查了在其模型架构中使用Transformer的所有最先进跟踪器的文献。在OTB100、UAV123、LaSOT、TrackingNet和GOT-10K基准数据集上评估了这些跟踪器的性能,以分别分析它们的**通用跟踪、空中跟踪、长期跟踪、真实世界跟踪和一次性跟踪能力。**实验结果表明,OTB100数据集对最近的跟踪器不再具有挑战性,因为它们显示了饱和的整体性能和属性结果。 在Transformer引入目标跟踪之前,基于CNN的跟踪器主导了跟踪世界。特别是,基于Siamese的方法在基准数据集的跟踪鲁棒性和效率之间取得了相当大的平衡。然而,由于基于CNN的孪生跟踪方法主要依赖于相关运算,这是一个局部线性匹配过程,因此它们在具有挑战性的跟踪场景中的性能受到限制。此外,根据论文在大规模LaSOT基准中的实验分析结果,**基于CNN的跟踪器的长期跟踪能力非常有限,因为它们基于相关性的特征匹配过程无法处理长跟踪序列中的目标外观变化。**此外,基于属性的实验结果表明,基于CNN的跟踪器由于其较差的目标辨别和特征匹配能力,仍然难以在完全遮挡、旋转、视点改变和尺度变化的场景中跟踪目标。尽管所有基于CNN的跟踪器在具有挑战性的基准数据集中表现出较差的跟踪鲁棒性,但它们显示出优异的效率结果,因此仍然适用于许多现实世界应用。 Transformer最初作为CNN主干网络的迭代模块引入到单目标跟踪中,在本研究中,这些类型的方法被称为基于CNN-Transformer的跟踪器。研究人员用基于CNN Transformer的跟踪器中的Transformer架构取代了孪生跟踪方法的相关操作。基于这项研究的结果,基于CNN Transformer的跟踪器成功地**平衡了基准数据集中的跟踪鲁棒性和效率。**尽管它们在短期和空中跟踪序列中的跟踪鲁棒性很好,但它们的长期跟踪能力远低于完全基于Transformer的方法。与基于CNN的跟踪器相比,基于CNN-Transformer的方法成功地利用了主干CNN架构进行特征提取,即使使用较小的预训练CNN模型,它们也显示出优异的性能。然而,根据我们的属性实验分析,基于CNN Transformer的跟踪器在全遮挡、低分辨率、视野外和照明变化跟踪场景中表现出有限的性能,因为它们仍然依赖于不知道目标的CNN特征。 最近的VOT方法完全依赖于Transformer架构,在目标跟踪中利用其全局特征学习能力。基于它们的模型架构,论文将全Transformer方法的文献分类为两流两阶段跟踪器和一流一阶段跟踪器。**双流两阶段跟踪器分别使用两个相同的Transformer网络分支和另一个Transformer网络,在两个可区分的阶段中执行特征提取和融合。**另一方面,单流单阶段跟踪器使用变压器网络的单个管道。基于UAV123、LaSOT、TrackingNet和GOT-10K基准数据集的实验结果,完全基于Transformer的跟踪器在保持可接受的效率分数的同时,以较大的优势显著优于其他方法。特别是,通过提取搜索图像中的目标感知特征并消除不必要的背景特征,单流单级跟踪器在基准数据集中显示出出色的整体跟踪鲁棒性和属性智能性能。完全基于Transformer的跟踪器成功地处理了长期跟踪场景,即使目标经历了严重的外观变化和完全遮挡,因为它们的Transformer架构能够更新目标的空间和时间线索。 根据从论文的实验研究中获得的评估结果,很明显,单流单阶段全Transformer跟踪器在所有方面都是最先进的跟踪器,包括单次跟踪。他们很可能在未来几年主导VOT。 **Transformer跟踪的未来方向** 尽管Transformer跟踪器在具有挑战性的基准数据集方面显示出比其他方法显著的改进,但仍有几个问题尚未解决,需要在未来的工作中进一步关注。鉴于这种背景,我们为Transformer跟踪的未来方向提供了一些建议。 同时增强单阶段、单流完全基于Transformer的跟踪器的鲁棒性和效率:跟踪社区已开始采用具有单阶段、单流架构的完全基于Transform的方法,以同时增强跟踪鲁棒性和有效性。**这些方法使用统一的特征提取和目标建模过程,利用双向信息流,提高跟踪器的辨别能力。**尽管迄今为止提出的方法不到五种,但它们在跟踪鲁棒性方面都取得了最好的结果。然而,由于目标模板图像是在跟踪序列的每一帧中处理的,并且使用了大量的参数,因此它们的计算效率很低。为了解决这个问题,可以采用有效的特征重用机制来降低模型的计算复杂性。此外,将空间和时间信息纳入统一的特征提取和目标建模过程可以进一步提高跟踪精度。 丰富完全Transformer跟踪器的准确性,以跟踪具有较少外观线索的小目标:UAV123数据集上的实验结果表明,基于完全Transformer的方法难以在具有有限外观线索的情况下跟踪小目标对象,因为其他类型的跟踪器在属性比较方面优于它们。特别是,当在快速运动、照明变化和相机运动场景中跟踪小目标对象时,它们的成功分数很低。由于Transformer的像素级注意力机制无法捕捉小目标对象的正确外观线索,**因此完全基于Transformer的跟踪器表现出有限的性能。**类似于CSWinTT跟踪器\[56\],结合窗口级别和目标大小感知注意机制可以提高全Transformer跟踪器在跟踪小目标对象时的准确性。 通过提供时间和空间线索来提高Transformer跟踪的鲁棒性:通过结合时间和空间提示来处理具有变形、旋转和缩放变化的场景,可以增强跟踪器的鲁棒性。这可以通过在整个跟踪过程中更新模板来实现。虽然在基于CNN的跟踪中更新模板是困难的,并且计算成本很高,但完全基于Transformer的跟踪器使用不同的嵌入方案可以轻松地处理模板,而无需额外的成本。**因此,与ProContEXT\[64\]和OSTrack\[63\]方法类似,维护一组静态和动态模板并将其输入目标模型可以提高其跟踪鲁棒性。** 快速运动、完全遮挡和背景杂波是Transformer跟踪的主要挑战:根据论文对各种基准数据集的评估结果,发现快速运动、严重遮挡和背景杂乱是最先进跟踪器的主要挑战。尽管完全基于Transformer的方法在这些场景中显示出了相当大的改进,但对具有挑战性的LaSOT数据集的评估表明,它们在快速运动、完全遮挡和背景杂波帧中的成功分数较低,表现最好的跟踪器分别仅达到59.1%、63.1%和64.4%。为了应对这些挑战,可以采取几种方法。例如,使用干扰物感知机制扩大搜索区域可以处理快速移动的目标,同时减少干扰物目标的影响。此外,在遮挡场景中包含目标重新检测方案可以提高跟踪鲁棒性,增强跟踪器的辨别能力可以处理背景杂波情况。 利用轻量级Transformer架构来提高计算效率:尽管完全基于Transformer的跟踪器显示出出色的跟踪鲁棒性,但其计算科学性非常差,因此不适合许多实际应用。最近,提出了许多轻量级Transformer架构\[102103\],并在保持准确性的同时显示出优异的效率分数。在VOT中使用轻量级变压器可以提高计算成本。 **结 论** 在本研究中,论文对Transformer跟踪方法进行了调查。分析了有关Transformer跟踪器的文献,并将其分为三种类型:CNN-Transformer跟踪器、单阶段单流完全基于Transformer的跟踪器和双流两阶段完全基于Transform的跟踪器。在本文中介绍了19个Transformer跟踪器的文献,基于它们如何应对不同的跟踪挑战。 在本研究的第二阶段,论文通过实验评估了Transformer跟踪方法的跟踪鲁棒性和计算效率,并将其性能与基于CNN的跟踪器进行了比较。总共在实验中评估了31个跟踪器。在具有挑战性的基准数据集上的实验结果表明,单阶段、单流完全基于Transformer的跟踪器是最先进的方法。此外,论文发现基于CNN-Transformer的跟踪器成功地保持了鲁棒性和效率之间的平衡。最后,我们为Transformer跟踪提供了未来的方向。 ... ##### 二、VSE-MOT 视觉语义增强引导,让多目标跟踪在低画质视频中性能飙升20% 本篇要介绍的论文是《VSE-MOT: Multi-Object Tracking in Low-Quality Video Scenes Guided by Visual Semantic Enhancement》,这项研究针对当前多目标跟踪(MOT)算法在处理低质量视频时性能显著下降的痛点,提出了一种创新的解决框架。 该框架名为 **VSE-MOT** ,即视觉语义增强引导的多目标跟踪(Visual Semantic Enhancement-guided Multi-Object Tracking)。其核心思想是借助视觉-语言模型(Vision-Language Models)强大的语义理解能力,为跟踪器提供在图像降质(如模糊、噪声)情况下依然稳健的全局视觉语义信息,从而显著提升在真实世界低质量场景下的多目标跟踪表现。实验结果表明,该方法相比现有技术可带来高达 **8% 至 20%** 的性能提升,效果斐然。 * **作者**:Jun Du, Weiwei Xing, Ming Li, Fei Richard Yu * **机构**:北京交通大学;广东人工智能与数字经济实验室 * **论文地址**:https://arxiv.org/abs/2509.14060 研究背景与意义 多目标跟踪(MOT)是计算机视觉领域的关键技术,在自动驾驶、视频行为分析和智能监控等方面有着广泛应用。然而,现有的大多数MOT算法都依赖于高质量的视频输入。在真实世界中,由于光照不足、设备抖动、天气恶劣或信号干扰等原因,视频质量常常会严重下降,表现为图像模糊、高噪声、低分辨率等。这些问题导致传统依赖外观和运动特征的跟踪算法性能急剧恶化,难以有效关联和追踪目标。 如上图所示,传统的解决方案通常是在跟踪前先进行图像增强,但这种串联式流程治标不治本,增强过程中可能引入新的伪影或丢失关键细节,难以满足复杂多变环境下的跟踪需求。因此,如何让MOT算法在低质量视频中保持鲁棒性,是一个极具挑战性且意义重大的研究课题。 本文的作者另辟蹊径,认为相比于像素级的图像细节,高级的、抽象的"视觉语义"信息对于图像降质具有更强的抵抗力。受此启发,他们转向强大的视觉-语言预训练模型(如CLIP),利用其从海量图文数据中学到的丰富视觉概念,来弥补低质量图像中丢失的特征信息,从而引导跟踪器做出更准确的判断。 VSE-MOT:核心方法解析 为实现上述构想,作者提出了VSE-MOT框架,它以MOTRv2为基线模型,并巧妙地融入了视觉语义信息。整个框架可以看作一个三分支架构: 1. **图像特征分支**:负责提取每一帧画面的常规视觉特征。 2. **查询向量分支**:包含由检测器(YOLOX)生成的目标提案查询(Proposal Queries)和从前一帧传递过来的轨迹查询(Track Queries),用于定位和关联目标。 3. **视觉语义增强分支**:这是本文的核心创新,使用一个冻结的CLIP图像编码器来提取全局视觉语义信息。 上图展示了VSE-MOT的整体架构。核心挑战在于如何将CLIP提取的、为图像分类等任务设计的全局语义信息,有效地"适配"并"融合"到MOT任务中,以增强与具体目标相关的查询向量。为此,作者设计了两个关键模块: 多目标跟踪适配器(MOT-Adapter) 直接从CLIP中提取的全局语义特征对于下游的跟踪任务来说可能不是最优的。MOT-Adapter的作用就是将这些全局信息进行调整,使其更适应MOT任务的需求。如下图所示,该模块通过并行的通道注意力和空间注意力机制,分别对查询向量特征和全局语义特征进行加权,然后通过多头自注意力(MHA)进行交互和整合,最终生成与跟踪任务更相关的特征表示。 视觉语义融合模块(VSFM) 在MOT-Adapter调整了语义信息之后,VSFM负责将这些信息与查询向量进行高效融合。由于两者处于不同的特征空间,简单的相加或拼接可能会导致信息冲突。VSFM利用多头自注意力和空洞空间金字塔池化(ASPP)来提取多尺度特征并进行融合,从而更有效地整合查询向量和全局视觉语义信息。 实验设计与结果 为了验证方法的有效性,作者构建了专门的低质量MOT数据集:基于DanceTrack构建了LQDanceTrack,以及基于MOT17/20构建了LQMOT。同时,为了让模型兼顾高质量和低质量场景,他们采用了混合训练策略。 在低质量数据集上的卓越表现 实验结果令人印象深刻。在LQDanceTrack验证集上,VSE-MOT在所有关键指标(HOTA, DetA, AssA, MOTA, IDF1)上均超越了其他SOTA方法,性能提升幅度在 **8%到20%** 之间。 在LQMOT验证集上同样观察到了显著的优势,进一步证明了该方法在真实世界低质量视频场景中的有效性。 在常规数据集上的鲁棒性 一个优秀的方法不仅要在特定场景下表现优异,还应在常规场景下保持竞争力。实验表明,经过混合训练后,VSE-MOT在标准的DanceTrack和MOT验证集上同样优于其他方法,证明了其良好的泛化能力和鲁棒性。 组件有效性分析(消融实验) 消融实验清晰地展示了每个新提出模块的贡献。从基线模型(MOTRv2)开始,逐步加入CLIP编码器、MOT-Adapter和VSFM后,各项性能指标均得到稳步提升,验证了设计的合理性。 作者还对比了不同的融合模块,结果显示本文提出的VSFM效果优于传统的加法、拼接或CBAM融合。 训练数据比例与效率分析 实验发现,采用高、低质量数据比例为1:2的混合训练集时,模型在两个场景下都能达到最佳的综合性能。 效率方面,引入的CLIP编码器确实增加了参数量并降低了帧率(FPS),这也是未来值得优化的方向。而MOT-Adapter和VSFM模块带来的额外计算开销则相对较小。 可视化结果 可视化结果直观地展示了VSE-MOT的优势。在低质量视频中,基线模型容易发生ID切换错误,而VSE-MOT得益于全局语义信息的引导,能够更稳定地维持正确的跟踪ID。 同时,在常规质量的视频中,VSE-MOT也保持了良好的跟踪效果。 总结与贡献 总而言之,这篇论文提出了一个新颖且有效的VSE-MOT框架,创造性地将视觉-语言模型的语义能力引入到多目标跟踪任务中,以应对真实世界中普遍存在的视频质量下降问题。其主要贡献可以总结为: 1. **提出新框架**:设计了一个三分支架构,首次利用冻结的CLIP编码器提取全局视觉语义信息来指导MOT,为解决低质量场景下的跟踪问题提供了新思路。 2. **设计新模块**:提出了MOT-Adapter和VSFM两个关键模块,解决了如何将全局语义信息有效适配并融合到跟踪任务中的核心技术难题。 3. **验证有效性**:通过在自建的低质量数据集和标准数据集上的大量实验,充分证明了所提方法的优越性和鲁棒性,取得了SOTA的性能。 这项工作不仅在技术上取得了显著突破,也为大型预训练模型在更多计算机视觉下游任务中的应用探索了新的可能性。尽管存在效率上的挑战,但其展示出的巨大潜力无疑将启发更多后续研究。 ... ##### 三、DepTR-MOT 深度信息加持,告别目标跟丢!刷新多目标跟踪新范式 要带大家看一篇多目标跟踪(MOT)领域的有意思的新工作,来自湖南大学的研究者们提出了一个名为 **DepTR-MOT** 的新框架。 简单来说,这篇论文的核心思想就是给传统的2D多目标跟踪器装上了一双能感知"深度"的眼睛,让它在拥挤、遮挡严重的环境下,也能更准地把目标跟住。这里的"DepTR"其实就是"**D** epth-Informed **T** rajectory **R**efinement"的缩写,即"深度信息引导的轨迹优化",名字起得非常直白。 最亮眼的是,它在机器人跟踪数据集 **QuadTrack** 上,相比基线方法,把 **HOTA指标提升了2.2个点** ,**IDF1分数更是提升了2.9个点**,效果相当显著。 * **论文标题**:DepTR-MOT: Unveiling the Potential of Depth-Informed Trajectory Refinement for Multi-Object Tracking * **作者**:Buyin Deng, Lingxin Huang, Kai Luo, Fei Teng, Kailun Yang * **机构**:湖南大学 * **论文地址**:https://arxiv.org/pdf/2509.17323.pdf * **代码仓库**:https://github.com/warriordby/DepTR-MOT 研究背景:2D跟踪的"近视"难题 搞自动驾驶或者机器人的朋友们肯定知道,多目标跟踪(MOT)是个基础且关键的任务。说白了,就是要在视频里持续地认出并追踪多个物体。 目前主流的方案大多是基于检测的跟踪(Tracking-By-Detection, TBD),它们主要依赖2D边界框和物体的运动轨迹来做关联。但在现实世界里,尤其是机器人视角下,目标之间相互遮挡、距离太近导致外观相似,这些情况太常见了。这时候,只靠2D信息,跟踪器就很容易"脸盲",搞错ID,或者直接把目标跟丢了。 大家自然会想到,为啥不用3D信息呢?比如激光雷达(LiDAR)数据。3D信息当然好,能直接告诉我们物体在空间中的位置,大大降低关联难度。但问题是,给大规模视频数据都标上3D标签,成本太高了,费时又费力。 所以,研究者们就在想,能不能在只有2D标注数据的情况下,巧妙地利用深度信息来提升跟踪性能呢?DepTR-MOT就是沿着这个思路来的。它对比了传统方法(A)、依赖外部模块的复杂方法(B),提出了自己的轻量级方案(C),直接在检测头里输出实例级别的深度,既高效又准确。 核心方法:如何"无中生有"地感知深度? DepTR-MOT的思路真的非常巧妙,CV君觉得这是全文最大的亮点。它没有用额外的深度传感器,也没有在推理时增加复杂的深度估计网络,而是通过一种"知识蒸馏"的方式,让一个轻量级的检测器学会了预测深度。 整个流程可以看下图: 具体来说,分两步走: 1. 基础模型引导,生成"软"深度标签 在训练阶段,作者们搬来了两个强大的基础模型(Foundation Models)当"老师":**SAM (Segment Anything Model)** 和一个预训练的 **深度估计模型 (Depth Model)** 。 * 首先,对于视频中的每一帧,用深度估计模型生成一个全局的深度图。 * 然后,利用现有的2D边界框作为提示(prompt),让SAM对每个目标物体做精确的实例分割,得到一个mask。 * 最后,用这个mask去深度图里"抠出"对应物体的精确深度值。 为什么要这么麻烦,非要用SAM来分割呢?上图解释得很清楚。如果直接用边界框去框深度,很容易把背景或者旁边其他人的深度信息也算进来(左图和右图),导致深度值不准。而用SAM的实例掩码,就能精准地只计算目标本身的深度,结果自然更可靠。 通过这种方式,研究者们就为只有2D标注的数据集,凭空"制造"出了高质量的实例级深度标签。这些标签虽然不是100%的真值,但已经足够作为"软标签"来监督学生网络了。 2. 轻量级检测器学习深度预测 有了老师生成的标签,接下来就是让"学生"(一个基于DETR的检测器)来学习了。这个学生网络在训练时,不仅要学习检测物体的位置,还要学习预测每个物体的深度。 作者设计了两个损失函数来监督这个过程: * 一个是**深度回归损失 (Lreg)** ,让预测的深度值向老师给的软标签看齐。 * 另一个是**对齐损失 (Lalign)** ,让学生网络输出的深度特征在分布上和老师网络的特征保持一致。 通过这种"知识蒸馏"的训练,DepTR-MOT在推理时就不再需要那两个庞大的基础模型老师了。它自己就能直接输出带深度信息的目标检测结果,几乎不增加额外的计算开销,非常轻量。 实验效果:真的管用吗? 是骡子是马,拉出来遛遛。作者在两个很有挑战性的数据集上验证了DepTR-MOT的性能。 在拥挤舞蹈场景下的表现 第一个是 **DanceTrack** 数据集,里面全是跳舞的人,动作快、遮挡多、外观相似,对跟踪器是地狱级难度。 从上表可以看到,结合了DepTR之后,无论是SORT、DeepSORT还是ByteTrack等主流跟踪器,在HOTA和IDF1等关键指标上都有了稳定的提升。比如在ByteTrack上,**HOTA从42.343提升到了44.465**。这证明深度信息确实帮助跟踪器更好地处理了关联问题。 下面这个消融实验表格更有说服力,它展示了模型不同组件的贡献。可以看到,无论是深度回归损失(Lreg)还是对齐损失(Lalign),以及深度感知的权重(Wd),都是不可或缺的。当所有组件都加上时(Exp. 6),模型性能达到最佳。 在机器人平台上的实战 第二个是 **QuaTrack** 数据集,这是在一个四足机器人上采集的,视角更贴近真实应用,有全景畸变,环境也更复杂。 作者还细致地分析了深度信息和2D位置信息在匹配过程中的权重(γ和λ)影响。结果发现,并不是深度信息的权重越高越好。当深度权重γ在0.4以下时,性能提升最明显。这说明深度信息是作为2D信息的有效补充,而不是要取而代之。 上图展示了在机器人上的实际部署效果。在行人频繁交互和遮挡的人行道场景中,DepTR-MOT能够有效减少轨迹断裂和ID切换,保持了轨迹的连续性和一致性,实用价值满满。 总结 巧妙地利用了强大的基础模型来为现有的2D数据集"赋能",在不增加标注成本和推理负担的前提下,成功地将深度信息融入到多目标跟踪任务中,有效解决了传统方法在遮挡和近距离交互场景下的痛点。 这种"用大模型教小模型"的知识蒸馏思路,在很多算力受限的边缘设备应用上都有很大的潜力。 ... ##### 四、xxx ... ##### 五、xxx ...

相关推荐
cyyt2 小时前
深度学习周报(9.15~9.21)
人工智能·深度学习·量子计算
Deepoch3 小时前
Deepoc具身智能模型:为传统机器人注入“灵魂”,重塑建筑施工现场安全新范式
人工智能·科技·机器人·人机交互·具身智能
吃饭睡觉发paper3 小时前
High precision single-photon object detection via deep neural networks,OE2024
人工智能·目标检测·计算机视觉
醉方休4 小时前
TensorFlow.js高级功能
javascript·人工智能·tensorflow
云宏信息4 小时前
赛迪顾问《2025中国虚拟化市场研究报告》解读丨虚拟化市场迈向“多元算力架构”,国产化与AI驱动成关键变量
网络·人工智能·ai·容器·性能优化·架构·云计算
红苕稀饭6664 小时前
VideoChat-Flash论文阅读
人工智能·深度学习·机器学习
周杰伦_Jay4 小时前
【图文详解】强化学习核心框架、数学基础、分类、应用场景
人工智能·科技·算法·机器学习·计算机视觉·分类·数据挖掘
黄啊码5 小时前
Coze新品实测:当AI开始像产品经理思考,我和程序员吵架的次数少了
人工智能·agent·coze
jie*5 小时前
小杰机器学习(six)——概率论——1.均匀分布2.正态分布3.数学期望4.方差5.标准差6.多维随机变量及其分布
人工智能·机器学习·概率论