51c视觉~合集2~目标跟踪

我自己的原文哦~https://blog.51cto.com/whaosoft/14225731

一、Transformer目标跟踪

单目标跟踪是计算机视觉中一个众所周知且具有挑战性的研究课题。在过去的二十年中，许多研究人员提出了各种算法来解决这个问题，并取得了令人满意的结果。最近，基于Transformer的跟踪方法由于其卓越的跟踪鲁棒性，开创了单目标跟踪的新时代。尽管已经进行了几项综述研究来分析跟踪器的性能，但在单目标跟踪中引入Transformer之后，仍需要进行另一项调查研究。本文旨在分析Transformer跟踪方法的文献和性能。因此对Transformer跟踪方法进行了深入的文献分析，并评估了它们在具有挑战性的基准数据集上的跟踪鲁棒性和计算效率。此外，论文还测量了他们在不同跟踪场景下的表现，以找出他们的优势和劣势。本文的调查深入了解了Transformer跟踪方法的基本原理、面临的挑战及其未来方向。

论文的主要贡献如下：

🔹 论文对基于Transformer的跟踪方法的文献进行了全面调查。本文没有包括基于非Transformer的跟踪器，因为之前的研究已经涵盖了它们；

🔹 论文已经通过实验评估并比较了五个具有挑战性的基准数据集上Transformers在VOT中的跟踪鲁棒性，方法是将最先进的跟踪器分类和分析为完全基于Transformer的跟踪器、基于CNN-Transformer的追踪器和基于CNN的跟踪器；

🔹 使用作者提供的源代码，在通用计算平台上评估了先进状态跟踪器的计算效率;

🔹 论文对三个基准数据集进行了跟踪属性评估，以确定最近跟踪者最具挑战性的场景；

🔹 基于实验结果，论文为基于Transformer的单目标跟踪的未来方向提供了建议。

论文在表1中总结了先前的研究，并对其进行了分类

Li等人[66]评估了：

OTB-100和VOT2015基准上22个跟踪器的性能和效率，对基于深度学习的跟踪器进行了第一次实验调查。此外，他们还根据11个跟踪属性比较了跟踪器的个人性能，然后确定了未来的方向。最近，Marvasti Zadeh等人[21]基于**跟踪器的网络架构、跟踪方法、长期跟踪、鸟瞰跟踪和在线跟踪能力，对基于深度学习的VOT进行了全面的实验调查。**此外，他们还根据具有挑战性的属性比较了跟踪基准，并对跟踪器进行了跟踪速度比较。

Chen等人[75]在最近开发的基准上对深度和手工制作的跟踪器进行了实验调查：

OTB、VOT、LaSOT[77]、GOT-10k和TrackingNet[79]。尽管这些实验评估研究回顾了文献，然后在几个方面比较了最近提出的深度跟踪器的跟踪性能，但它们没有太多地关注基于跟踪效率的比较。

在过去两年中，与基于CNN的深度跟踪器相比，基于Transformer的单目标跟踪器显示出了出色的跟踪性能和效率。先前的实验调查研究没有回顾基于Transformer的跟踪器的文献，也没有分析其优缺点，因此论文对这些跟踪器进行了详细的文献综述。然后分析了它们在五个基准数据集上的性能：OTB-100、LaSOT、GOT-10k、TrackingNet和UAV123[80]。**此外还根据跟踪速度、浮点运算（FLOP）的数量和跟踪模型中的参数数量详细比较了这些跟踪器的效率。**最后还根据实验结果讨论了基于Transformer的跟踪的未来方向。

Transformer

Transformer[36]最初被引入机器翻译任务

基于其巨大的成功和效率，它被用于其他NLP任务，如文档汇总和生成**。** Transformer架构基于注意力机制，通过使用编码器和解码器组件实现，如图2所示。编码器组件通过将N个相同的编码器层堆叠在彼此之上而由它们组成，并且解码器组件也由N个相同解码器层组成，它们也堆叠在彼此上。Transformer架构的编码器和解码器组件分别如图2的左侧和右侧所示。在Transformer架构中，所有编码器层都有两个子层：一个自注意力层和一个全连接的前馈层。除了这两个子层之外，所有解码器层在中间都有一个编码器-解码器注意层。

Transformer架构[36]接收作为向量序列的输入

使用位置嵌入算法将关于该序列中每个令牌的位置的信息添加到其表示中。嵌入之后，输入数据被馈送到编码器的自注意力层，因为它有助于捕获上下文关系。另一方面，在解码器层中，编码器-解码器注意力子层用于集中于输入数据的相关部分。

在自注意之后，使用全连接的前馈层来学习注意力特征的复杂表示。它有一个简单的架构，其中有两个线性变换和一个非线性激活。**该层可以描述为内核大小为1的两个卷积。在编码器和解码器层中，包括残差连接，然后是标准化层。**残差连接用于保存来自原始输入数据的线索，并使模型能够学习输入数据的更准确表示。

在解码器层堆叠之后，使用线性层来产生输出向量。最后，使用Softmax层来产生输出的概率。基于Transformer在NLP任务中的成功，一些研究尝试将其应用于计算机视觉任务，并提出了几种体系结构。在这些模型中**，ViT[37]比其他具有简单架构的模型更有效，如图3所示。与最先进的卷积神经网络（CNN）模型相比，当在大型数据集上进行训练时，ViT显示出优越的结果。** 此外，ViT的作者通过微调在中小型数据集中测试了它，并显示出适度的结果。在ViT在图像识别中取得成功之后，已经提出了几种ViT模型，并将其用于其他计算机视觉任务，如图像分割、图像增强、图像生成、视频字幕和对象跟踪。为了降低ViT的计算复杂性，Swin Transformer[41]在划分图像的非重叠窗口内局部执行自注意力，并为跨窗口连接引入了移位窗口划分机制。与ViT中的固定大小令牌不同，Swin Transformer通过从小尺寸补丁开始，然后在更深的Transformer层中逐渐合并相邻补丁，以进行多尺度预测，从而克服缩放问题，从而构建分层表示。由于纯Transformer模型难以捕获局部信息，CVT[86]将两种基于卷积的操作纳入ViT架构，即卷积令牌嵌入和卷积投影。由于ViT不太擅长编码更精细级别的特征，VOLO[87]引入了称为Outlooker的轻量级注意力机制，以有效地利用更精细级别信息对令牌表示进行编码。总体而言，ViT开创了计算机视觉任务的新时代。

Transformer在单目标跟踪中的应用

🔹 基于模型架构、特征提取和特征集成技术，最近的深度跟踪器可分为三类：

🔹 基于CNN的跟踪器[29、88、89、90、31、91、32、92、93、34、33、94]；

🔹 基于CNN-Transformer的跟踪器[46、47、48、49、50、51、52、53、54、55、56、57]；

🔹 完全基于Transformer的追踪器[58、59、60、61、62、63、64]；

基于CNN的跟踪器仅依赖于CNN架构进行特征提取和目标检测，而基于CNN-Transformer的跟踪器和完全基于Transformer的跟踪器分别部分和完全依赖于Transformer架构。鉴于之前的几项研究[76，75，71]已经全面回顾了基于CNN的跟踪器的文献，本节仅关注基于CNN-Transformer的跟踪器和完全基于Transformer的追踪器的文献。然而，基于CNN的跟踪器包含在实验分析中（第5节），其性能与基于CNN Transformer的跟踪器和完全基于Transformer的跟踪器进行了比较。

通常，Transformer架构需要大量训练样本[37]来训练其模型。由于目标是在跟踪序列的第一帧中给出的，因此在VOT中不可能获得大量样本，因此所有完全基于Transformer和基于CNN-Transformer的跟踪器都使用预先训练的网络，并将其视为骨干模型。此外，这些跟踪器中的一些在跟踪过程中更新其模型，而其中一些没有更新。此外，他们在各种基准数据集上进行了训练，如COCO[95]、LaSOT、GoT-10k、TrackingNet和Youtube BB[96]。此外，这些跟踪器中的一些使用背景信息来跟踪目标，而有些没有。表2总结了所有基于Transformer和基于CNNTransformer的方法，提供了它们的主干网络、模板更新细节、训练数据集、训练方案细节以及它们是否具有背景意识的信息。

论文回顾了基于CNN-Transformer和完全基于Transformer的跟踪器的模型架构的文献。这些跟踪器可分为**"两流两阶段"跟踪器和"一流一阶段"跟踪器。**在"两流两阶段"跟踪器中，使用两个相同的网络分支管道（两个流）来提取目标图像和搜索图像的特征。此外，在这类跟踪器中，目标模板和搜索区域的特征提取和特征融合在两个可区分的阶段（两阶段）完成。另一方面，在"One Stream One Stage"跟踪器中，使用单个网络管道，通过单个阶段一起完成特征提取和特征融合。到目前为止，所有基于CNN-Transformer的跟踪器都被提出为"双流两阶段"方法，而完全基于Transformer的追踪器可以被分类为"双流二阶段"和"一流一阶段"方法。图4显示了基于CNNTransformer和完全基于Transformer的跟踪器的分类。

基于CNN-Transformer的跟踪器

最近大多数基于CNN的跟踪器[29，88，89，90，31，91，32，92，93，34，33，94]通过使用两个相同的卷积神经网络管道遵循孪生网络架构。在这些跟踪器中，通过使用两个相同的CNN分支提取目标模板和搜索区域的特征。然后通过使用相关函数在搜索区域的特征中找到目标特征的相似性来完成目标定位。尽管相关操作对于特征相似性匹配过程简单且快速，但它不足以捕捉目标模板和搜索区域之间的非线性交互（遮挡、变形和旋转），因此跟踪器的性能受到限制。为了成功地解决这个问题，研究人员开始使用Transformer对基于CNN-Transformer的跟踪器进行特征融合。

与大多数基于CNN的跟踪器类似，基于CNN-Transformer的跟踪器也使用两个类似孪生的相同网络管道。在这些管道的开头，使用CNN提取目标模板和搜索区域的特征。然后，将提取的深度特征展平为向量，然后将其馈送到Transformer以捕获搜索区域中目标的相似性。所有基于CNN-Transformer的跟踪器都使用两个流、两个阶段的方法，两个相同的网络管道分别使用卷积和Transformer架构执行特征提取和特征融合。

Wang等人提出了第一个基于CNN-Transformer的跟踪器：