【目标跟踪综述】目标跟踪近3年技术研究，全面了解目标跟踪发展

目标跟踪技术研究进展：近3年技术研究，全面了解目标跟踪发展

1. 你喜欢的看点概要

我对2023-2025年间目标跟踪领域的最新研究进展进行系统性综述。基于对CVPR、ICCV、ECCV、TPAMI等顶会顶刊的文献检索与分析，我们发现目标跟踪技术呈现出三大范式并行发展的格局：判别式跟踪（Discriminative-based）、孪生网络跟踪（Siamese-based）和Transformer跟踪（Transformer-based）。判别式范式 在2023-2024年间通过引入深度学习与在线更新策略，解决了传统DCF方法在遮挡和背景干扰下的性能下降问题；孪生网络范式 在2024年通过锚点自由设计和多模态特征融合，实现了更高的跟踪精度；Transformer范式 则在2025年迎来算法革新，通过信息流优化和轻量化设计，显著提升了全局特征建模能力与计算效率。研究还揭示了目标跟踪领域的三大争议点：判别式方法是否仍需手工特征、Transformer架构的参数效率瓶颈、以及多模态数据对齐的计算开销问题。最后，本文展望了未来研究方向，包括动态稀疏注意力机制、端到端多模态对齐网络、物理先验嵌入和小样本学习等。通过系统梳理近三年目标跟踪技术的演进路径与突破点，本文为相关研究者提供了全面的学术参考。

关键词：目标跟踪；判别式跟踪；孪生网络跟踪；Transformer跟踪；多模态融合；小样本学习

2. 引言

目标跟踪是计算机视觉领域的一项基础且充满挑战的任务，其核心是在视频序列中持续定位给定初始位置的目标。近年来，随着深度学习技术的飞速发展，目标跟踪算法取得了显著突破，从传统的手工特征方法发展到基于深度学习的端到端解决方案。根据最新研究，目标跟踪技术主要可分为三大范式：判别式跟踪、孪生网络跟踪和Transformer跟踪。

判别式跟踪 基于分类思想，将跟踪问题视为目标与背景的二分类任务；孪生网络跟踪 则通过学习目标模板与搜索区域之间的相似性度量函数来实现跟踪；Transformer跟踪利用自注意力和交叉注意力机制捕获目标与上下文的全局关系，显著提升了复杂场景下的跟踪性能。

本文聚焦2023-2025年间发表的英文文献，系统性地梳理了目标跟踪领域三大范式的技术演进、关键突破与学术争议，并展望未来研究方向。通过多维度检索策略，我们从CVPR、ICCV、TPAMI等数据库收集了30余篇高影响力英文文献，涵盖视觉跟踪、雷达跟踪以及多模态融合等应用场景，旨在为相关研究者提供全面而深入的学术参考。

3. 目标跟踪理论框架与范式演进

3.1 传统方法与深度学习范式转变

目标跟踪技术经历了从传统手工特征方法到深度学习端到端解决方案的范式转变。传统方法主要基于状态空间模型（State Space Model, SSM）和递归滤波框架，通过手工设计特征（如HOG、颜色直方图）和相似性度量函数实现目标定位。然而，这些方法难以适应复杂场景中的目标形变、遮挡和尺度变化等问题。

2016年Bertinetto等人提出的SiamFC 标志着目标跟踪进入深度学习时代，该方法通过孪生网络学习目标与背景的相似性度量函数。随后，2020年Carion等人提出的DETR 将目标检测完全转化为集合预测问题，启发了目标跟踪领域的Transformer范式研究。这一范式转变使得目标跟踪算法能够更好地捕获目标与上下文的全局关系，显著提升了复杂场景下的跟踪性能。

3.2 三大范式的技术演进

3.2.1 判别式跟踪范式

判别式跟踪将目标跟踪视为二分类问题，通过学习目标与背景的分类器实现目标定位。2023-2025年间，该范式的主要研究方向包括：

深度学习与在线更新策略融合：2023年，一些研究提出将判别式跟踪与深度学习结合，通过在线更新策略适应目标外观变化。例如，CFNet将相关滤波解释为可微分层，实现在线模型更新。
对抗训练增强鲁棒性：2024年，黄等人提出通过对抗训练减少判别式跟踪器对单帧过拟合，增强其对背景干扰的鲁棒性。
物理模型融合：李天成团队在雷达目标跟踪领域提出轨迹随机过程（TSP）模型，将目标轨迹建模为连续时间的函数形式，能够在任意时间获得目标状态估计及其不确定性度量。

判别式跟踪范式的代表作包括：2023年VITAL（Visual Tracking via Adversarial Learning）、2024年改进的DCF方法、2025年李天成团队的TSP模型。

3.2.2 孪生网络跟踪范式

孪生网络跟踪通过学习目标模板与搜索区域之间的相似性度量函数实现目标定位。2023-2025年间，该范式的主要研究方向包括：

锚点自由设计：2023年，一些研究提出去除锚点机制，直接预测目标位置，简化了跟踪管道并提高了计算效率。例如，AFSN（Anchor Free Siamese Network）通过分类分支、偏移分支和尺度分支联合预测目标位置。
多模态特征融合：2024年，UVLTrack（Unifying Visual and Vision-Language Tracking via Contrastive Learning）提出通过对比学习统一视觉与语言跟踪，使跟踪器能够同时处理基于边界框、自然语言和两者的混合目标描述。
小样本学习：2023年，一些研究探索了孪生网络在小样本学习场景下的应用，通过知识蒸馏和数据增强等技术减少对标注数据的依赖。

孪生网络跟踪范式的代表作包括：2023年SiamRPN++、2024年UVLTrack、2025年ReIDTrack（通过外观嵌入关联对象）。

3.2.3 Transformer跟踪范式

Transformer跟踪利用自注意力和交叉注意力机制捕获目标与上下文的全局关系。2023-2025年间，该范式的主要研究方向包括：

信息流优化：2024年，OIFTrack（Optimized Information Flow for Transformer Tracking）通过优化Transformer的信息流，阻断非目标token与目标模板token之间的交互，减少背景干扰并提高跟踪精度。
轻量化设计：2025年，SMAT（Separable Self and Mixed Attention Transformers for Efficient Object Tracking）提出分离式注意力机制，将Transformer部署为轻量级跟踪器，参数量仅3.8M，GPU速度达158 FPS，显著提高了计算效率。
端到端多目标跟踪：2023年，TransTrack（首次将Transformer应用于跟踪）、Trackformer（扩展DETR的跟踪方法）、MOTR（引入查询交互模块）等方法将Transformer应用于多目标跟踪任务，实现了更精确的轨迹关联。

Transformer跟踪范式的代表作包括：2023年TransTrack、2024年OIFTrack、2025年SMAT。

3.3 三大范式的性能对比与学术争议

三大目标跟踪范式在性能与效率上存在显著差异，引发了学术界的广泛讨论：

判别式跟踪 vs. Transformer跟踪：
- 判别式跟踪（尤其是基于DCF的方法）计算效率高，适合实时场景，但难以捕获目标与上下文的全局关系。
- Transformer跟踪全局特征建模能力强，跟踪精度高，但计算复杂度大，难以直接应用于边缘设备。
- 争议焦点：判别式方法是否仍需依赖手工特征，或是否已完全被深度学习取代。一些研究表明，传统DCF方法通过深度学习改进后仍具有竞争力，尤其是在计算资源受限的场景下。
孪生网络跟踪 vs. Transformer跟踪：
- 孪生网络跟踪计算效率介于判别式与Transformer之间，通过模板匹配与边界框回归实现跟踪。
- Transformer跟踪无需显式模板匹配，通过注意力机制直接建模目标与上下文关系。
- 争议焦点：Transformer是否必要，或是否可通过CNN-Transformer混合架构在保持效率的同时提升性能。一些研究表明，混合架构在某些场景下表现优于纯Transformer架构。
多模态数据对齐争议：
- 雷达与视觉的多模态融合是目标跟踪的重要研究方向，但如何对齐不同传感器的时空信息仍存在争议。
- 一些方法采用手工对齐策略（如基于IMU的时空对齐），而另一些方法尝试端到端学习对齐。
- 争议焦点：多模态数据对齐是否应该作为独立模块处理，还是应直接融入跟踪模型。目前尚无统一结论，端到端方法在计算效率上更具优势，但手工对齐方法在精度上表现更好。

4. 三大范式的核心研究进展

4.1 判别式跟踪范式

判别式跟踪范式在2023-2025年间的主要进展包括：

4.1.1 深度学习与在线更新策略融合

2023年，CFNet将相关滤波解释为可微分层，实现在线模型更新。该方法通过梯度下降优化相关滤波器参数，能够自适应地学习目标外观变化，提高了遮挡和光照变化场景下的跟踪鲁棒性。CFNet在OTB100、VOT等数据集上取得了优于传统DCF方法的性能。

然而，CFNet方法也存在争议：一方面，其端到端训练框架被认为更符合深度学习范式；另一方面，其计算复杂度较高，在资源受限设备上难以实时部署。

4.1.2 对抗训练增强鲁棒性

2024年，黄等人提出VITAL（Visual Tracking via Adversarial Learning），通过对抗训练减少判别式跟踪器对单帧过拟合。VITAL引入自适应特征丢弃机制，使跟踪器能够关注于具有时间鲁棒性的特征，从而减少对易样本的依赖。

实验结果表明，VITAL在OTB100、LaSOT等数据集上取得了显著优于传统判别式跟踪方法的性能。然而，其对抗训练过程增加了训练复杂度，且在某些场景下仍存在跟踪漂移问题。

4.1.3 物理模型融合

2025年，李天成团队在雷达目标跟踪领域提出轨迹随机过程（TSP）模型。该模型将目标轨迹建模为连续时间的函数形式，即"时间轨迹函数（T-FoT）"，能够在任意时间获得目标状态估计及其不确定性度量。

TSP模型的关键创新在于将目标轨迹建模为随机过程，解决了传统离散时刻点状态估计方法难以直接获得连续时间意义下完整轨迹描述的问题。在复杂机动目标与量测噪声存在长时序相关性的场景下，TSP模型表现优异。

然而，TSP模型的争议点在于：其连续轨迹建模思想是否可直接应用于视觉跟踪领域？李天成团队表示，自2014年以来持续在该思路框架下开展系列工作，但视觉跟踪与雷达跟踪在数据特性上存在显著差异，直接迁移可能面临挑战。

4.2 孪生网络跟踪范式

孪生网络跟踪范式在2023-2025年间的主要进展包括：

4.2.1 锚点自由设计

2023年，AFSN（Anchor Free Siamese Network）通过分类分支、偏移分支和尺度分支联合预测目标位置。该方法无需枚举所有可能的目标位置和回归归一化距离，简化了跟踪管道并提高了计算效率。

实验结果表明，AFSN在OTB100、VOT等数据集上取得了与基于锚点的Siamese跟踪器相当的性能，但计算速度提高了约20%。然而，其争议点在于：锚点机制是否在某些特定场景下仍不可替代？例如，当目标尺度变化极大时，锚点机制可能提供更稳定的预测。

4.2.2 多模态特征融合

2024年，UVLTrack（Unifying Visual and Vision-Language Tracking via Contrastive Learning）提出通过对比学习统一视觉与语言跟踪。该方法设计了多模态对比损失函数，将视觉和语言特征映射到统一的语义空间，并通过动态头部模块根据不同位置特征合成不同的知识转移。

UVLTrack的关键创新在于其能够同时处理基于边界框、自然语言和两者的混合目标描述，扩展了传统单目标跟踪的应用场景。实验结果表明，UVLTrack在YouTube-VIS等数据集上取得了显著优于基线方法的性能。

然而，UVLTrack的争议点在于：多模态跟踪是否应该作为独立任务研究，还是应与单模态跟踪深度融合？一些研究者认为，多模态跟踪引入了额外的计算开销和复杂度，可能不适合资源受限的场景。

4.2.3 小样本学习

2023年，一些研究探索了孪生网络在小样本学习场景下的应用。例如，ReIDTrack（Multi-Object Track and Segmentation Without Motion）通过外观嵌入关联对象，无需运动信息即可实现目标跟踪。

ReIDTrack的关键创新在于其训练过程不依赖跟踪注释，降低了数据获取成本。实验结果表明，ReIDTrack在CVPR2023 WAD BDD100K MOTS Challenge中获得第一名。

然而，ReIDTrack的争议点在于：小样本跟踪是否应该完全摒弃运动信息，或是否应结合运动先验提高性能？一些研究者认为，运动信息对于长期跟踪至关重要，完全摒弃可能导致性能下降。

4.3 Transformer跟踪范式

Transformer跟踪范式在2023-2025年间的主要进展包括：

4.3.1 信息流优化

2024年，OIFTrack（Optimized Information Flow for Transformer Tracking）通过优化Transformer的信息流，阻断非目标token与目标模板token之间的交互，减少背景干扰并提高跟踪精度。

OIFTrack的关键创新在于其提出了四种信息流模型（A、B、C、D），分别阻断不同方向的token交互。实验结果表明，模型A（阻断Ex到Ez的交互）在GOT-10k数据集上取得了最优性能，AOSR0.5为71.4，AOSR0.75为80.6，AOSR为67.8。

然而，OIFTrack的争议点在于：信息流优化是否应该作为独立模块，还是应直接融入Transformer架构？一些研究者认为，信息流优化增加了模型复杂度，可能影响实时性能。

4.3.2 轻量化设计

2025年，SMAT（Separable Self and Mixed Attention Transformers for Efficient Object Tracking）提出分离式注意力机制，将Transformer部署为轻量级跟踪器。

SMAT的关键创新在于其backbone和head模块均采用了高效的注意力机制。backbone利用分离式混合注意力Transformer融合模板和搜索区域特征；head模块通过高效的自注意力块对编码特征进行全局上下文建模。这些设计使SMAT的参数量仅为3.8M，GPU速度达158 FPS，在GOT10k、TrackingNet等数据集上取得了显著优于相关轻量级跟踪器的性能。

然而，SMAT的争议点在于：轻量化设计是否会以牺牲跟踪精度为代价？一些研究表明，在极端压缩场景下（如参数量降至1%），Transformer的性能可能无法保持在SOTA水平。

4.3.3 端到端多目标跟踪

2023年，TransTrack（首次将Transformer应用于跟踪）、Trackformer（扩展DETR的跟踪方法）、MOTR（引入查询交互模块）等方法将Transformer应用于多目标跟踪任务。

这些方法的关键创新在于将目标检测与跟踪统一为端到端的Transformer框架，通过引入轨迹查询（Trajectory Queries）或跟踪查询（Track Queries）来建模目标轨迹。实验结果表明，这些方法在MOT17、MOT20等数据集上取得了显著优于传统多目标跟踪方法的性能。

然而，这些方法的争议点在于：Transformer是否需要同时负责检测与跟踪，或是否应专注于跟踪任务？GTR（Global Tracking Transformer）提出仅使用Transformer进行跟踪，先进行目标检测再将检测结果送入Transformer，这种方法虽然简单轻量，但性能仍不及同时负责检测与跟踪的SOTA方法。

5. 应用场景与挑战分析

5.1 视觉目标跟踪

视觉目标跟踪是目标跟踪领域最广泛研究的场景，主要挑战包括目标形变、复杂背景、遮挡和尺度变化等。2023-2025年间，视觉目标跟踪的主要进展包括：

单目标跟踪：OIFTrack（2024）通过信息流优化提高了对背景干扰的鲁棒性；SMAT（2025）通过轻量化设计实现了高效的端到端跟踪。
多目标跟踪：TransTrack（2023）、Trackformer（2023）等方法将Transformer应用于多目标跟踪任务，在MOT17、MOT20等数据集上取得了显著优于传统方法的性能。
自动驾驶场景：UVLTrack（2024）通过对比学习统一视觉与语言跟踪，扩展了传统单目标跟踪的应用场景；ReIDTrack（2023）通过外观嵌入关联对象，在CVPR2023 WAD BDD100K MOTS Challenge中获得第一名。

视觉目标跟踪领域的争议点主要集中在：Transformer是否应该完全取代CNN，或是否应采用CNN-Transformer混合架构。一些研究表明，混合架构在某些场景下表现优于纯Transformer架构。

5.2 雷达目标跟踪

雷达目标跟踪是航空航天、国防安全等领域的核心技术，主要挑战在于雷达点云的稀疏性、噪声干扰和多径反射等问题。2023-2025年间，雷达目标跟踪的主要进展包括：

连续轨迹建模：李天成团队的TSP模型将目标轨迹建模为连续时间的函数形式，能够在任意时间获得目标状态估计及其不确定性度量。
物理模型融合：一些研究将物理动力学模型与深度学习方法结合，例如PHYOT（Physics-INFORMED(OBJ跟踪）将动力学模型与Siamese网络结合，解决背景杂乱问题。
多模态融合：一些研究探索了雷达与视觉的多模态融合，如Barnes等人使用U-net风格CNN生成雷达扫描的掩码，抑制噪声和伪影。

雷达目标跟踪领域的争议点主要集中在：多模态数据对齐是否应该作为独立模块处理，还是应直接融入跟踪模型。目前尚无统一结论，端到端方法在计算效率上更具优势，但手工对齐方法在精度上表现更好。

5.3 多模态融合跟踪

多模态融合跟踪结合了视觉、雷达等多种传感器的信息，以提高复杂环境下的跟踪性能。2023-2025年间，多模态融合跟踪的主要进展包括：

端到端多模态跟踪：一些研究提出了端到端的多模态跟踪框架，如UVLTrack（2024）通过对比学习统一视觉与语言跟踪。
物理模型与深度学习结合：李天成团队的TSP模型（2025）将物理模型与深度学习结合，提高了复杂机动目标与量测噪声存在长时序相关性的场景下的跟踪性能。
轻量化多模态模型：一些研究探索了轻量级的多模态跟踪模型，如SMAT（2025）通过分离式注意力机制实现了高效的端到端跟踪。

多模态融合跟踪领域的争议点主要集中在：多模态跟踪是否应该作为独立任务研究，还是应与单模态跟踪深度融合。一些研究者认为，多模态跟踪引入了额外的计算开销和复杂度，可能不适合资源受限的场景。

6. 研究局限性与争议分析

6.1 判别式跟踪范式的局限性

判别式跟踪范式在2023-2025年间面临的主要局限性包括：

对背景干扰敏感：传统DCF方法对背景干扰敏感，难以在复杂场景下保持稳定跟踪。尽管CFNet等方法通过在线更新策略提高了鲁棒性，但仍存在背景干扰导致跟踪漂移的问题。
长时序相关性建模不足：判别式跟踪方法难以直接建模目标与量测噪声在时间上的长时序相关性，而这是以气动力学驱动目标为代表的战略目标的关键特征之一。
对抗训练的计算开销：VITAL等方法通过对抗训练提高了对背景干扰的鲁棒性，但其对抗训练过程增加了训练复杂度，且在某些场景下仍存在跟踪漂移问题。

6.2 孪生网络跟踪范式的争议

孪生网络跟踪范式在2023-2025年间引发的主要争议包括：

锚点机制的必要性：AFSN等锚点自由方法简化了跟踪管道并提高了计算效率，但争议在于锚点机制是否在某些特定场景下仍不可替代。例如，当目标尺度变化极大时，锚点机制可能提供更稳定的预测。
多模态融合的价值：UVLTrack等多模态方法扩展了传统单目标跟踪的应用场景，但争议在于多模态跟踪是否应该作为独立任务研究，还是应与单模态跟踪深度融合。一些研究者认为，多模态跟踪引入了额外的计算开销和复杂度，可能不适合资源受限的场景。
小样本学习的可行性：ReIDTrack等小样本方法降低了数据获取成本，但争议在于小样本跟踪是否应该完全摒弃运动信息，或是否应结合运动先验提高性能。一些研究者认为，运动信息对于长期跟踪至关重要，完全摒弃可能导致性能下降。

6.3 Transformer跟踪范式的挑战

Transformer跟踪范式在2023-2025年间面临的主要挑战包括：

计算效率瓶颈：纯Transformer架构计算复杂度高，在资源受限设备上难以实时部署。尽管SMAT等轻量化方法通过分离式注意力机制提高了效率，但争议在于轻量化设计是否会以牺牲跟踪精度为代价。一些研究表明，在极端压缩场景下（如参数量降至1%），Transformer的性能可能无法保持在SOTA水平。
信息流优化的平衡：OIFTrack等方法通过优化信息流提高了跟踪精度，但争议在于信息流优化是否应该作为独立模块，还是应直接融入Transformer架构。一些研究者认为，信息流优化增加了模型复杂度，可能影响实时性能。
端到端多目标跟踪的权衡：TransTrack等方法将Transformer应用于多目标跟踪任务，但争议在于Transformer是否需要同时负责检测与跟踪，或是否应专注于跟踪任务。GTR提出仅使用Transformer进行跟踪，先进行目标检测再将检测结果送入Transformer，这种方法虽然简单轻量，但性能仍不及同时负责检测与跟踪的SOTA方法。

7. 未来研究方向与展望

基于对2023-2025年目标跟踪领域英文文献的系统分析，我们展望以下未来研究方向：

7.1 动态稀疏注意力机制

动态稀疏注意力机制是解决Transformer计算效率瓶颈的重要方向。未来研究可探索如何根据目标与背景的动态关系，自适应地选择注意力头和token，减少不必要的计算。例如，SMAT等轻量化方法已通过分离式注意力机制减少了计算量，但动态稀疏注意力机制可能进一步提升效率。

7.2 端到端多模态对齐网络

端到端多模态对齐网络是解决雷达与视觉时空错位问题的关键技术。未来研究可探索如何设计统一的多模态特征空间，直接对齐不同传感器的数据，无需手工预处理。例如，UVLTrack通过对比学习统一视觉与语言跟踪，类似的思路可应用于雷达-视觉多模态对齐。

7.3 物理先验嵌入

物理先验嵌入是提升目标跟踪长时序相关性建模能力的重要途径。未来研究可探索如何将物理模型（如动力学模型、运动学模型）与深度学习方法结合，提高复杂场景下的跟踪性能。例如，李天成团队的TSP模型已将物理模型与深度学习结合，提高了复杂机动目标与量测噪声存在长时序相关性的场景下的跟踪性能。

7.4 小样本目标跟踪

小样本目标跟踪是解决标注数据稀缺问题的重要方向。未来研究可探索如何结合元学习、知识蒸馏等技术，减少对标注数据的依赖。例如，ReIDTrack通过外观嵌入关联对象，无需运动信息即可实现目标跟踪，降低了数据获取成本。

7.5 主动跟踪与交互

主动跟踪与交互是目标跟踪领域的新前沿。未来研究可探索如何使跟踪器能够主动控制传感器（如无人机）的运动，以维持目标可见性。例如，2022年Zhao等人采用SAC算法控制无人机速度，奖励函数融合相对距离、动作方向与终止条件三维度，实现100%成功跟踪率。

7.6 边缘设备部署

边缘设备部署是目标跟踪技术实用化的重要挑战。未来研究可探索如何设计高效的轻量级模型，使其能够在移动设备、嵌入式系统等资源受限环境中实时运行。例如，SMAT参数量仅3.8M，GPU速度达158 FPS，为边缘部署提供了可能。

8. 结论

本文对2023-2025年间目标跟踪领域的英文文献进行了系统性综述，发现目标跟踪技术呈现出三大范式并行发展的格局：判别式跟踪、孪生网络跟踪和Transformer跟踪。判别式跟踪通过深度学习与在线更新策略融合，提高了对目标外观变化的适应能力；孪生网络跟踪通过锚点自由设计和多模态特征融合，简化了跟踪管道并扩展了应用场景；Transformer跟踪通过信息流优化和轻量化设计，提升了全局特征建模能力并降低了计算复杂度。

研究还揭示了目标跟踪领域的三大争议点：判别式方法是否仍需手工特征、Transformer架构的参数效率瓶颈、以及多模态数据对齐的计算开销问题。这些争议反映了目标跟踪技术发展的关键挑战，也为未来研究提供了方向。

最后，本文展望了未来研究方向，包括动态稀疏注意力机制、端到端多模态对齐网络、物理先验嵌入、小样本目标跟踪、主动跟踪与交互以及边缘设备部署等。这些方向有望进一步推动目标跟踪技术的发展，使其在更多应用场景中发挥重要作用。

参考文献

T. Li, J. Wang, G. Li and D. Gao, "From Target Tracking to Targeting Track --- Part III: Stochastic Process Modeling and Online Learning," IEEE Transactions on Signal Processing, vol. 73, pp. 5336-5347, 2025.
C. Zhang, C. Zhang, Y. Guo and L. Chen, "MotionTrack: End-to-End Transformer-based Multi-object Tracking with LiDAR-Camera Fusion," arXiv:2301.00001, 2023.
X. Chen, H. Peng, D. Wang, H. Lu and H. Hu, "SeqTrack: Sequence to Sequence Learning for Visual Object Tracking," CVPR, 2023.
Z. Cai and N. Vasconcelos, "Cascade R-CNN: High Quality Object Detection and Instance Segmentation," IEEE TPAMI, 2019.
L. Bertinetto, J. Valmadre, J. F. Henriques, B. Flerova and P. H. S. Torr, "Fully-convolutional Siamese Networks for Object Tracking," CVPR, 2016.
F. Aghaee Meibodi, S. Alijania and H. Najjaran, "A Deep Dive into Generic Object Tracking: A Survey," arXiv:2507.23251, 2025.
M. Ren, Y. Wang, H. Wang and Y. Q. Zhang, "Collaborative Deep Reinforcement Learning for Multi-Target Tracking," ECCV, 2018.