FC-Track:面向在线多目标跟踪的重叠感知后关联校正

摘要

可靠的多目标跟踪(MOT)对于在复杂动态环境中运行的机器人系统至关重要。尽管检测和关联技术取得了最新进展,但在线MOT方法仍然容易受到频繁遮挡和目标重叠引起的身份切换(ID switches)的影响,错误的关联会随时间传播并降低跟踪的可靠性。我们提出了一种用于在线MOT的轻量级后关联校正框架(FC-Track),该框架在推理过程中明确针对由重叠引起的错配。所提出的方法使用基于交集与区域面积比(IoA)的过滤策略,在高重叠条件下抑制不可靠的外观更新,并通过重叠轨迹片段对内的外观相似度比较,局部校正检测与轨迹片段之间的错配。通过防止短期错配传播,我们的框架有效地缓解了长期身份切换问题,而无需诉诸全局优化或重识别。该框架在线运行,无需全局优化或重识别,非常适合实时机器人应用。

我们在MOT17测试集上实现了 81.73 MOTA82.81 IDF166.95 HOTA ,运行速度为 5.7 FPS;在MOT20测试集上实现了 77.52 MOTA80.90 IDF165.67 HOTA ,运行速度为 0.6 FPS。具体而言,我们的框架FC-Track产生的长期身份切换比例仅为 29.55%,远低于现有的在线跟踪器。同时,我们的框架在MOT20基准测试中保持了最先进的性能。


I. 引言

近年来,机器人操作的进展将机器人的操作范围从高度受控的环境扩展到了更多样化、非结构化的真实世界场景1-5。在物流自动化、医疗辅助、农业作业和家政服务等工况下,机器人需要以可靠且及时的方式感知并与周围多个物体进行交互。有效的任务执行依赖于对物体类别和空间配置的准确理解,这直接为下游的运动规划和控制提供信息。基于视觉的感知,尤其是摄像头传感,由于其信息丰富、灵活且易于部署,已成为环境理解的主要模态。随着机器人承担越来越复杂的任务,同时实时检测和跟踪多个物体的能力变得不可或缺。在这种背景下,多目标跟踪(MOT)作为核心感知组件,能够在整个任务执行过程中实现一致的物体级推理。

图 1. MOT17验证集上的结果样本。TrackTrack和我们提出的FC-Track使用相同的检测结果。为了清晰起见,我们仅展示了一个代表性示例。在第三帧中,当目标与另一个目标人物重叠时,TrackTrack出现了ID切换,而我们的FC-Track在整个遮挡过程中保持了一致的跟踪。

MOT旨在检测并识别视频流或图像序列中的多个物体,这已经使视频分析、自动驾驶和人类活动识别等应用受益。近年来,MOT方法学见证了快速的进展6-9。端到端方法将MOT问题作为单一网络中的物体检测和重识别(re-ID)来解决。由于在该框架中,物体检测和重识别过程的所有特征都在单一网络中共享,因此推理时间得以减少。然而,由于跟踪鲁棒性相对有限,大多数最先进的方法遵循"基于检测的跟踪"(TBD)范式。在该框架中,首先检测每一帧中的物体,然后将其与前一帧的现有轨迹片段关联,或用于初始化新的轨迹片段。具体而言,关联过程通过多种相似度度量(如交并比IoU和重识别相似度)进行处理。

尽管在检测精度和关联建模方面取得了显著进展,但在实际MOT系统中,数据关联仍然是一个重大挑战,尤其是在拥挤场景中频繁出现遮挡和物体重叠的情况。在这种条件下,即使是最先进的跟踪器也难免会出现错误匹配。更严重的是,一旦发生错配关联,由此产生的身份错误往往会传播到后续帧,导致长期的身份切换并严重降低轨迹质量。这种误差累积现象揭示了现有许多在线MOT系统在实际应用中的根本局限性。

大多数现有方法试图通过更具判别力的外观表示、复杂的运动模型或全局优化策略来提高关联精度,从而缓解这一问题。虽然这些方法在一定程度上是有效的,但这些方法通常将关联决策视为一旦做出便不可逆转。尽管离线或批处理优化方法可能会修正历史关联,但它们通常与机器人和其他在线应用所需的实时约束不兼容。因此,在当前MOT流水线中,关联误差的在线校正问题仍未得到充分探索。

在这项工作中,我们认为鲁棒的多目标跟踪不仅应致力于避免关联误差,还应具备在在线推理过程中识别和纠正错配的能力。受此启发,我们提出了一种名为 FC-Track 的实时后关联校正框架,该框架在匹配阶段之后持续优化跟踪结果。我们的方法不是重新设计关联模块,而是作为一种轻量级的校正机制,检测潜在的匹配误差------特别是那些由重叠边界框引起的误差------并在它们进一步随时间传播之前进行纠正。这种设计使跟踪器能够从短期错误中恢复,同时保持实时性能。我们将提出的框架FC-Track集成到标准的在线MOT流水线中,并在MOT1710和MOT2011上评估其有效性。实验结果表明,我们的方法在具有挑战性的场景中提高了身份一致性和跟踪鲁棒性,尤其是在频繁重叠和遮挡的情况下,且计算开销极小。这些结果表明,在线误差校正是构建更可靠MOT系统的必要且互补的组件。

本工作的主要贡献可总结如下:

  1. 我们引入了一种新颖且鲁棒的在线多目标跟踪后关联校正框架,该框架明确针对由重叠引起的关联误差,并在不重新设计底层关联模块的情况下有效缓解长期身份切换。
  2. 我们提出了一种基于轨迹片段边界框交集与区域面积比(IoA)和局部外观相似度比较的重叠感知校正机制,能够在严重遮挡和空间重叠下可靠地识别和重新分配错配的检测。
  3. 我们在公开数据集MOT17和MOT20上证明了我们方法的有效性和鲁棒性,展示了在各种拥挤场景下身份一致性和跟踪鲁棒性的持续改善。

II. 相关工作

A. 基于检测的跟踪 (Tracking-by-Detection)

基于检测的跟踪已成为现代多目标跟踪的主流范式,这在很大程度上得益于物体检测性能的快速进步。在该框架中,首先独立检测每一帧中的物体,然后基于运动、外观或两者的结合跨帧关联检测以建立时间一致性。对于检测部分,Faster R-CNN12、SDP13和基于YOLO的网络等流行方法被广泛使用。跟踪部分是大多数现有工作的主要焦点。SORT14使用卡尔曼滤波跟踪目标边界框,并使用匈牙利算法进行关联。DeepSORT15通过引入离线学习的深度外观关联度量扩展了SORT,从而通过遮挡实现了更鲁棒的数据关联,并显著减少了身份切换。ByteTrack16通过基于YOLOX检测器关联高置信度和低置信度检测来改进多目标跟踪,从而减少漏检和轨迹碎片化,在多个MOT基准测试中实现了最先进的精度和鲁棒性。Seg2Track-SAM217将预训练检测器与SAM218及与检测器无关的Seg2Track模块集成,以实现零样本多目标跟踪和分割,实现了最先进的关联精度和鲁棒的身份管理,同时显著减少了内存使用。TrackTrack19引入了一种以轨迹为中心的在线多目标跟踪框架,采用基于轨迹视角的关联和轨迹感知初始化来更好地处理遮挡和分配歧义,在多个具有挑战性的MOT基准测试中取得了卓越的性能。

B. 遮挡感知跟踪 (Occlusion-aware Tracking)

遮挡是多目标跟踪中最持久的挑战之一,当目标重叠或暂时消失时,往往会导致模糊的关联和身份切换。为了解决这个问题,大量先前的工作致力于将遮挡感知纳入跟踪流水线。SMILEtrack8通过引入基于孪生网络的相似度学习模块(带有patch自注意力机制)以更好地区分外观相似的物体,并结合使用新颖GATE函数进行有效边界框关联的鲁棒跟踪框架,实现了最先进的多目标跟踪性能。Dong等人20提出了一种遮挡感知的在线视觉跟踪方法,通过使用两阶段集成循环结构核分类器和基于熵选择的分类器池来减轻模型漂移,从而在重度和长期遮挡下实现鲁棒且实时的跟踪。SiamON21通过引入孪生遮挡感知网络来解决视觉跟踪中的遮挡挑战,该网络利用预定义的软掩码和目标感知注意力机制,在有限的遮挡样本下学习鲁棒特征,在遮挡场景中实现了最先进且实时的性能。物体重叠在拥挤场景中更为普遍,可能会触发持续较长时间的ID切换,然而现有的跟踪流水线很少对这种误差传播进行建模或在发生后进行纠正。

C. 在线跟踪误差校正 (Online Tracking Error Correction)

虽然大多数在线MOT方法强调减少关联误差的发生率,但一些最近的方法明确考虑了误差发生后的校正。Unfctrack22通过利用未证伪控制(unfalsified control)对表观变化序列进行建模,并结合带有歧义感知关联策略的检测-校正模块,缓解了多目标跟踪中的身份切换,在遮挡和快速运动下展示了鲁棒的性能。Zou等人23提出了一种轻量级补偿跟踪器,通过将运动补偿和物体选择模块集成到现有的基于检测的跟踪框架中,以减轻由漏检引起的跟踪失败,从而在不增加额外网络或重新训练的情况下提高了鲁棒性并减少了身份切换。OC-SORT24通过采用以观测为中心的策略增强了基于卡尔曼滤波的多目标跟踪,该策略使用检测器测量值在遮挡期间构建虚拟轨迹,有效纠正了误差累积并提高了对遮挡和非线性运动的鲁棒性,同时保持了实时性能。与依赖全局重关联来从错误中恢复的先前方法不同,我们的方法在在线跟踪循环内执行局部且即时的校正。


III. 方法

我们提出了一种通用且有效的在线多目标跟踪关联校正框架,称为 FC-Track。与先前主要依赖运动一致性或瞬时外观匹配的工作不同,我们的方法明确针对由严重空间重叠引起的关联误差,在这种情况下,运动线索和外观相似度都变得不可靠。FC-Track专注于检测和校正在重叠事件发生后出现的身份切换,以便在物体变得更具区分度时恢复正确的身份。提出的校正模块在关联阶段之后运行,不改变检测器或运动模型。

图 2. 提出的后关联校正框架FC-Track的系统概述。给定帧 fff 处匹配的轨迹片段-检测对,首先使用从帧 f−1f-1f−1 继承的重叠状态将关联分为重叠组和非重叠组。非重叠对被直接接受,而重叠对则通过使用存储的特征和当前检测外观特征进行外观相似度比较来重新评估。校正后的匹配合并以产生最终跟踪结果。然后计算所有轨迹片段的IoA以保存为重叠状态,并更新外观特征以供下一帧使用,从而实现时间一致性和在线误差校正。

具体而言,我们首先过滤上一帧中重叠的边界框轨迹片段对,并保存每个非重叠轨迹片段的外观特征。这一步的动机在于,大多数检测与轨迹片段的错配发生在严重重叠的跟踪边界框之间,在这种情况下,传统的基于运动的关联通常会失败,并且在重叠期间竞争轨迹片段之间的外观相似度几乎无法区分。然后,对于上一帧中的每个重叠轨迹片段对,我们比较初始匹配检测与重叠轨迹片段对中两个轨迹片段保存的外观特征之间的外观相似度距离,并将检测结果重新分配给正确的轨迹片段。

A. 重叠感知的外观特征过滤

为了防止严重物体重叠引起的不可靠外观特征破坏身份表示,我们引入了一种重叠感知的外观特征过滤策略,该策略在轨迹片段级别选择性地抑制高重叠条件下的特征更新和重叠轨迹片段对。

在每一帧跟踪过程结束时,我们计算所有轨迹片段边界框对之间的交集与区域面积比(IoA),以获得成对关系矩阵,其中每个条目代表两个轨迹片段之间的IoA值。除了对应于自比较的对角线元素外,每个轨迹片段与矩阵中的所有其他轨迹片段形成一对一的对应关系。

图 3. 交集与区域面积比(IoA)的概念。重叠的绿色区域代表两个边界框之间的交集,而IoA计算为交集面积与参考边界框面积的比率。由于任一框都可以作为参考,因此对于一对框可以获得两个IoA值。

对于包含IoA值超过更新IoA阈值 τupdate\tau_{update}τupdate 的轨迹片段,我们暂停外观特征更新,并保留从上一个非重叠帧提取的特征或初始外观特征,从而避免由遮挡引起的观测导致的外观特征交叉污染。其他轨迹片段的外观特征则正常更新和存储。当一个轨迹片段对另一个轨迹片段的IoA超过预定义的重叠IoA阈值 τoverlap\tau_{overlap}τoverlap 时,我们形成一个重叠轨迹片段对,其中前一个轨迹片段被视为主元素(prime element) ,相应的后一个轨迹片段被分配为辅助元素(auxiliary element)。主元素和辅助元素的分配是根据方向性IoA关系决定的,其中其边界框面积用作IoA计算分母的轨迹片段被视为主元素。这种非对称定义确保了每个重叠对的一致且确定性的角色分配。这种主-辅关系被保留,因为主轨迹片段用作在后续重新分配阶段检索初始分配检测的键,利用了每个匹配检测与其关联轨迹片段之间的一对一对应关系。对于当前帧中新初始化的轨迹片段,其外观特征被保存为初始身份表示。

B. 错配重分配

为了校正检测与轨迹片段的错配,我们引入了一种错配重分配策略,该策略明确针对在线推理期间的短期关联误差。与全局重关联或重识别方法不同,我们的策略仅在严格条件下局部校正检测与轨迹片段的错配。

对于上一帧中的每个重叠轨迹片段对,我们首先使用主轨迹片段作为索引键,从当前帧的初始关联结果中检索相应的检测与轨迹片段匹配。基于此匹配的检测,我们计算两个外观相似度得分:主相似度距离 (定义为检测与主轨迹片段之间的相似度距离)和辅助相似度距离(定义为检测与重叠对内辅助轨迹片段之间的相似度距离)。

如果主相似度距离大于预定义的最小校正相似度距离阈值 τmin\tau_{min}τmin,并且辅助相似度距离小于主相似度距离且差值大于相似度距离差值阈值 τdif\tau_{dif}τdif,我们将此情况识别为错配,并将辅助轨迹片段重新分配给该检测。因此,主轨迹片段被移动到未匹配轨迹片段集合,分配的检测被移动到匹配检测集合,而辅助轨迹片段被设置包含在匹配轨迹片段集合中,最初分配给辅助轨迹片段的检测被移动到未匹配检测集合。这种设计防止了短期错配传播成长时间的身份切换。

考虑到在线MOT中两阶段匹配策略日益普及,以及所选演示跟踪器的两阶段关联设计,我们将提出的错配重分配策略集成到每个关联阶段,以确保在整个跟踪过程中进行一致的校正。

算法 1:FC-Track 伪代码
python 复制代码
Data: 当前帧 f; 当前帧检测 D_f; 上一帧轨迹片段 T_{f-1}; 
      存储的轨迹片段外观特征 F_trk; 检测外观特征 F_det; 
      重叠轨迹片段对 P
Input: 检测与轨迹片段匹配 M={(d, t) | d ∈ D_f, t ∈ T_{f-1}}; 
       更新IoA阈值 τ_update; 重叠IoA阈值 τ_overlap; 
       最小校正相似度阈值 τ_min; 校正相似度差值阈值 τ_dif; 
Output: 校正后的检测与轨迹片段匹配 M_corr

1  初始化: P ← ∅, F_det = {d_f.feature | d_f ∈ D_f}
2  I = [IoA(t_pri, t_aux) | t_pri, t_aux ∈ T_{f-1}; pri ≠ aux]
3  for i in I do
4      if i < τ_update then
5          从 t_pri 更新 F_trk[t_pri]
6          从 t_aux 更新 F_trk[t_aux]
7      end
8      if i ≥ τ_overlap then
9          P ← (t_pri, t_aux)
10     end
11 end
12 for m=(d_f, t_{f-1}) in M do
13     if t_{f-1} in P.t_pri then
14         (t_pri, t_aux) ← P[t_{f-1}]
15         S_pri ← Distance(F_det[d_f], F_trk[t_pri])
16         S_aux ← Distance(F_det[d_f], F_trk[t_aux])
17         if S_pri >= τ_min and S_pri - S_aux >= τ_dif then
18             m ← (d_f, t_aux)
19         end
20     end
     /* 存储新外观特征 */
21     if t_{f-1} not in F_trk then
22         创建 F_trk[t_{f-1}] ← t_{f-1}
23     end
24     M_corr ← m
25 end

IV. 实验

A. 数据集与评估指标

我们在2个数据集上评估了提出的方法:MOT1710和MOT2011。MOT17训练数据集被分为训练半集和验证半集。MOT17数据集用于测试单类多目标跟踪性能,MOT20则专注于具有高密度人群的更复杂环境。使用CLEAR25、IDF126和HOTA27指标来评估整体跟踪精度。

B. 实现细节

所有评估均在单块 NVIDIA Geforce RTX3090 GPU 和 Intel Core i9-12900k CPU 上实现。除消融实验外,所有阈值设置如下:更新IoA阈值 τupdate\tau_{update}τupdate 设为 0.3,重叠IoA阈值 τoverlap\tau_{overlap}τoverlap 设为 0.8,最小校正相似度距离阈值 τmin\tau_{min}τmin 设为 0.8,相似度距离差值阈值 τdif\tau_{dif}τdif 设为 0.4,相似度方法使用余弦距离。

C. 结果

我们将FC-Track与现有的在线最先进跟踪器在MOT17和MOT20基准测试上进行了比较。结果分别总结在表I和表II中。我们论文中报告的基线TrackTrack的结果是通过运行官方发布的实现并将输出提交到MOT基准服务器获得的。

MOT17: 如表I所示,我们提出的方法FC-Track实现了 66.95 的HOTA得分,与当前最先进的方法具有竞争力,并优于基线的 66.94。我们的方法实现了 82.81 的IDF1得分,优于大多数现有方法。在MOTA方面,我们的方法获得了 81.73,展示了在这两个方面的均衡改进。尽管ID切换数量为 837,与其他在线跟踪器相当,但我们的方法保持了 67.81 的强关联精度(AssA)。这些结果表明我们的方法在检测精度和身份保持方面实现了均衡的性能。

MOT20: 在MOT20数据集上,我们提出的方法FC-Track实现了 65.67 的HOTA得分,优于基线结果 65.61。我们还观察到IDF1 80.90 的一致改进和具有竞争力的MOTA 77.52,展示了在拥挤场景中的鲁棒性。ID切换数量为 719,AssA得分 67.48 进一步表明了严重遮挡和频繁交互下可靠的关联质量。

表 I:MOT17 测试集在线结果对比
跟踪器 HOTA↑ MOTA↑ IDF1↑ AssA↑ IDs↓ FPS↑
MeMOTR 58.83 72.84 71.53 58.37 1902 29.6
MOTR 62.01 78.59 74.95 60.64 2619 7.5
ByteTrack 63.05 80.25 77.30 61.98 2196 29.6
OC-SORT 63.16 78.00 77.50 63.40 1950 29.0
BUSCA 63.92 78.63 79.20 64.25 1425 35.7
UTM 64.04 81.78 78.70 62.54 1431 13.1
Deep OC-SORT 64.88 79.37 80.58 65.93 1023 28.1
BoT-SORT 65.05 80.55 80.23 65.49 1212 6.8
MotionTrack 65.09 81.11 80.09 65.10 1140 15.7
RBO-TRACK 65.25 79.49 81.89 66.42 1881 16.0
UCMCTrack 65.73 80.62 80.95 66.42 1689 157.1
TrackTrack 66.94 81.71 82.78 66.80 837 5.9
FC-Track (Ours) 66.95 81.73 82.81 67.81 837 5.7
表 II:MOT20 测试集在线结果对比
跟踪器 HOTA↑ MOTA↑ IDF1↑ AssA↑ IDs↓ FPS↑
ByteTrack 61.34 77.76 75.21 59.56 1223 17.5
OC-SORT 62.36 75.67 76.32 62.47 942 5.1
UTM 62.47 78.22 76.86 61.41 1228 6.2
UCMCTrack 62.81 75.61 77.38 63.46 1335 44.8
MotionTrack 62.77 77.98 76.50 61.81 1165 9.0
FineTrack 63.93 76.96 78.86 64.76 1142 9.0
SUSHI 64.33 74.29 79.80 67.47 706 5.3
TrackTrack 65.61 77.52 80.82 67.35 719 0.7
FC-Track (Ours) 65.67 77.52 80.90 67.48 719 0.6

D. ID切换持续时间分析

虽然ID切换通常用于评估身份稳定性,但它们并不能反映身份误差发生后持续的时间。在本实验中,我们额外分析了现有多目标跟踪器中ID切换的时间持续时间,以研究身份误差是倾向于短暂存在还是长期存在。

对于每个切换事件,我们测量其持续时间,定义为跟踪器在恢复或终止之前保持与错误身份关联的连续帧数。基于这些持续时间,我们计算四个统计数据:切换总数(Count )、所有切换的平均持续帧数(Mean )、所有切换的中位持续帧数(Med. ),以及超过固定阈值 τlong\tau_{long}τlong 的长期切换占总切换的比例(Long Ratio )。该评估在MOT17数据集的验证集上进行。在本实验中,我们将长期比例阈值 τlong\tau_{long}τlong 设置为 10,遵循MOT17中所有帧率高达30 FPS的图像序列的常见做法。

与现有方法相比,我们的方法实现了始终更短的切换持续时间。具体而言,平均持续时间从先前跟踪器的 33.04 帧减少到 18.33,中位持续时间降至 3.0,表明在典型情况下身份误差得到了更快的纠正。此外,长期切换比例降低至 29.55%,明显低于所有比较方法,表明我们的方法有效地抑制了持续的身份漂移并缓解了长尾失败案例。

表 III:MOT17 验证集 ID 切换持续时间结果
跟踪器 Count↓ Mean↓ Med.↓ Long Ratio↓ IDTP↑ IDFP↓ IDFN↓
ByteTrack 201 33.04 11 50.25 40434 13456 6951
BoT-SORT 199 32.89 5 38.69 41757 12133 6137
TrackTrack 236 22.88 5 36.86 42144 11746 6927
FC-Track 308 18.33 3 29.55 42305 11585 6843

E. 消融实验

我们进行了一系列消融实验,以分析提出的框架中每个组件和设计选择的贡献。所有消融实验均在MOT17验证集上进行。

相似度度量: 我们首先评估校正中使用的不同相似度度量,包括余弦距离和欧几里得距离。如表IV所示,余弦距离实现了 69.67 的HOTA得分,欧几里得距离获得了 69.48,均优于基线结果 69.40。结果表明余弦距离提供了更可靠的身份判别。

表 IV:MOT17 验证集相似度消融实验结果
相似度度量 HOTA↑ MOTA↑ IDF1↑ AssA↑ IDs↓
Baseline 69.40 76.57 81.86 73.57 400
欧几里得距离 69.48 76.49 81.90 73.71 400
余弦距离 69.67 76.60 82.12 74.08 398

匹配阶段: 接下来我们研究在跟踪流水线中的何处插入提出的校正模块。结果显示,在第一阶段应用该模块提高了性能,实现了 69.67 的HOTA得分,而仅在第二阶段插入则没有明显变化(69.40)。这种行为可以通过每个阶段的作用来解释:第一阶段处理高置信度关联,早期校正可以有效防止身份漂移,而第二阶段主要处理低置信度或模糊匹配,因此校正模块的影响有限。

表 V:MOT17 验证集匹配阶段消融实验结果
阶段 1 阶段 2 HOTA↑ MOTA↑ IDF1↑ AssA↑ IDs↓
# # 69.40 76.57 81.86 73.57 400
! # 69.67 76.60 82.12 74.08 398
# ! 69.40 76.57 81.86 73.57 400
! ! 69.67 76.60 82.12 74.08 398

阈值敏感性: 最后,我们分析了该方法对四个关键阈值的敏感性:更新IoA阈值 τupdate\tau_{update}τupdate、重叠IoA阈值 τoverlap\tau_{overlap}τoverlap、最小校正相似度距离阈值 τmin\tau_{min}τmin 和相似度距离差值阈值 τdif\tau_{dif}τdif。两张图提供了此分析。图4显示了在将 τupdate\tau_{update}τupdate 设为 0.3 且 τoverlap\tau_{overlap}τoverlap 设为 0.8 的情况下,变化两个相似度阈值的结果。图5显示了在将 τmin\tau_{min}τmin 设为 0.8 且 τdif\tau_{dif}τdif 设为 0.4 的情况下,变化两个IoA阈值的结果。两张图均表明,尽管在某些单独的阈值值下性能可能会下降,但在广泛的设置中,整体趋势始终优于基线,证明了所提出方法对阈值选择的鲁棒性。

图 4. FC-Track 在不同最小校正相似度距离阈值 τmin\tau_{min}τmin 和相似度距离差值阈值 τdif\tau_{dif}τdif 下的性能比较。结果在MOT17验证集上评估。

图 5. FC-Track 在不同更新IoA阈值 τupdate\tau_{update}τupdate 和重叠IoA阈值 τoverlap\tau_{overlap}τoverlap 下的性能比较。结果在MOT17验证集上评估。


V. 结论

在本文中,我们提出了一种用于在线多目标跟踪的轻量级后关联校正框架 FC-Track,该框架明确解决了由检测目标重叠引起的身份切换问题。通过抑制重叠条件下的不可靠外观更新并引入针对错配轨迹片段的局部校正机制,所提出的方法有效地防止了短期关联误差传播成长期的身份漂移。在MOT17和MOT20上的大量实验表明,我们的方法在保持标准指标和实时效率的竞争性表现的同时,持续提高了整体跟踪质量。

我们的方法FC-Track首先在MOT17和MOT20上展示了明显的增益,在MOT17测试集上实现了 81.73 MOTA、82.81 IDF1 和 66.95 HOTA,运行速度为 5.7 FPS;在MOT20测试集上实现了 77.52 MOTA、80.90 IDF1 和 65.67 HOTA,运行速度为 0.6 FPS。此外,我们的分析表明,提出的框架显著缩短了MOT17验证集上身份切换的持续时间。具体而言,平均持续时间从 22.88 减少到 18.33,中位数从 5 降至 3,长期切换比例从 36.86% 降至 29.55%。

这些发现表明,时间身份稳定性得到了增强,而不仅仅是减少了切换频率。这一特性对于现实世界的机器人应用尤为重要,因为持续的身份误差会严重影响下游决策。总体而言,结果表明,显式建模重叠引起的歧义是提高在线MOT系统鲁棒性的一个实用且有效的方向,而无需引入额外的计算开销或复杂的全局优化。此外,由于提出的框架作为轻量级后关联模块运行,它可以很容易地与更快或实时的跟踪器集成,从而能够在实时机器人应用中部署。


参考文献

1 T. Oka, N. Komura, and A. Namiki, "Ball juggling robot system controlled by high-speed vision," in 2017 IEEE International Conference on Cyborg and Bionic Systems (CBS) . IEEE, 2017, pp. 91--96.

2 M. Sato, A. Takahashi, and A. Namiki, "High-speed catching by multi-vision robot hand," in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) . IEEE, 2020, pp. 9131--9136.

3 Z. Zhao, H. Mineshita, and H.-o. Lim, "Development of a voice information presentation guidance system (vipgs) using coanda-drone-v2," IEEJ Transactions on Electrical and Electronic Engineering , vol. 20, no. 6, pp. 862--875, 2025.

4 Y. Zhao, L. Gong, Y. Huang, and C. Liu, "A review of key techniques of vision-based control for harvesting robot," Computers and Electronics in Agriculture , vol. 127, pp. 311--323, 2016.

5 H. Cao, G. J. Pappas, and N. Atanasov, "Pkf: Probabilistic data association kalman filter for multi-object tracking," IEEE Robotics and Automation Letters , vol. 10, no. 11, pp. 11 506--11 513, 2025.

6 Q. Chu, W. Ouyang, H. Li, X. Wang, B. Liu, and N. Yu, "Online Multi-object Tracking Using CNN-Based Single Object Tracker with Spatial-Temporal Attention Mechanism," in 2017 IEEE International Conference on Computer Vision (ICCV) . Venice: IEEE, Oct. 2017, pp. 4846--4855.

7 Y. Zhang, C. Wang, X. Wang, W. Zeng, and W. Liu, "FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking," International Journal of Computer Vision , vol. 129, no. 11, pp. 3069--3088, Nov. 2021.

8 Y.-H. Wang, J.-W. Hsieh, P.-Y. Chen, M.-C. Chang, H. H. So, and X. Li, "SMILEtrack: SiMIlarity LEarning for Occlusion-Aware Multiple Object Tracking," Jan. 2024.

9 C. A. Holz, C. Bader, M. Enzweiler, and M. Drüppel, "Data-Driven Object Tracking: Integrating Modular Neural Networks into a Kalman Framework," Apr. 2025.

10 A. Milan, L. Leal-Taixé, I. Reid, S. Roth, and K. Schindler, "Mot16: A benchmark for multi-object tracking," arXiv preprint arXiv:1603.00831 , 2016.

11 P. Dendorfer, H. Rezatofighi, A. Milan, J. Shi, D. Cremers, I. Reid, S. Roth, K. Schindler, and L. Leal-Taixé, "Mot20: A benchmark for multi object tracking in crowded scenes," 2020. Online. Available: https://arxiv.org/abs/2003.09003

12 S. Ren, K. He, R. B. Girshick, and J. Sun, "Faster R-CNN: towards real-time object detection with region proposal networks," CoRR , vol. abs/1506.01497, 2015.

13 F. Yang, W. Choi, and Y. Lin, "Exploit all the layers: Fast and accurate cnn object detector with scale dependent pooling and cascaded rejection classifiers," in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , 2016, pp. 2129--2137.

14 A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft, "Simple online and realtime tracking," in 2016 IEEE International Conference on Image Processing (ICIP) , 2016, pp. 3464--3468.

15 N. Wojke, A. Bewley, and D. Paulus, "Simple online and realtime tracking with a deep association metric," in 2017 IEEE international conference on image processing (ICIP) . IEEE, 2017, pp. 3645--3649.

16 Y. Zhang, P. Sun, Y. Jiang, D. Yu, F. Weng, Z. Yuan, P. Luo, W. Liu, and X. Wang, "Bytetrack: Multi-object tracking by associating every detection box," 2022. Online. Available: https://arxiv.org/abs/2110.06864

17 D. Mendonça, T. Barros, C. Premebida, and U. J. Nunes, "Seg2track-sam2: Sam2-based multi-object tracking and segmentation for zero-shot generalization," arXiv preprint arXiv:2509.11772 , 2025.

18 N. Ravi, V. Gabeur, Y.-T. Hu, R. Hu, C. Ryali, T. Ma, H. Khedr, R. Rädle, C. Rolland, L. Gustafson et al., "Sam 2: Segment anything in images and videos," arXiv preprint arXiv:2408.00714 , 2024.

19 K. Shim, K. Ko, Y. Yang, and C. Kim, "Focusing on tracks for online multi-object tracking," in Proceedings of the Computer Vision and Pattern Recognition Conference , 2025, pp. 11 687--11 696.

20 X. Dong, J. Shen, D. Yu, W. Wang, J. Liu, and H. Huang, "Occlusion-aware real-time object tracking," IEEE Transactions on Multimedia , vol. 19, no. 4, pp. 763--771, 2017.

21 C. Fan, H. Yu, Y. Huang, C. Shan, L. Wang, and C. Li, "SiamON: Siamese occlusion-aware network for visual tracking," IEEE Transactions on Circuits and Systems for Video Technology , vol. 33, no. 1, pp. 186--199, 2023.

22 Z. Wu, J. Zheng, X. Ren, F.-A. Vasluianu, C. Ma, D. P. Paudel, L. Van Gool, and R. Timofte, "Single-model and any-modality for video object tracking," in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition , 2024, pp. 19 156--19 166.

23 Z. Zou, J. Huang, and P. Luo, "Compensation tracker: Reprocessing lost object for multi-object tracking," in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision , 2022, pp. 307--317.

24 J. Cao, J. Pang, X. Weng, R. Khirodkar, and K. Kitani, "Observation-centric sort: Rethinking sort for robust multi-object tracking," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2023, pp. 9686--9696.

25 K. Bernardin and R. Stiefelhagen, "Evaluating multiple object tracking performance: the clear mot metrics," EURASIP Journal on Image and Video Processing , vol. 2008, no. 1, p. 246309, 2008.

26 E. Ristani, F. Solera, R. Zou, R. Cucchiara, and C. Tomasi, "Performance measures and a data set for multi-target, multi-camera tracking," in European conference on computer vision . Springer, 2016, pp. 17--35.

27 J. Luiten, A. Osep, P. Dendorfer, P. Torr, A. Geiger, L. Leal-Taixé, and B. Leibe, "Hota: A higher order metric for evaluating multi-object tracking," International journal of computer vision, vol. 129, no. 2, pp. 548--578, 2021.