遮挡感知 SORT：通过观测遮挡实现鲁棒的多目标跟踪

作者： 李春江1^11，马建波2^22，沈立1^11，陈彦儒1∗^{1*}1∗，陈良音1^11
单位： 1^11四川大学计算机学院，中国成都；2^22中国科学院光电技术研究所，中国成都
邮箱： lichunjiang@stu.scu.edu.cn, {chenyanru, chenliangyin}@scu.edu.cn

链接：https://arxiv.org/pdf/2603.06034

摘要

多目标跟踪（MOT）涉及分析视频序列中的物体轨迹并统计物体数量。然而，由于部分遮挡引起的位置代价混淆，2D MOT 面临挑战。为了解决这个问题，我们提出了一种新颖的遮挡感知 SORT（OA-SORT）框架。这是一个即插即用且无需训练的框架，包含遮挡感知模块（OAM） 、遮挡感知偏移（OAO）和偏差感知动量（BAM） 。具体而言，OAM 分析物体的遮挡状态，其中引入了高斯图（GM）以减少背景影响。相比之下，OAO 和 BAM 利用 OAM 描述的遮挡状态来缓解代价混淆并抑制估计不稳定。在 DanceTrack、SportsMOT 和 MOT17 数据集上的综合评估证明了遮挡处理在 MOT 中的重要性。在 DanceTrack 测试集上，OA-SORT 的 HOTA 和 IDF1 分别达到了 63.1%63.1\%63.1% 和 64.2%64.2\%64.2%。此外，将遮挡感知框架集成到另外四个跟踪器中，平均使 HOTA 和 IDF1 提高了 2.08%2.08\%2.08% 和 3.05%3.05\%3.05%，证明了遮挡感知的可复用性。

1. 引言

多目标跟踪（MOT）用于捕捉视频片段或网络摄像头流中物体的轨迹。其基本目标是为每个检测到的物体分配唯一的标识符 [34]。该领域有多种应用，包括物体运动分析 [22]、人体姿势变化跟踪 [14] 以及物体精确计数 [68]。尽管该领域取得了显著进展，但 MOT 仍面临遮挡带来的挑战。

目前，位置关联（广泛用于 MOT）仍然是跨连续帧跟踪物体的关键要素。大多数跟踪器 [2, 4, 52, 62] 依赖于位置关联，它利用速度和加速度等运动线索来预测视频序列中物体的位置。位置关联主要由三个部分组成：位置预测器 [11, 24]、空间一致性度量 [58, 60] 和匈牙利算法 [28]。

然而，跟踪过程往往因部分遮挡而面临挑战。在检测方面，当同类物体表现出遮挡行为时，很难区分前景（即物体本身）和背景。这最终导致检测不准确。此外，离散和线性的位置预测器（如卡尔曼滤波 [24]，KF）受到频繁不准确检测的严重影响。当物体运动不规则且多变时（例如非线性姿势变化期间），这种影响更为明显。在随后的检测与轨迹估计之间的数据关联过程中，不稳定的预测和不准确的检测很容易导致严重的代价混淆（cost confusion） 。

代价混淆是指生成的位置代价矩阵存在歧义，无法准确稳定地反映检测与估计之间的亲和力。这通常会导致频繁甚至永久性的身份交换。

为了减轻这种影响，许多方法引入了额外的线索，如外观特征 [1, 51, 54, 61]、运动方向 [6, 37] 和检测置信度 [25, 62]。这些额外线索在一定程度上提高了关联性能。然而，由遮挡引起的不准确检测往往会损害额外线索的可靠性。就外观特征而言，由于检测不准确，特征的可靠性降低，导致特征代价混淆。被遮挡物体的特征很容易受到前方物体的影响甚至被取代。其次，虽然运动方向可以有效减少遮挡期间的匹配失败，但代价混淆仍然存在。同样，置信度对遮挡很敏感，当一个物体遮挡另一个物体时，被遮挡物体的得分会受到影响。总之，虽然这些额外线索在一定程度上提高了关联精度，但由遮挡引起的代价混淆仍然是一个普遍存在的问题。

为此，本文专注于减轻由遮挡引起的位置代价混淆，并提出了一种观察物体遮挡状态并利用其形成遮挡感知跟踪框架的新方法。首先，设计了遮挡感知模块（OAM）来观察和估计物体的遮挡状态，即获得反映遮挡严重程度的遮挡系数。在计算过程中，引入高斯图（GM）来细化系数。在此基础上，提出了两个新组件，即遮挡感知偏移（OAO）和偏差感知动量（BAM）。最后，通过组合这些组件形成了一个新颖的遮挡感知跟踪框架------遮挡感知 SORT（OA-SORT） ，如图 2 所示。具体而言，OAO 将遮挡系数整合到空间一致性度量中，以减轻代价混淆，其中该系数用于描述来自位置预测器的估计。BAM 旨在通过将遮挡系数与空间一致性度量相结合，减少由不准确检测引起的影响，从而增强位置预测器的鲁棒性。遮挡系数用于描述轨迹的最新观测值。最后，在 DanceTrack 上，OA-SORT 的 HOTA、AssA 和 IDF1 分别达到了 63.1%63.1\%63.1%、48.5%48.5\%48.5% 和 64.2%64.2\%64.2%。

我们的贡献总结如下：

提出的 OAM 观察并评估遮挡状态，并引入 GM 以减少背景干扰。
基于 OAM，设计的 OAO 和 BAM 缓解了代价混淆并优化了预测器的估计，证明整合遮挡状态能有效减少遮挡引起的问题。在此基础上，我们设计了遮挡感知框架 OA-SORT，在各种遮挡场景下均取得了出色的性能，如图 1 所示。
OAM、OAO、BAM 和遮挡感知框架可以轻松集成到不同的关联策略和架构中。DanceTrack 上的实验表明，遮挡感知框架为四种关联方法 [6, 31, 52, 62] 带来了益处，HOTA 平均提高 +2.08%+2.08\%+2.08%，IDF1 平均提高 +3.05%+3.05\%+3.05%。进一步的消融研究（包括其他跟踪器 [2, 6, 45, 62]）在 DanceTrack 验证集上验证了 OAO 和 BAM 的泛化能力和有效性。充分解释了遮挡感知框架的合理性。

2. 相关工作

关联（Association） [2, 3, 36, 40, 62] 旨在匹配跨帧的相同物体。对于基于位置信息的关联，通常采用两种主要范式。

位置关联（Position-Association） 仅依赖位置信息将轨迹与检测到的物体进行关联。为了解决 KF 的非线性限制，一些工作提出了改进的预测方法，如无迹卡尔曼滤波（UKF）[23]、扩展卡尔曼滤波（EKF）[27] 和 NSA KF [11]。虽然这些扩展提高了运动建模的准确性，但它们仍然依赖于 KF 的运动估计。或者，一些方法 [40, 65] 集成了可学习模型以捕捉非线性运动因素。然而，遮挡仍然是该领域未解决的问题。为了应对这一挑战，一些方法 [19, 46, 69] 被设计为纳入更全面的策略或组件。例如，Stadler 等人 [46] 利用物体的活跃或非活跃状态来确定遮挡关系，随后分析非活跃物体的速度以预测它们在当前帧中的可能位置。这种方法间接地对遮挡进行建模，而不是显式地估计它。相反，Hibo 等人 [69] 提出了一种补偿跟踪器，利用运动补偿恢复丢失的物体。最近，一些方法 [6, 31, 52, 58] 试图通过分析物体运动或利用深度信息来解决 MOT 中的遮挡问题。然而，这些方法仍然遭受由遮挡引起的代价混淆，当物体表现出相似运动时，这一问题更为突出。在本文中，我们直接分析遮挡严重程度以减轻遮挡引起的代价混淆。

位置与特征关联（Position-and-Feature-Association） 结合外观特征 [7, 21, 50, 64, 67] 与位置估计构建新的跟踪器 [1, 12, 51, 54, 61, 66]，从而有效地延长了物体允许丢失的最大时间。例如，Wang 等人 [54] 结合 FPN [30] 与基于多尺度锚点的检测器来检测物体并提取特征。为了提高性能，使用 AlphaPose [13] 提取全局和局部外观特征 [49]，该方法估计物体（如行人）的关键点（如手），并将检测与轨迹进行匹配。虽然这种方法增强了关联的鲁棒性，但位置与特征关联范式面临着与位置关联范式类似的位置一致性挑战。因此，我们专注于在位置关联的背景下处理遮挡。

3. 关于遮挡的思考

3.1. 预备知识

KF 是动态系统的线性估计器。它利用上一时间步的状态估计和当前测量值来预测物体的下一个状态。在跟踪中，需要完成两个任务：预测和更新。

时间 ttt 的更新阶段使用轨迹的实际观测值 ztz_tzt 来获得时间 ttt 的后验状态估计 x^t∣t\hat{x}{t|t}x^t∣t，其中观测值对应于与轨迹关联的检测。数学上：
x^t∣t=x^t∣t−1+Kt(zt−Htx^t∣t−1)(1) \hat{x}{t|t} = \hat{x}{t|t-1} + K_t(z_t - H_t \hat{x}{t|t-1}) \quad (1) x^t∣t=x^t∣t−1+Kt(zt−Htx^t∣t−1)(1)

其中 HHH 表示观测模型，KKK 是卡尔曼增益矩阵。KKK 是一个关键的过程参数，它整合了噪声，确保估计的平滑性和稳定性。

IoU 是 MOT 中评估估计边界框与检测边界框之间空间关系的关键指标，描述位置亲和力。在本文中，使用 CIoU(⋅,⋅)∈[0,1]CIoU(\cdot, \cdot) \in [0, 1]CIoU(⋅,⋅)∈[0,1] 来表示计算出的 IoU 值。

3.2. 遮挡对位置关联的影响

首先，我们假设物体的实际检测位置和估计位置遵循 d=P+Δdd = P + \Delta_dd=P+Δd 和 e=P+Δee = P + \Delta_ee=P+Δe，其中 PPP 表示物体的实际位置；Δd\Delta_dΔd 和 Δe\Delta_eΔe 表示检测和估计误差。

在部分遮挡下，外观特征的丢失增加了检测误差，即 Δd↑=Δd+Δd,occ\Delta_d \uparrow = \Delta_d + \Delta_{d,occ}Δd↑=Δd+Δd,occ。在足够短的时间内，由于检测不准确，CIoU(d,e)CIoU(d, e)CIoU(d,e) 可能会突然变化。随着时间的推移，由于频繁发生不准确的检测，Δe↑=Δe+Δe,occ\Delta_e \uparrow = \Delta_e + \Delta_{e,occ}Δe↑=Δe+Δe,occ 累积变得不稳定，最终导致 CIoU(d,e)CIoU(d, e)CIoU(d,e) 退化或波动。这些现象很容易引起代价混淆。

在此，我们假设大小相似的物体 iii 和 jjj 在某一时刻空间上接近，且物体 iii 被物体 jjj 遮挡，即 CIoU(Pi,Pj)CIoU(P_i, P_j)CIoU(Pi,Pj) 可能接近 1。由于误差的不稳定性和累积，IoU 指标可能难以评估检测与估计之间的空间一致性。此外，匈牙利算法为检测 - 估计分配实施了最低位置代价机制，其中位置代价表示为 CostIoU(⋅,⋅)=1−CIoU(⋅,⋅)Cost_{IoU}(\cdot, \cdot) = 1 - CIoU(\cdot, \cdot)CostIoU(⋅,⋅)=1−CIoU(⋅,⋅)。然而，由于不准确的 KF 估计产生的累积误差，eie_iei 和 eje_jej，以及 did_idi 可能会发生变化，使得 CostIoU(dj,ei)<CostIoU(dj,ej)Cost_{IoU}(d_j, e_i) < Cost_{IoU}(d_j, e_j)CostIoU(dj,ei)<CostIoU(dj,ej) 或 CostIoU(dj,ei)<CostIoU(di,ei)Cost_{IoU}(d_j, e_i) < Cost_{IoU}(d_i, e_i)CostIoU(dj,ei)<CostIoU(di,ei)，从而导致错误关联。这会导致轨迹之间的身份交换。我们的工作侧重于观察遮挡，为物体引入新的代价并优化 KF 的参数。这些方法增加了 CostIoU(dj,ei)Cost_{IoU}(d_j, e_i)CostIoU(dj,ei) 并减少了 CostIoU(di,ei)Cost_{IoU}(d_i, e_i)CostIoU(di,ei)，从而减轻了代价混淆。

4. 方法论

在本节中，我们介绍了如图 2 所示的遮挡感知 SORT 框架（OA-SORT）。为了解决代价混淆，我们将遮挡感知模块（OAM）集成到位置关联和卡尔曼滤波（KF）更新过程中。遮挡感知偏移（OAO）和偏差感知动量（BAM）分别辅助关联和 KF 更新。

4.1. 遮挡感知模块 (OAM)

4.1.1. 深度排序 (Depth Ordering)

在现实世界场景中，大多数二维摄像头以俯视（非垂直）视角进行监控。当摄像头捕捉平面上的地面移动物体（即非飞行物体）时，可以从它们的边界框底边估计物体之间的相对深度关系 [31, 41, 52]。如图 3 所示，边界框底边的位置提供了其相对于摄像头的相对深度信息。如果 P^d1<P^d2\hat{P}_d^1 < \hat{P}_d^2P^d1<P^d2，则物体#1 离摄像头更近，因此位于物体#2 的前方。因此，对于任意两个检测到的物体 iii 和 jjj：
(P^di<P^dj)⇔(Object i≺Object j)(2) (\hat{P}_d^i < \hat{P}_d^j) \Leftrightarrow (\text{Object } i \prec \text{Object } j) \quad (2) (P^di<P^dj)⇔(Object i≺Object j)(2)

这种方法有助于在现实场景中跟踪物体，被称为深度排序。通过应用此方法，可以分析检测以确定物体之间的前后关系。值得注意的是，为了避免实际场景中边界框的波动，已为深度排序设置了阈值（5）以降低敏感性，即 P^di+5<P^dj→Object i≺Object j\hat{P}_d^i + 5 < \hat{P}_d^j \rightarrow \text{Object } i \prec \text{Object } jP^di+5<P^dj→Object i≺Object j。

4.1.2. 遮挡系数 (Occlusion Coefficient)

基于深度排序，计算检测之间的重叠以量化遮挡严重程度，表示为遮挡系数 (OcOcOc)。具体而言，设 DiD_iDi 和 DjD_jDj 代表物体 iii 和 jjj 的两个检测，且 P^di>P^dj\hat{P}_d^i > \hat{P}_d^jP^di>P^dj。相应的重叠区域是 Di∩DjD_i \cap D_jDi∩Dj。因为 P^di>P^dj\hat{P}_d^i > \hat{P}_d^jP^di>P^dj，根据深度排序定义，物体 iii 位于物体 jjj 的后方。物体 iii 被物体 jjj 遮挡的 Oc∈[0,1]Oc \in [0, 1]Oc∈[0,1] 可以表示为：
Ocji=A(Di∩Dj)A(Di)(3) Oc_j^i = \frac{A(D_i \cap D_j)}{A(D_i)} \quad (3) Ocji=A(Di)A(Di∩Dj)(3)

其中 A(⋅)A(\cdot)A(⋅) 计算区域的像素数，重叠区域 Di∩DjD_i \cap D_jDi∩Dj 也代表遮挡区域。

在实践中，一个物体可能被多个其他物体遮挡。因此，设 Oi=⋃k∈Occ(i)(Di∩Dk)O_i = \bigcup_{k \in Occ(i)} (D_i \cap D_k)Oi=⋃k∈Occ(i)(Di∩Dk) 表示物体 iii 的遮挡区域，其中 Occ(i)Occ(i)Occ(i) 表示遮挡物体 iii 的物体索引集。全局遮挡系数 OciOc_iOci 解释为：
Oci=A(Oi)A(Di)(4) Oc_i = \frac{A(O_i)}{A(D_i)} \quad (4) Oci=A(Di)A(Oi)(4)

该方法计算遮挡系数，适用于检测器或 KF 生成的边界框。

4.1.3. 遮挡系数细化

遮挡系数 OcOcOc 可能会高估物体的遮挡严重程度，因为其边界框可能包含背景像素，特别是在边界附近。为了减轻背景影响，我们引入高斯图（GM） ，通过根据每个像素距边界框中心的距离自适应地加权每个像素来细化 OcOcOc。对于具有 NNN 个检测物体的图像帧，像素 (x,y)(x, y)(x,y) 处的 GM 值 GMx,y∈[0,1]GM_{x,y} \in [0, 1]GMx,y∈[0,1] 定义为：
GMx,y=max⁡n=1N(e−((x−cxn)22(σxn)2+(y−cyn)22(σyn)2))(5) GM_{x,y} = \max_{n=1}^{N} \left( e^{-\left( \frac{(x-c_x^n)^2}{2(\sigma_x^n)^2} + \frac{(y-c_y^n)^2}{2(\sigma_y^n)^2} \right)} \right) \quad (5) GMx,y=n=1maxN(e−(2(σxn)2(x−cxn)2+2(σyn)2(y−cyn)2))(5)

其中像素 (x,y)(x, y)(x,y) 位于检测到的边界框内，(cxn,cyn)(c_x^n, c_y^n)(cxn,cyn) 表示物体 nnn 边界框的质心，(σxn,σyn)(\sigma_x^n, \sigma_y^n)(σxn,σyn) 是关于检测物体类别在水平和垂直方向的标准差。在这项工作中，σx\sigma_xσx 和 σy\sigma_yσy 与边界框宽度 (www) 和高度 (hhh) 成比例设置，确保高斯核从中心到边缘平滑衰减。

每个物体 iii 的细化遮挡系数 Oc^i\hat{Oc}iOc^i 计算如下：
Oc^i=Oci⋅∑(x,y)∈OiGMx,yA(Oi)(6) \hat{Oc}i = Oc_i \cdot \frac{\sum{(x,y) \in O_i} GM{x,y}}{A(O_i)} \quad (6) Oc^i=Oci⋅A(Oi)∑(x,y)∈OiGMx,y(6)
=∑(x,y)∈OiGMx,yA(Di)(7) = \frac{\sum_{(x,y) \in O_i} GM_{x,y}}{A(D_i)} \quad (7) =A(Di)∑(x,y)∈OiGMx,y(7)

其中靠近物体中心的像素主导遮挡严重程度，有效地抑制了背景的影响。值得注意的是，当没有发生遮挡时，Oc^i=0\hat{Oc}_i = 0Oc^i=0。获取 Oc^\hat{Oc}Oc^ 的完整过程构成了遮挡感知模块（OAM），对应于图 2 中的 OAM w/ GM。

4.2. 遮挡感知偏移 (OAO)

如上所述，具有相似边界框的物体------特别是那些彼此靠近的物体------表现出基于 IoU 的高空间一致性，这可能导致位置代价混淆。即使物体正确地与轨迹关联，由于位置误差的不确定性，它们的身份也可能切换。为了缓解这个问题，我们提出了遮挡感知偏移（OAO） ，将遮挡系数整合到位置代价中。由于遮挡通常会产生不准确的检测，直接将 OAM 应用于检测是不可靠的。这种不稳定性源于不准确检测的底边波动，破坏了深度一致性。相比之下，KF 不仅利用历史运动信息预测轨迹在下一时间步的位置，还抑制了弱噪声的影响。因此，在这项工作中，OAM 被部署用于 KF 的估计 XXX 以生成遮挡系数 Oc^X\hat{Oc}_XOc^X，其中 XXX 可以用 P+ΔeP + \Delta_eP+Δe 表示。通过结合 CIoUCIoUCIoU 和 Oc^X\hat{Oc}_XOc^X，最终的空间一致性得分 SSS 定义为：
S=τ⋅(1−Oc^X)+(1−τ)⋅CIoU(D,X)(8) S = \tau \cdot (1 - \hat{Oc}_X) + (1 - \tau) \cdot CIoU(D, X) \quad (8) S=τ⋅(1−Oc^X)+(1−τ)⋅CIoU(D,X)(8)

其中 τ∈[0,1]\tau \in [0, 1]τ∈[0,1] 代表平衡 CIoU(X,D)CIoU(X, D)CIoU(X,D) 和 Oc^X\hat{Oc}XOc^X 的系数。因此，使用 CostIoU=1−SCost{IoU} = 1 - SCostIoU=1−S 来防止 CostIoU(dj,ei)<CostIoU(dj,ej)Cost_{IoU}(d_j, e_i) < Cost_{IoU}(d_j, e_j)CostIoU(dj,ei)<CostIoU(dj,ej) 的情况。这个过程称为遮挡感知偏移，作用于 KF 的预测，并且仅在第一阶段关联高分检测时触发。

4.3. 偏差感知动量 (BAM)

虽然 KF 估计通常比原始检测更稳定，但在遮挡下频繁的不准确检测会在 KF 中累积误差，导致估计波动。在短时间间隔内，KF 的估计通常比新接收的低质量检测更可靠。因此，我们为可能不准确的检测（即低分检测）设计了偏差感知动量（BAM）。BAM 结合遮挡系数来评估估计与低分检测之间的权重，旨在抑制 KF 运动参数的异常变化。此外，为了全面考虑空间相关性，IoU 指标 [58, 60] 被纳入 BAM 计算中，以描述估计与检测之间的位置关系。

值得注意的是，BAM 旨在优化物体的运动估计。因此，在时间步 ttt，OAM 用于轨迹的最新观测值 Zt−1Z_{t-1}Zt−1 以生成遮挡系数 Oc^Zt−1\hat{Oc}{Z{t-1}}Oc^Zt−1，而关联的低分检测是当前观测值 ZtZ_tZt。然后计算 BAM 如下：
BAM=CIoU(Xt∣t−1,Zt)⋅(1−Oc^Zt−1)(9) BAM = CIoU(X_{t|t-1}, Z_t) \cdot (1 - \hat{Oc}{Z{t-1}}) \quad (9) BAM=CIoU(Xt∣t−1,Zt)⋅(1−Oc^Zt−1)(9)

随后，在 KF 的更新阶段，使用 BAM 将 ZtZ_tZt 优化为 Z^t\hat{Z}_tZ^t，如下所示：
Z^t=BAM⋅Zt+(1−BAM)⋅HtXt∣t−1(10) \hat{Z}t = BAM \cdot Z_t + (1 - BAM) \cdot H_t X{t|t-1} \quad (10) Z^t=BAM⋅Zt+(1−BAM)⋅HtXt∣t−1(10)

最后，更新阶段的后验状态估计 Xt∣tX_{t|t}Xt∣t 通过下式计算：
Xt∣t=Xt∣t−1+Kt(Z^t−HtXt∣t−1)(11) X_{t|t} = X_{t|t-1} + K_t(\hat{Z}t - H_t X{t|t-1}) \quad (11) Xt∣t=Xt∣t−1+Kt(Z^t−HtXt∣t−1)(11)

整合 IoU 指标 [58, 60] 确保了在遮挡下，估计与检测之间的差异越大，BAM 的值越小。换句话说，随着估计与检测之间差异的增长，Z^t\hat{Z}tZ^t 越来越依赖于估计 Xt∣t−1X{t|t-1}Xt∣t−1。总之，KF 的运动参数可以在更新阶段动态调整以抑制波动。

4.4. 关联方法

OA-SORT 采用 Hybrid-SORT 作为其基线，即关联包括三个阶段：(1) 第一阶段关联将高分检测与轨迹链接，(2) 第二阶段处理低分检测，(3) 第三阶段使用最新观测值重新连接丢失的轨迹。总体而言，我们的跟踪过程如图 2 所示。

OAM、OAO 和 BAM 的集成遵循四个主要步骤：1) 在 KF 估计轨迹后，OAM 利用估计值计算遮挡系数；2) 在关联过程中，OAO 将计算出的遮挡系数整合到空间一致性度量中；3) 对于与低分检测关联的轨迹，BAM 利用轨迹最新观测值的遮挡系数来优化 KF 的运动参数；4) 在当前帧结束之前，OAM 利用轨迹的最新观测值计算遮挡系数以供后续 BAM 使用。在实践中，跟踪框架可以集成到其他跟踪器 [2, 6, 31, 45, 52, 62] 中。值得注意的是，OAO 和 BAM 模块都可以独立运行。

5. 实验

5.1. 实验设置

数据集： 我们在三个广泛使用的基准测试上评估 OA-SORT：DanceTrack [48]、SportsMOT [9] 和 MOT17 [39]。DanceTrack 是舞台表演场景中 MOT 的具有挑战性的基准测试。它包括多样的非线性运动和频繁的部分遮挡，而 SportsMOT 具有变速运动和动态摄像头移动的特点。MOT17 包含频繁且长时间遮挡的行人街道场景。

指标： 实验中定义的指标来自 CLEAR [26]、HOTA [32] 和 PMDS [43]。这里，↑\uparrow↑ 和 ↓\downarrow↓ 分别表示较高或较低的值对应更好的性能：HOTA(%\%%) ↑\uparrow↑ 是高阶跟踪精度指标，代表检测、关联和定位的性能；MOTA(%\%%) ↑\uparrow↑ 是结合漏检、误检和 ID 切换的 MOT 综合评估指标；IDF1(%\%%) ↑\uparrow↑ 衡量分配身份的准确性；AssA(%\%%) ↑\uparrow↑ 衡量关联准确性，即匹配轨迹之间的平均对齐度。

实现细节： OA-SORT 的超参数与 Hybrid-SORT [58] 相同。在 OAM 中，对于 DanceTrack，σx\sigma_xσx 为 w/32w/3\sqrt{2}w/32 ，σy\sigma_yσy 为 h/3h/3h/3；对于 SportsMOT，σx\sigma_xσx 为 w/4w/4w/4，σy\sigma_yσy 为 h/3h/3h/3；对于 MOT17，σx\sigma_xσx 为 w/2w/2w/2，σy\sigma_yσy 为 h/2h/2h/2。在 OAO 中，DanceTrack 的 τ\tauτ 为 0.15，SportsMOT 为 0.2，MOT17 为 0.1。τ\tauτ 在 0.1 和 0.2 之间经验性地调整，以平衡不同运动模式下的精度和鲁棒性。在此，SportsMOT 和 MOT17 的 τ\tauτ 是根据相邻帧之间的平均 IoU [9] 经验设置的。所有实验均在单个 NVIDIA V100 GPU paired with an Intel Xeon® 6130 CPU (2.10 GHz) 上进行。

5.2. 基准测试结果

DanceTrack: 如表 1 所示，OA-SORT 相比基线 Hybrid-SORT [58] 取得了一致的增益（+0.9 HOTA, +1.1 AssA, +0.1 MOTA, +1.2 IDF1）。AssA 和 IDF1 的改进表明遮挡感知框架有效缓解了代价混淆并细化了 KF 估计。值得注意的是，Hybrid-SORT 已经利用运动方向线索来减轻遮挡影响。此外，将遮挡感知集成到其他跟踪器------ByteTrack (OA-Byte), OC-SORT (OA-OC), SparseTrack (OA-Sparse), 和 PD-SORT (OA-PD)------一致地提高了它们的性能。虽然 PD-SORT [52] 和 SparseTrack [31] 利用伪深度设计空间一致性指标 (DVIoU) 和关联策略 (DCM)，但遮挡感知框架的集成进一步提高了性能。总体而言，结果表明建模和利用遮挡状态能有效处理非线性和交互式运动场景。

SportsMOT: 表 2 展示了 SportsMOT 的结果。结果表明，遮挡感知框架在变速运动和摄像头视角变化下仍然有效。这种有效性源于遮挡评估基于物体之间的相对位置。即使在短期的摄像头视角变化后，相对位置也能保持。值得注意的是，OA-SORT 在没有任何摄像头运动补偿的情况下取得了这些结果。此外，正如 [9] 所指出的，SportsMOT 对 IoU 和卡尔曼滤波精度的要求比 DanceTrack 更严格。结果进一步证实了所提出框架的有效性和泛化能力。它在涉及变速运动和高强度摄像头移动的遮挡场景下有效地增强了跟踪鲁棒性。

MOT17: 表 3 展示了 MOT17 的结果，代表了更通用和典型的线性运动模式场景。OA-SORT 仍然超越了基线 Hybrid-SORT（+0.6 HOTA 和 +0.7 IDF1），甚至在 AssA 和 IDF1 上分别以 +0.5 和 +0.3 超过了 Hybrid-SORT-REID。这些结果表明，遮挡感知在不同的运动模式下具有高度的通用性。此外，遮挡感知为不带 ReID 的 BOT-SORT (OA-BOT) 带来了益处。

总体而言，将遮挡感知集成到跟踪框架中实现了更好的性能。这些结果还表明，遮挡感知框架增强了不同遮挡场景下的跟踪鲁棒性，涉及变速和摄像头运动，验证了其合理性。即使在包含大量误检和长期漏检的 MOT17 上，也有了改进。此外，我们在 MOT20 [10] 上评估了 Hybrid-SORT，实现了额外的 +0.4 IDF1 改进。值得注意的是，优化漏检和误检的数量不是这项工作的主要焦点。

5.3. 消融研究

本节利用了由 Hybrid-SORT [18, 21, 58] 提供的检测和 ReID 特征。

组件消融： 表 4 报告了 OAO、BAM 和 GM 的结果。这些结果表明，引入遮挡感知显著提高了跟踪关联和精度。随着 OAO 的集成，跟踪器的关联得到增强，HOTA 提高了 +0.5。其次，通过 BAM 优化 KF 的估计后，HOTA 显著提高了 +1.1，这对推理速度只有轻微影响（平均 +3.81ms）。值得注意的是，集成 GM 带来了 +2.1 HOTA 的提升。虽然 GM 将平均每帧跟踪时间增加到 24.56 ms，但系统仍满足实时跟踪要求。此外，在使用遮挡感知的情况下，Hybrid-SORT-REID 也获得了益处。

GM 中的 σx\sigma_xσx 和 σy\sigma_yσy： 较小的 σx\sigma_xσx 和 σy\sigma_yσy 值将权重更集中地分布在边界框中心，减少边缘影响。对于行人跟踪，最佳参数可能因运动模式而异。例如，Dancetrack 数据集主要由舞蹈场景组成，手和腿位置的变化引入了大量背景；因此，水平和垂直权重应较小。实验结果证实了我们的分析，即对于 DanceTrack，σx=w/32\sigma_x = w/3\sqrt{2}σx=w/32 和 σy=h/3\sigma_y = h/3σy=h/3 可以取得良好的性能。

GM 和 τ\tauτ： 如公式 (8) 定义的较大的 τ\tauτ 减轻了由遮挡引起的不准确检测导致的位置代价混淆，但也可能破坏空间一致性表达。因此，我们在图 4 中展示了在不同 GM 和 τ∈[0.1,0.5]\tau \in [0.1, 0.5]τ∈[0.1,0.5] 值下 OAO 和 BAM 组件的跟踪性能，分析了不同配置下不同 τ\tauτ 的影响。总体而言，我们的结果与分析一致，即在 DanceTrack 上使用带有 OAO、BAM 和 GM 的跟踪器时，将 τ\tauτ 从 0.1 增加可以带来益处。然而，超过一定值增加 τ\tauτ 会因损害空间一致性而降低性能。其次，无论 τ\tauτ 如何，GM 都有效地增强了 OAO 和 BAM 组件的性能。

偏差感知动量： 为了减轻不准确检测的影响，BAM（第 4.3 节）结合了空间一致性指标 [58, 60] 和遮挡信息。存在替代配置，例如使用常数值代替空间一致性指标 [58, 60]。表 5 的结果表明，结合空间一致性指标 [58, 60] 进行自适应动量调整能取得更好的性能。为了减少额外计算，空间一致性指标可以跟随跟踪器。在此，遵循 Hybrid-SORT [58]，OA-SORT 利用 HMIoU。

在其他跟踪器上的应用： 我们将带有 GM 的 OAO 和 BAM 集成到不同的跟踪器中，结果如表 6 所示。因此，OAO 和 BAM 一致地提高了每个跟踪器的性能，证明了它们的适应性和可复用性。值得注意的是，这四个跟踪器具有不同的关联方法和策略。TrackTrack [45] 采用额外的检测、ReID 特征 [21]、不同于匈牙利算法的新颖分配方法，以及作为扩展卡尔曼滤波的 NSA Kalman Filter [11]。其确认轨迹的关联过程位于 OAO 和 BAM 之间。

5.4. 局限性

总体而言，遮挡感知框架在遮挡场景中具有更强的鲁棒性。然而，当物体的下部被遮挡或物体处于空中（例如跳跃）时，框架的关联性能 compared to the baseline 有所下降。如图 1 所示，序列 #0026 就是一个典型的例子。在这种情况下，基于底边的方法难以准确捕捉深度关系，从而影响了遮挡感知框架的性能。其次，遮挡状态及其时间变化随时间是连续的。虽然本文揭示了观察和利用遮挡状态可以增强关联鲁棒性，但缺乏长期遮挡建模导致关联不稳定。这个问题将在未来的研究中解决。

6. 结论

在本文中，我们探讨了遮挡对位置关联的影响。由遮挡引起的不准确检测和代价混淆严重影响了跟踪精度。然而，现有的跟踪器尚未对边界框检测的遮挡状态进行建模。为了解决这个问题，提出的遮挡感知框架将遮挡状态整合到位置关联和 KF 的更新阶段。值得注意的是，引入 GM 来构建 OAM，从而能够更准确地评估遮挡严重程度。在多个数据集上进行的综合实验充分验证了整合遮挡状态的重要性。就消融研究而言， thoroughly 证明了 GM、OAO 和 BAM 的作用、实用性和可复用性。总之，这三个即插即用、无需训练的组件可以轻松集成到现有的跟踪器中。在未来的工作中，我们将探索更鲁棒的遮挡状态估计方法，并开发用于估计遮挡严重程度的低复杂度方法。

附录：遮挡感知 SORT：通过观测遮挡实现鲁棒的多目标跟踪

7. 可靠性分析与伪代码

7.1. 遮挡感知模块 (OAM)

7.1.1. 可靠性分析

2D 图像空间中的遮挡遵循两个主要的空间线索：

深度排序 (Depth ordering)： 在行人或车辆场景中，2D 重叠通常表示物理上的接近，且底边 yyy 坐标显著较低（即 bbb 较大，见图 3）的边界框通常离摄像头更近，因此更有可能遮挡其他物体。
相交区域 (Intersection area)： 对于边界框相交（IoU 非零）的物体，重叠区域与物理遮挡的程度相关。

OAM 利用这两个线索构建逻辑遮挡关系矩阵：
CIoU(Di,Dj)>0∧bj−bi>threocc(12) CIoU(D_i, D_j) > 0 \land b_j - b_i > thre_{occ} \quad (12) CIoU(Di,Dj)>0∧bj−bi>threocc(12)

其中 CIoU(Di,Dj)CIoU(D_i, D_j)CIoU(Di,Dj) 确保仅考虑几何一致的遮挡假设；threoccthre_{occ}threocc 旨在减少由底边波动和强竞争引起的错误深度排序。

关于高斯图 GM（公式 5），对于每个边界框 iii，σxi\sigma_x^iσxi 和 σyi\sigma_y^iσyi 定义为：
σxi=wikx,σyi=hiky(13) \sigma_x^i = \frac{w_i}{k_x}, \quad \sigma_y^i = \frac{h_i}{k_y} \quad (13) σxi=kxwi,σyi=kyhi(13)

GM 旨在反映受遮挡影响像素的相对重要性。总之，OAM 应用了一个软概率先验，反映了多个轨迹应被关联的置信度。该设计补充了来自轨迹视角的硬 IoU 逻辑，强调了未遮挡轨迹的关联。

7.1.2. 伪代码
D=[l,t,r,b]D=[l, t, r, b]D=[l,t,r,b] 表示检测到的边界框，其中 l,t,r,bl, t, r, bl,t,r,b 分别表示边界框的左、上、右、下坐标。在此，我们假设有 NNN 个边界框 (D∈RN×4D \in \mathbb{R}^{N \times 4}D∈RN×4) 需要与高分检测进行关联，图像的宽度和高度分别为 WWW 和 HHH。关于 OAM 的伪代码如下所示，其中 ←\leftarrow← 表示赋值。算法 1 实现了三个关键组件：

第 5-9 行：对应公式 (5)；
第 10-35 行：对应公式 (2) 和公式 (4)；
为了提高计算效率，第 2-3 行和第 6 行用于数据过滤。

此外，值得注意的是，为了避免估计或检测的波动，我们为比较底边设置了阈值 (threoccthre_{occ}threocc)（算法第 12 行）。当差值超过 threoccthre_{occ}threocc 时，将被视为遮挡。我们工作中的实验 threoccthre_{occ}threocc 为 5。这也可以缓解由错误的底边深度排序引起的相关问题。此外，高斯缩放因子 kxk_xkx 和 kyk_yky 用于适应每个检测到的边界框内背景像素的比例。它们的值在第 8.1 节中讨论。

算法 1: 遮挡感知模块 (Oc^←OAM(⋅)\hat{Oc} \leftarrow \text{OAM}(\cdot)Oc^←OAM(⋅))
输入: 检测到的边界框 D∈RN×4D \in \mathbb{R}^{N \times 4}D∈RN×4
参数: 图像尺寸 (W,H)(W, H)(W,H), 高斯缩放因子 kx,kyk_x, k_ykx,ky, 遮挡触发阈值 threoccthre_{occ}threocc
输出: 细化后的遮挡系数 Oc^∈RN\hat{Oc} \in \mathbb{R}^NOc^∈RN

1: 初始化 Oc^←0N\hat{Oc} \leftarrow \mathbf{0}_NOc^←0N {初始化遮挡系数}

2: IoUD∈RN×N←CIoU(D,D)IoU_D \in \mathbb{R}^{N \times N} \leftarrow CIoU(D, D)IoUD∈RN×N←CIoU(D,D) {计算 IoU 矩阵}

3: diag(IoUD)←0diag(IoU_D) \leftarrow 0diag(IoUD)←0 {忽略自相关}

#--------------空间一致性判定-------------

4: if max⁡(IoUD)>0\max(IoU_D) > 0max(IoUD)>0 then

5: GM∈RH×W←0H×W\quad GM \in \mathbb{R}^{H \times W} \leftarrow \mathbf{0}_{H \times W}GM∈RH×W←0H×W {初始化高斯图}

6: \quad for each DiD_iDi in {Di∣max⁡(IoUD[i])>0}\{D_i | \max(IoU_D[i]) > 0\}{Di∣max(IoUD[i])>0} do

7: σxi←wi/kx,σyi←hi/ky\quad \quad \sigma_x^i \leftarrow w_i/k_x, \sigma_y^i \leftarrow h_i/k_yσxi←wi/kx,σyi←hi/ky {自适应标准差}

8: GM[ti:bi,li:ri]←max⁡(GM[ti:bi,li:ri],drawGaussian(Di,σxi,σyi))\quad \quad GM[t_i:b_i, l_i:r_i] \leftarrow \max(GM[t_i:b_i, l_i:r_i], \text{drawGaussian}(D_i, \sigma_x^i, \sigma_y^i))GM[ti:bi,li:ri]←max(GM[ti:bi,li:ri],drawGaussian(Di,σxi,σyi))

9: \quad end for

10: bottoms←D[:,3]\quad bottoms \leftarrow D[:, 3]bottoms←D[:,3] {底边 yyy 坐标 (bbb)}

11: areas←(D[:,2]−D[:,0])×(D[:,3]−D[:,1])areas \leftarrow (D[:, 2]-D[:, 0]) \times (D[:, 3]-D[:, 1])areas←(D[:,2]−D[:,0])×(D[:,3]−D[:,1]) {计算边界框面积}

12: validMask←(bottoms[:,None]−bottoms[None,:]≤−threocc)∧(IoUD>0)\quad validMask \leftarrow (bottoms[:, \text{None}] - bottoms[\text{None}, :] \leq -thre_{occ}) \land (IoU_D > 0)validMask←(bottoms[:,None]−bottoms[None,:]≤−threocc)∧(IoUD>0) {遮挡关系矩阵}

13: all_L,all_T,all_R,all_B←D\quad all\_L, all\_T, all\_R, all\_B \leftarrow Dall_L,all_T,all_R,all_B←D {向量化坐标}

#---------------获取遮挡系数--------------

14: \quad for each DiD_iDi and iii in DDD do

15: js←{j∣validMask[i,j]=TRUE}\quad \quad js \leftarrow \{j | validMask[i, j] = \text{TRUE}\}js←{j∣validMask[i,j]=TRUE} {选择遮挡物体 iii 的物体集合}

16: \quad \quad if js=∅js = \emptysetjs=∅ then

17: \quad \quad \quad continue

18: \quad \quad end if

19: li,ti,ri,bi←Di\quad \quad l_i, t_i, r_i, b_i \leftarrow D_ili,ti,ri,bi←Di

20: localGM∈Rhi×wi←GM[ti:bi,li:ri]\quad \quad localGM \in \mathbb{R}^{h_i \times w_i} \leftarrow GM[t_i:b_i, l_i:r_i]localGM∈Rhi×wi←GM[ti:bi,li:ri] {从 GM 裁剪局部 GM：关于 DiD_iDi 的高斯热力图}

21: T∈Rlen(js)←max⁡(ti,all_T[js])\quad \quad T \in \mathbb{R}^{\text{len}(js)} \leftarrow \max(t_i, all\_T[js])T∈Rlen(js)←max(ti,all_T[js])

22: B∈Rlen(js)←min⁡(bi,all_B[js])\quad \quad B \in \mathbb{R}^{\text{len}(js)} \leftarrow \min(b_i, all\_B[js])B∈Rlen(js)←min(bi,all_B[js])

23: L∈Rlen(js)←max⁡(li,all_L[js])\quad \quad L \in \mathbb{R}^{\text{len}(js)} \leftarrow \max(l_i, all\_L[js])L∈Rlen(js)←max(li,all_L[js])

24: R∈Rlen(js)←min⁡(ri,all_R[js])\quad \quad R \in \mathbb{R}^{\text{len}(js)} \leftarrow \min(r_i, all\_R[js])R∈Rlen(js)←min(ri,all_R[js])

25: tClip∈Rlen(js)←max⁡(0,T−ti)\quad \quad tClip \in \mathbb{R}^{\text{len}(js)} \leftarrow \max(0, T - t_i)tClip∈Rlen(js)←max(0,T−ti) {坐标变换}

26: bClip∈Rlen(js)←min⁡(hi,B−bi)\quad \quad bClip \in \mathbb{R}^{\text{len}(js)} \leftarrow \min(h_i, B - b_i)bClip∈Rlen(js)←min(hi,B−bi)

27: lClip∈Rlen(js)←max⁡(0,L−li)\quad \quad lClip \in \mathbb{R}^{\text{len}(js)} \leftarrow \max(0, L - l_i)lClip∈Rlen(js)←max(0,L−li)

28: rClip∈Rlen(js)←min⁡(wi,R−ri)\quad \quad rClip \in \mathbb{R}^{\text{len}(js)} \leftarrow \min(w_i, R - r_i)rClip∈Rlen(js)←min(wi,R−ri)

29: occlusionMap←0hi×wi\quad \quad occlusionMap \leftarrow \mathbf{0}_{h_i \times w_i}occlusionMap←0hi×wi {布尔遮挡图：遮挡区域}

30: \quad \quad for each jjj in jsjsjs do

31: occlusionMap[tClip[j]:bClip[j],lClip[j]:rClip[j]]←1\quad \quad \quad occlusionMap[tClip[j]:bClip[j], lClip[j]:rClip[j]] \leftarrow 1occlusionMap[tClip[j]:bClip[j],lClip[j]:rClip[j]]←1 {获取重叠区域}

32: \quad \quad end for

33: Oc^i←∑(localGM⊙occlusionMap)/areasi\quad \quad \hat{Oc}_i \leftarrow \sum (localGM \odot occlusionMap) / areas_iOc^i←∑(localGM⊙occlusionMap)/areasi {⊙\odot⊙ 表示 Hadamard (逐元素) 积}

34: \quad end for

35: end if

36: return Oc^\hat{Oc}Oc^

7.2. 遮挡感知偏移 (OAO)

7.2.1. 可靠性分析

遮挡感知偏移 (OAO) 解决了传统基于 IoU 的关联在遮挡场景下的局限性，这种情况在第 3 节中进行了分析。在遮挡下，检测与轨迹之间的空间关系变得不可靠，原因如下：

丢失轨迹的预测不可靠： 由于重叠遮挡，多个轨迹竞争同一检测区域，如图 8（见第 8.5 节）所示。
位置歧义： 被遮挡物体经历质心偏移、边界框扭曲或强竞争，使得 IoU 成为真实空间邻近度的不一致度量。这种情况导致检测边界框与轨迹之间的代价混淆，引起 ID 切换，如图 9（见第 8.5 节）所示。

OAO 通过将遮挡感知从轨迹视角整合到关联代价矩阵中，缓解了这些问题，有效地增强了代价的判别力。

7.2.2. 伪代码

我们假设有 NNN 个检测 D∈RN×4D \in \mathbb{R}^{N \times 4}D∈RN×4 需要与 MMM 个估计 XXX 进行关联。遮挡感知偏移 (OAO) 的伪代码如算法 2 所示。检测和估计的空间一致性得分将被更新。值得注意的是，不同跟踪器中空间一致性得分的初始计算是不同的。例如，Hybrid-SORT [58] 使用 HMIoU；PD-SORT [52] 使用 DVIoU（一种 3D IoU）。在此，统一使用 CIoUCIoUCIoU 和 IoUIoUIoU。

算法 2: 遮挡感知偏移 (S←OAO(X,IoUD,X)S \leftarrow \text{OAO}(X, IoU_{D,X})S←OAO(X,IoUD,X))
输入: 来自跟踪轨迹的估计 X∈RM×4X \in \mathbb{R}^{M \times 4}X∈RM×4; DDD 和 XXX 之间的 IoUD,X∈RN×MIoU_{D,X} \in \mathbb{R}^{N \times M}IoUD,X∈RN×M
参数: 系数 τ\tauτ，用于平衡 IoUIoUIoU 和 Oc^\hat{Oc}Oc^
输出: 空间一致性 SSS

1: Oc^X∈R1×M←OAM(X)\hat{Oc}_X \in \mathbb{R}^{1 \times M} \leftarrow \text{OAM}(X)Oc^X∈R1×M←OAM(X)

2: S∈RN×M←τ⋅(1−Oc^X)[None,:]+(1−τ)⋅IoUD,XS \in \mathbb{R}^{N \times M} \leftarrow \tau \cdot (1 - \hat{Oc}X)[\text{None}, :] + (1 - \tau) \cdot IoU{D,X}S∈RN×M←τ⋅(1−Oc^X)[None,:]+(1−τ)⋅IoUD,X {描述公式 (8)}

3: return SSS

7.3. 偏差感知动量 (BAM)

7.3.1. 可靠性分析

理论上，遮挡感知跟踪需要动态调整过程噪声 QQQ 和测量噪声 RRR。然而，实时估计这些参数面临重大挑战：

测量噪声估计： 在不同遮挡强度下检测模型的误差方差难以表征。遮挡引起的误差（包括特征混淆和信息丢失）是多样的，难以准确建模。
过程噪声估计： 运动模型误差源于自然场景动力学和模型残差，如果没有真值，这些本质上是不可观测的。此外，2D 图像中的 MOT 涉及对本质上非线性和不规则目标运动的离散观测。任何预测器在运动转换期间必然表现出滞后，代表一种不可避免的固有误差。

在此，针对 BAM 进行了额外的实验，如表 7 所示，针对可以反映和考虑 QQQ 和 RRR 的卡尔曼增益 (KKK)。

结果表明，BAM 通过直接修改观测值，对低置信度检测实施了瞬时且隐式的测量可靠性调整。这种方法试图在更新步骤中调节新观测值的影响，消除了对显式误差建模或协方差重计算的需求------这与实际约束和现实世界 MOT 的鲁棒性目标非常吻合。根据公式 (10) 和 (11)，公式 (11) 中的状态更新可以重构为：
Xt∣t=Xt∣t−1+BAM⋅Kt(Zt−HtXt∣t−1)(14) X_{t|t} = X_{t|t-1} + BAM \cdot K_t (Z_t - H_t X_{t|t-1}) \quad (14) Xt∣t=Xt∣t−1+BAM⋅Kt(Zt−HtXt∣t−1)(14)

7.3.2. 伪代码

我们假设一个轨迹与一个低分检测 d∈R4d \in \mathbb{R}^4d∈R4 关联；轨迹的估计为 xt∣t−1∈R4x_{t|t-1} \in \mathbb{R}^4xt∣t−1∈R4。OAM 用于结合轨迹最新观测值的遮挡系数 Oc^z\hat{Oc}_zOc^z 的更新过程。伪代码如算法 3所示。

算法 3: 偏差感知动量 (xt∣t=BAM(d,xt∣t−1,Oc^z)x_{t|t} = \text{BAM}(d, x_{t|t-1}, \hat{Oc}_z)xt∣t=BAM(d,xt∣t−1,Oc^z))
输入: det (检测到的边界框); xt∣t−1x_{t|t-1}xt∣t−1; Oc^z\hat{Oc}zOc^z
输出: 优化后的 xt∣tx{t|t}xt∣t

1: IoUdet,xt∣t−1∈(0,1]←CIoU(det,xt∣t−1)IoU_{det, x_{t|t-1}} \in (0, 1] \leftarrow CIoU(det, x_{t|t-1})IoUdet,xt∣t−1∈(0,1]←CIoU(det,xt∣t−1)

2: BAM←IoUdet,xt∣t−1⋅(1−Oc^z)BAM \leftarrow IoU_{det, x_{t|t-1}} \cdot (1 - \hat{Oc}_z)BAM←IoUdet,xt∣t−1⋅(1−Oc^z) {描述公式 (9)}

3: z′←detz' \leftarrow detz′←det {z′z'z′ 表示观测值}

4: xt∣t←xt∣t−1+BAM⋅Kt(z′−Htxt∣t−1)x_{t|t} \leftarrow x_{t|t-1} + BAM \cdot K_t (z' - H_t x_{t|t-1})xt∣t←xt∣t−1+BAM⋅Kt(z′−Htxt∣t−1) {为简洁起见省略了无关的卡尔曼滤波细节。描述公式 (10) 和 (11)}

5: return xt∣tx_{t|t}xt∣t

7.4. 关联方法

给定检测 DDD 和轨迹 TTT，高分检测 DhighD_{high}Dhigh、低分检测 DlowD_{low}Dlow 的关联以及轨迹更新的伪代码如算法 4 和算法 5 所示，其中 Dhigh∪Dlow=DD_{high} \cup D_{low} = DDhigh∪Dlow=D 且 Dhigh∩Dlow=∅D_{high} \cap D_{low} = \emptysetDhigh∩Dlow=∅。

算法 4: 关联方法 - 高分检测关联 {此步骤可以与低分关联混合，例如 TrackTrack [45] }
输入: Dhigh,TD_{high}, TDhigh,T

1: E←[t.estimation in t for T]E \leftarrow [t.\text{estimation in } t \text{ for } T]E←[t.estimation in t for T] {EEE 表示轨迹的估计}

2: IoUDhigh,E←CIoU(Dhigh,E)IoU_{D_{high}, E} \leftarrow CIoU(D_{high}, E)IoUDhigh,E←CIoU(Dhigh,E)

3: S←OAO(E,IoUDhigh,E)S \leftarrow \text{OAO}(E, IoU_{D_{high}, E})S←OAO(E,IoUDhigh,E) {描述第 4.2 节}

4: S←S+OtherScoreS \leftarrow S + \text{OtherScore}S←S+OtherScore {在此，除了 IoU 外，还使用其他分数 (OtherScore) 进行分配。例如，Hybrid-SORT [58] 和 ByteTrack [62] 使用方向分数和检测分数。如果使用其他分数，请基于 SSS 计算。就在这里。值得注意的是，此步骤可以与第三行混合}

5: highMatchdet,highMatchtra←highMatch_{det}, highMatch_{tra} \leftarrowhighMatchdet,highMatchtra← 匈牙利算法使用 SSS 进行分配

算法 5: 关联方法 - 低分检测关联和轨迹更新
输入: Dlow,Tun∈TD_{low}, T_{un} \in TDlow,Tun∈T

1: Eun←[t.estimation in t for Tun]E_{un} \leftarrow [t.\text{estimation in } t \text{ for } T_{un}]Eun←[t.estimation in t for Tun] {EunE_{un}Eun 表示未匹配轨迹的估计}

2: IoUDlow,Eun←CIoU(Dlow,Eun)IoU_{D_{low}, E_{un}} \leftarrow CIoU(D_{low}, E_{un})IoUDlow,Eun←CIoU(Dlow,Eun)

3: S←IoUDlow,Eun+OtherScoreS \leftarrow IoU_{D_{low}, E_{un}} + \text{OtherScore}S←IoUDlow,Eun+OtherScore {在此，除了 IoU 外，还使用其他分数 (OtherScore) 进行分配。例如，Hybrid-SORT [58] 和 ByteTrack [62] 使用方向分数和检测分数。如果使用其他分数，请基于 SSS 计算。就在这里}

4: lowMatchdet,lowMatchtra←lowMatch_{det}, lowMatch_{tra} \leftarrowlowMatchdet,lowMatchtra← 匈牙利算法使用 SSS 进行分配 {存储 DDD 和 TTT 中匹配检测和轨迹的索引}

5: Matchdet←highMatchdet+lowMatchdet,Matchtra←highMatchtra+lowMatchtraMatch_{det} \leftarrow highMatch_{det} + lowMatch_{det}, Match_{tra} \leftarrow highMatch_{tra} + lowMatch_{tra}Matchdet←highMatchdet+lowMatchdet,Matchtra←highMatchtra+lowMatchtra {如果存在其他匹配，则相应合并}

#-------------------轨迹更新------------------

6: for each d,td, td,t in Matchdet,MatchtraMatch_{det}, Match_{tra}Matchdet,Matchtra do

7: \quad if D[d]D[d]D[d] in DlowD_{low}Dlow then

8: offset←BAM(D[d],E[t],T[t].Oc^)\quad \quad offset \leftarrow \text{BAM}(D[d], E[t], T[t].\hat{Oc})offset←BAM(D[d],E[t],T[t].Oc^) {BAM 用于 DlowD_{low}Dlow。描述公式 (10)}

9: \quad else

10: offset←1\quad \quad offset \leftarrow 1offset←1

11: \quad end if

12: T[t]←\quad T[t] \leftarrowT[t]← 使用 offsetoffsetoffset 和 D[d]D[d]D[d] 更新 T[t]T[t]T[t]

13: end for

14: Z←[t.last observation for t in T[Matchtra]]Z \leftarrow [t.\text{last observation for } t \text{ in } T[Match_{tra}]]Z←[t.last observation for t in T[Matchtra]]

15: Oc^Z←OAM(Z)\hat{Oc}_Z \leftarrow \text{OAM}(Z)Oc^Z←OAM(Z)

16: [T[t].Oc^←Oc^[t] for Oc^[t] in Oc^Z][T[t].\hat{Oc} \leftarrow \hat{Oc}[t] \text{ for } \hat{Oc}[t] \text{ in } \hat{Oc}_Z][T[t].Oc^←Oc^[t] for Oc^[t] in Oc^Z]

8. 额外实验

8.1. GM 中的 σx\sigma_xσx 和 σy\sigma_yσy

对于物体 iii，GM 中的 σxi\sigma_x^iσxi 和 σyi\sigma_y^iσyi 可以表示为 wikx\frac{w_i}{k_x}kxwi 和 hiky\frac{h_i}{k_y}kyhi。不同 kxk_xkx 和 kyk_yky 值的性能结果如表 8、表 9 和表 10 所示，其中行代表相同的 kxk_xkx 值，列代表相同的 kyk_yky 值。结果显示，(kx,ky)=(5,3)(k_x, k_y) = (5, 3)(kx,ky)=(5,3) 可以达到最佳性能，即 σxi=wi5\sigma_x^i = \frac{w_i}{5}σxi=5wi 和 σyi=hi3\sigma_y^i = \frac{h_i}{3}σyi=3hi。

该结果主要显示了在 DanceTrack 验证集上的近似全局最优解。然而，当 kxk_xkx 或 kyk_yky 较大时，高斯分布可能会像图 5 所示那样容易变得混乱。为了避免 kxk_xkx 和 kyk_yky 的特殊性，我们尝试减小 kxk_xkx：kx:ky=3∗2:3=1.414:1k_x : k_y = 3*\sqrt{2} : 3 = 1.414 : 1kx:ky=3∗2 :3=1.414:1，因为公式 (5) 中的二次项 (σxn)2(\sigma_x^n)^2(σxn)2 以及 kx∈(4,5)k_x \in (4, 5)kx∈(4,5)。表 11 的结果与我们一致，即在 DanceTrack 测试数据集上，当 kx=(3∗2,3)k_x=(3*\sqrt{2}, 3)kx=(3∗2 ,3) 时性能更好。最后，σxn\sigma_x^nσxn 和 σyn\sigma_y^nσyn 分别设置为 wn3∗2\frac{w_n}{3*\sqrt{2}}3∗2 wn 和 hn3\frac{h_n}{3}3hn。

8.2. MOT17 的消融研究

如表 12 所示，对 MOT17 执行了额外的消融实验。结果显示了来自不同检测的性能提升，包括 Hybrid-SORT 提供的 YOLOX 和主机提供的公共检测 (FRCNN)。总体而言，在检测质量较低的公共检测中，遮挡感知框架仍能保证性能。然而，它带来的益处不如高质量检测那么大。这是由于漏检和误报（如图 6 所示），这不是遮挡感知框架的重点。

最后，在 Hybrid-SORT 提供的检测下，将摄像头运动补偿 (CMC [37]) 集成到 OA-SORT 中。结果报告在表 13 中。比较有无 CMC 时遮挡感知带来的增强，我们发现 CMC 为遮挡感知框架在 HOTA 上带来了益处。当不使用 CMC 时，从 Hybrid-SORT 到 OA-SORT，HOTA 和 MOTA 性能分别提高了 0.31%0.31\%0.31% 和 0.64%0.64\%0.64%。相比之下，使用 CMC 时 HOTA 和 MOTA 的增强分别为 0.39%0.39\%0.39% 和 0.54%0.54\%0.54%。

8.3. 遮挡下的额外数据可视化

根据图 1，提供了额外的数据 IDF1 和 MOTA，如图 7 所示。虽然 #0026 序列中的 HOTA 有所下降，但 IDF1 和 MOTA 均有所提高，尤其是 MOTA，提高了约 1.4%1.4\%1.4%。结合图 1，结果表明，这种情况的主要原因可能是所提出的遮挡感知框架侧重于瞬时状态而非长期状态，导致跟踪不稳定。

8.4. MOT20 测试集

在表 14 中，展示了 MOT20 [10] 下的结果。OA-SORT 保持了良好的性能。与 Hybrid-SORT 相比，OA-SORT 的 IDF1 提高了 0.4，AssR 提高了 0.3。结果表明，OAO 和 BAM 在密集遮挡场景中仍能保持性能。

8.5. 可视化

我们分析了 DanceTrack0005 在 Hybrid-SORT 和 OA-SORT 下的视频片段，如图 8 和图 9 所示。在第 66 帧（图 8 中），Hybrid-SORT 由于遮挡引起的位置代价混淆，未能保持 #3 和 #2 的 ID。相比之下，OA-SORT 利用 OAO 稳定了它们的 ID。然而，在强竞争下，遮挡感知框架难以处理严重的不准确检测，如图 10 中边界框 #4 和 #5 所示。