Hybrid-SORT：弱线索对于在线多目标跟踪的重要性

作者 : Mingzhan Yang, Guangxin Han, Bin Yan, Wenhua Zhang, Jinqing Qi, Huchuan Lu, Dong Wang
单位 : 大连理工大学，深圳电视数字技术有限公司

摘要

多目标跟踪（MOT）旨在检测并关联跨帧的所有目标。大多数方法通过显式或隐式地利用强线索（即空间和外观信息）来完成任务，这些信息表现出强大的实例级区分能力。然而，当发生目标遮挡和聚集时，由于目标间的高度重叠，空间和外观信息会同时变得模糊。在本文中，我们证明了这一长期存在的 MOT 挑战可以通过引入弱线索来补偿强线索而得到有效且高效的解决。除了速度方向外，我们还引入了置信度状态和高度状态作为潜在的弱线索。凭借卓越的性能，我们的方法仍然保持了简单、在线和实时（SORT）的特性。此外，我们的方法以即插即用和无训练的方式显示出对多种跟踪器和场景的强大泛化能力。当将我们的方法应用于 5 种不同的代表性跟踪器时，观察到了显著且一致的改进。进一步地，结合强线索和弱线索，我们的方法 Hybrid-SORT 在包括 MOT17、MOT20，尤其是经常发生交互和严重遮挡且运动复杂的 DanceTrack 在内的多个基准测试中取得了卓越的性能。代码和模型可在 https://github.com/ymzis69/HybridSORT 获取。

1. 引言

近年来，检测跟踪（tracking-by-detection）已成为多目标跟踪（MOT）中最流行的范式，它将问题分为两个子任务。第一个任务是检测每一帧中的目标。第二个任务是在不同帧中关联它们。关联任务主要通过显式或隐式地利用强线索来解决，包括空间和外观信息。这种设计是合理的，因为这些强线索提供了强大的实例级区分能力。然而，常用的强线索在遮挡和聚集等具有挑战性的情况下会受到性能下降的影响（图 1 中的 ID 1 和 2）。具体来说，当两个目标在当前帧中高度重叠时，检测结果与估计的轨迹位置之间的交并比（IoU）变得模糊，并且两个目标的外观特征都由前景目标主导（图 1 强线索部分中的红色虚线箭头）。

在图 1 的弱线索部分，我们展示了弱线索（如置信度状态、高度状态和速度方向）可以有效缓解强线索变得不可靠时的模糊关联。然而，据我们所知，除了极少数方法（例如 OC-SORT, MT-IOT）外，弱线索在大多数方法中被忽略了，因为它们仅在某些目标之间具有可靠的区分能力。如图 1 所示，置信度状态仅在区分 ID 2 与其他 ID 时是可靠的。

在本文中，除了 OC-SORT 中使用的速度方向外，我们选择置信度状态和高度状态作为潜在的弱线索类型。置信度状态可以明确指示聚集目标之间的遮挡/被遮挡（即前景/背景）关系，提供了强线索（即空间和外观信息）所缺乏的关键线索。高度状态是目标的一个稳定属性，通常对各种目标姿态具有鲁棒性，并包含一定程度的深度信息（即反映了从相机到目标的距离）。

为了保持简单、在线和实时（SORT）的特性，我们提出了简单而有效的策略来利用上述弱线索，即轨迹置信度建模（TCM）和高度调制 IoU（HMIoU）。对于 TCM，我们使用卡尔曼滤波和线性预测来估计轨迹的置信度状态，然后将其用作与检测结果关联的度量。对于 HMIoU，高度状态也由卡尔曼滤波建模。关联的高度成本矩阵首先定义为估计的轨迹框和检测框沿高度轴的 IoU，然后基于面积度量与标准 IoU 矩阵融合。

为了评估我们设计的泛化能力，我们将提出的设计应用于 5 种不同的代表性跟踪器，包括 SORT, DeepSORT, MOTDT, ByteTrack 和 OC-SORT。我们的置信度状态和高度状态设计均持续取得了显著改进，证明了弱线索对 MOT 的重要性。

此外，为了推进简单、在线和实时（SORT）MOT 方法的最新性能，我们将当前最先进的类 SORT 算法 OC-SORT 修改为我们的强基线。首先，我们通过将框中心扩展到四个框角并将固定时间间隔扩展到多个间隔，修改了 OC-SORT 中的速度方向建模，即观测中心动量（OCM）。其次，我们遵循 ByteTrack 为低置信度检测包含了一个额外的关联阶段。结合提出的 TCM 和 HMIoU，我们的方法 Hybrid-SORT 通过利用强线索和弱线索，在所有 DanceTrack、MOT17 和 MOT20 基准测试中取得了卓越的性能，同时仍然保持了简单、在线和实时（SORT）。

我们希望 Hybrid-SORT 的泛化能力、即插即用和无训练特性使其对各种场景和边缘设备具有吸引力。

我们证明了 MOT 中长期存在的遮挡和聚集挑战可以通过引入弱线索（即置信度状态、高度状态和速度方向）作为常用强线索的补偿而得到实质性缓解。
我们引入了简单的轨迹置信度建模（TCM）和高度调制 IoU（HMIoU）来建模和利用置信度状态和高度状态。通过精细的建模，弱线索有效地缓解了由强线索产生的模糊匹配，且额外计算量可忽略不计。
即插即用和无训练的设计在各种场景和跟踪器上泛化良好。我们在 5 个代表性跟踪器上实现了我们的设计，取得了一致且显著的改进。最后，我们的方法 Hybrid-SORT 在 DanceTrack、MOT17 和 MOT20 基准测试中取得了卓越的性能。

2. 相关工作

2.1 启发式匹配器

基于空间的启发式匹配器：空间信息是高 FPS 基准测试中使用最广泛的强线索。当帧之间的时间间隔较短时，目标的移动也很小，可以视为线性的。这使得空间信息成为短期关联的准确度量。开创性工作 SORT 使用卡尔曼滤波来预测轨迹的空间位置，并基于 IoU 度量进行关联。随后的工作，如 CenterTrack, ByteTrack, MotionTrack 和 OC-SORT，都是仅利用空间信息进行关联的启发式匹配。然而，即使是最先进的方法 OC-SORT，仍然受到严重遮挡和聚集的影响。

基于外观的启发式匹配器：与空间信息不同，外观信息在整个视频中具有相对稳定的连续性，从而有利于长期关联。继 SORT 之后，DeepSORT 和 GHOST 利用独立的 ReID 模型提取外观特征进行关联。随后的工作 JDE, FairMOT, CSTrack, QDTrack, FineTrack 和 UTM 集成了检测和 ReID 模型进行联合训练，并设计了改进的网络架构以增强性能。然而，我们观察到，在聚集的目标中，即使设计了精细的网络架构和关联策略，空间和外观线索都会遭受严重的区分能力下降。

2.2 可学习匹配器

基于图的可学习匹配器：基于图的可学习匹配器将关联任务公式化为边分类任务，其中具有相同 ID 的轨迹节点和检测节点的边标签为 1，反之亦然。MOTSolv 和 GMTracker 基于图神经网络（GNN），使数据关联步骤可微分。最近，SUSHI 利用图模型以离线方式分层地将短轨迹连接成更长的轨迹。然而，基于图的匹配器的主要限制是训练和推理流程通常很复杂甚至是离线的，这限制了它们在需要严格实时要求的在线跟踪场景（如自动驾驶）中的实际应用。

基于 Transformer 的可学习匹配器：自从 Transformer 在视觉任务中流行以来，许多工作被提出利用其强大的注意力机制来建模关联任务。TrackFormer 和 MOTR 利用轨迹查询和标准检测查询共同执行轨迹传播和初始化。最近，MOTRv2 为 MOTR 引入了一个单独的检测器，试图解决检测和关联之间的冲突。然而，基于 Transformer 的匹配器涉及大量的自注意力和交叉注意力操作，阻止算法实现实时能力。

3. 方法

Hybrid-SORT 和 Hybrid-SORT-ReID 遵循 SORT 范式，利用卡尔曼滤波进行轨迹的运动估计，无论是否带有用于外观建模的 ReID 模块。关联任务通过匈牙利算法作为二分图匹配来解决。匈牙利算法的成本矩阵通过测量轨迹和检测之间的成对表示相似度来计算。关联流程如图 2 所示。

3.1 弱线索建模

轨迹置信度建模 (Tracklet Confidence Modeling, TCM)

置信度状态有助于关联的原因很简单。具体来说，当常用的强线索（即空间和外观信息）因多个目标高度重叠而失效时，目标的置信度提供了明确的前景/背景（即遮挡/被遮挡）关系，这正是强线索所缺乏的。

基于这一见解，我们引入了两种轨迹置信度建模方法，分别与高置信度和低置信度的检测结果进行关联。当目标未被遮挡或仅轻微遮挡时，卡尔曼滤波是建模和估计连续状态的理想模型。因此，我们将 SORT 中广泛使用的标准卡尔曼滤波扩展了两个附加状态：轨迹置信度 ccc 及其速度分量 c˙\dot{c}c˙。为了更清晰，我们首先回顾 SORT 中的标准卡尔曼滤波状态，如公式 (1) 所示。这里，uuu 和 vvv 表示目标的中心，而 sss 和 rrr 分别表示目标框的尺度（面积）和纵横比。速度分量由 u˙\dot{u}u˙, v˙\dot{v}v˙, 和 s˙\dot{s}s˙ 表示。

x= $u,v,s,r,u˙,v˙,s˙$ (1)x= $u, v, s, r, \\dot{u}, \\dot{v}, \\dot{s}$ \quad (1)x= $u,v,s,r,u˙,v˙,s˙$ (1)

引入两个新状态 ccc 和 c˙\dot{c}c˙ 后，TCM 中卡尔曼滤波的完整状态如公式 (2) 所示。

x= $u,v,s,c,r,u˙,v˙,s˙,c˙$ (2)x= $u, v, s, c, r, \\dot{u}, \\dot{v}, \\dot{s}, \\dot{c}$ \quad (2)x= $u,v,s,c,r,u˙,v˙,s˙,c˙$ (2)

对于第二关联阶段中的低置信度检测，我们利用线性预测来估计轨迹置信度。在遮挡开始或结束时，目标的置信度会迅速增加或减少。不幸的是，正如我们在图 3 中看到的那样，卡尔曼滤波在尝试估计置信度状态的突然变化时表现出明显的滞后。然而，我们观察到在这段短时间内置信度变化的趋势具有明确的方向性。因此，我们使用基于轨迹历史的简单线性预测来解决这个问题。线性建模的公式由公式 (3) 给出，其中 ctrkc_{trk}ctrk 表示保存在轨迹记忆中的轨迹置信度。

c^trk={ctrkt−1,ctrkt−2=Nonectrkt−1−(ctrkt−2−ctrkt−1),else(3)\hat{c}{trk}= \begin{cases} c^{t-1}{trk}, & c^{t-2}{trk}= None \\ c^{t-1}{trk} -(c^{t-2}{trk} - c^{t-1}{trk}), & else \end{cases} \quad (3)c^trk={ctrkt−1,ctrkt−1−(ctrkt−2−ctrkt−1),ctrkt−2=Noneelse(3)

当使用卡尔曼滤波或线性预测时，置信度成本计算为估计的轨迹置信度 c^trk\hat{c}{trk}c^trk 和检测置信度 cdetc{det}cdet 之间的绝对差，如公式 (4) 所示。

CConf=∣c^trk−cdet∣(4)C_{Conf}= |\hat{c}{trk} - c{det}| \quad (4)CConf=∣c^trk−cdet∣(4)

高度调制 IoU (Height Modulated IoU, HMIoU)

识别目标的时间稳定属性是多目标跟踪（MOT）最关键方面之一。高度状态可以提供有用的线索，帮助补偿强线索的区分能力。具体来说，高度状态在两个方面增强了关联。首先，目标的高度在一定程度上反映了深度信息。对于像 DanceTrack 这样的数据集，检测框的高度主要取决于目标与相机之间的距离。这使得高度状态成为区分高度重叠目标的有效线索。其次，高度状态对各种姿态相对鲁棒，使其成为一个可以准确估计的状态和目标的高质量表示。

具体来说，我们将两个框定义为 b1=(x11,y11,x21,y12)b_1=(x^1_1, y^1_1, x^1_2, y^2_1)b1=(x11,y11,x21,y12) 和 b2=(x12,y21,x22,y22)b_2=(x^2_1, y^1_2, x^2_2, y^2_2)b2=(x12,y21,x22,y22)，其中 x1x_1x1 和 y1y_1y1 代表左上角，而 x2x_2x2 和 y2y_2y2 代表右下角。此外，我们将两个框的面积定义为 AAA 和 BBB。传统 IoU 的计算如公式 (5) 所示，基于面积度量。此外，高度 IoU（HIoU）可以通过基于高度度量计算 IoU 生成，如公式 (6) 所示。

IoU=∣A∩B∣∣A∪B∣(5)IoU=\frac{|A \cap B|}{|A \cup B|} \quad (5)IoU=∣A∪B∣∣A∩B∣(5)

HIoU=min⁡(y12,y22)−max⁡(y11,y21)max⁡(y12,y22)−min⁡(y11,y21)(6)HIoU=\frac{\min(y^2_1, y^2_2) - \max(y^1_1, y^1_2)}{\max(y^2_1, y^2_2) - \min(y^1_1, y^1_2)} \quad (6)HIoU=max(y12,y22)−min(y11,y21)min(y12,y22)−max(y11,y21)(6)

为了更好地利用高度状态，我们通过将高度 IoU（HIoU）与传统 IoU 相结合，引入了高度调制 IoU（HMIoU），如公式 (7) 所示。⋅\cdot⋅ 表示逐元素乘法。考虑到 HIoU 代表作为弱线索的高度状态，而 IoU 代表作为强线索的空间信息，我们使用 HIoU 通过逐元素乘法来调制 IoU，从而实现对聚集目标的增强区分。

HMIoU=HIoU⋅IoU(7)HMIoU= HIoU \cdot IoU \quad (7)HMIoU=HIoU⋅IoU(7)

3.2 Hybrid-SORT

鲁棒观测中心动量 (Robust Observation-Centric Momentum, ROCM)

在 OC-SORT 中，观测中心动量（OCM）在关联中考虑了目标中心的速度方向。OCM 中使用的成本度量是轨迹速度方向 θt\theta_tθt 和轨迹到检测的速度方向 θd\theta_dθd 之间的绝对差（弧度格式），表示为 Δθ=∣θt−θd∣\Delta\theta= |\theta_t - \theta_d|Δθ=∣θt−θd∣。轨迹速度方向是从时间间隔 Δt\Delta tΔt 内轨迹中的两个框中心获得的，而轨迹到检测的速度方向是从轨迹历史框和新检测框的中心获得的。给定两点 (u1,v1)(u_1, v_1)(u1,v1) 和 (u2,v2)(u_2, v_2)(u2,v2)，速度方向计算如公式 (8) 所示。然而，原始 OCM 的建模容易受到由固定时间间隔和稀疏点（即仅目标中心）引起的噪声影响。

θ=arctan⁡(v1−v2u1−u2)(8)\theta= \arctan \left( \frac{v_1 - v_2}{u_1 - u_2} \right) \quad (8)θ=arctan(u1−u2v1−v2)(8)

我们通过引入更鲁棒的速度方向建模来改进 OCM，即鲁棒观测中心动量（ROCM）。修改包括两个方面。首先，我们将 3 帧的固定时间间隔扩展为从 1 到 3 的多个间隔堆栈。其次，我们使用目标的四个角而不是其中心点来计算速度方向。通过多个时间间隔和点，ROCM 的计算公式如公式 (9) 所示。图 4 说明了对于具有复杂运动的目标，角点的速度方向保持高度相似，而中心的方向几乎相反。

CVel=∑Δt=13(CltΔt+CrtΔt+ClbΔt+CrbΔt)4(9)C_{Vel}= \frac{\sum_{\Delta t=1}^{3} (C^{\Delta t}{lt} + C^{\Delta t}{rt} + C^{\Delta t}{lb} + C^{\Delta t}{rb})}{4} \quad (9)CVel=4∑Δt=13(CltΔt+CrtΔt+ClbΔt+CrbΔt)(9)

外观建模

我们使用独立的 ReID 模型整合外观信息，如图 1 所示。遵循 BoT-SORT，我们的流程首先检测目标，然后将生成的裁剪补丁输入 ReID 模型。我们使用指数移动平均（EMA）对轨迹外观信息建模，并利用余弦距离作为计算轨迹和检测外观特征之间成本 CApprC_{Appr}CAppr 的度量。请注意，ReID 组件不是本文的重点。

算法框架

关联阶段主要包括三个阶段：针对高置信度目标的第一关联阶段，针对低置信度目标的第二关联阶段（ByteTrack 中的 BYTE），以及利用最后一次检测恢复丢失轨迹的第三关联阶段（OC-SORT 中的 OCR）。

考虑到所有强线索和弱线索，最终的成本矩阵基本包含以下项：

C=CHMIoU+λ1CVel+λ2CConf+λ3CAppr(10)C= C_{HMIoU} + \lambda_1 C_{Vel} + \lambda_2 C_{Conf} + \lambda_3 C_{Appr} \quad (10)C=CHMIoU+λ1CVel+λ2CConf+λ3CAppr(10)

4. 实验

4.1 实验设置

数据集：我们在各种 MOT 基准测试上评估了我们的设计，包括 DanceTrack, MOT20 和 MOT17。DanceTrack 目前是 MOT 领域最具挑战性的基准测试之一，其特征是多样的非线性运动模式以及频繁的交互和遮挡。值得注意的是，DanceTrack 中的检测任务相对容易，使其成为评估关联性能的理想基准。MOT20 旨在评估算法在密集目标和严重遮挡下的表现。MOT17 是 MOT 中广泛使用的标准基准，其中运动主要是线性的。鉴于这些基准的特征，我们主要关注在 DanceTrack 上比较我们的方法，因为我们旨在提高在具有挑战性的情况下利用弱线索的关联性能。我们使用 MOT17 和 MOT20 来评估我们方法在不同场景下的泛化能力。

指标：我们选择 HOTA 作为主要指标，因为它具有高阶性质。HOTA 结合了几个子指标，从不同角度评估算法，提供对算法性能的全面评估。我们还包括其他成熟的指标，如 MOTA 和 IDF1。IDF1 反映了跟踪器的关联方面，而 MOTA 主要受检测性能影响。

实现细节：为了确保公平比较并展示我们 Hybrid-SORT 的优越性，我们直接采用了现有工作中公开可用的检测和 ReID 模型。具体来说，对于检测部分，我们使用与基线 OC-SORT 相同的检测模型（即 YOLOX）。同样，对于 ReID 部分，我们使用 BoT-SORT 中的模型（即 BoT）。外观特征的维度为 2048。第一和第二关联阶段中置信度成本矩阵的权重超参数在 DanceTrack 上分别为 1.5 和 1.0，在其他基准测试上均为 1.0。ROCM 成本的权重为 0.2，与 OC-SORT 中的 OCM 相同。拒绝匹配的 IoU 阈值在 DanceTrack 上设置为 0.15，在其他基准测试上设置为 0.25。遵循 ByteTrack，FPS 是使用 batchsize 为 1 的 FP16 精度测量的。硬件为单个 V100 GPU 和 Intel Xeon® Silver 4214R CPU @ 2.40GHz。

4.2 基准测试结果

在本节中，我们展示了在 DanceTrack, MOT20 和 MOT17 上的基准测试结果。具有相同检测结果的方法在每个表格底部归为一组。

我们要强调的是，尽管在某些数据集上，Hybrid-SORT 的性能略落后于一些拥有更重模型（即 MOTRv2）、离线流程（即 SUSHI）或复杂流程（即 MotionTrack 和 FineTrack）的工作，但 Hybrid-SORT 在所有三个数据集中始终优于基线 OC-SORT，且额外计算量可忽略不计，并仍然保持了简单、在线和实时（SORT）的特性。

Hybrid-SORT 在 MOT17/20 上的有限改进很大程度上归因于数据集本身的固有缺陷。DanceTrack 和 PersonPath22 等突出研究提出了两个关键论点。首先，由于 MOT17/20 的规模有限（比 DanceTrack 小近 10 倍），方法的性能可能无法得到准确评估。其次，这两个数据集主要由简单的线性运动组成，性能相对饱和。

DanceTrack ：与之前的最先进启发式跟踪器 OC-SORT 相比，Hybrid-SORT 表现出显著优越的性能（即 7.6 HOTA），具有相同的关联输入和几乎相同的计算复杂度（参见表 1）。结果提供了令人信服的证据，即引入和建模多种类型的弱线索（如置信度状态和高度状态）可以有效且高效地解决强线索失效时的模糊和错误匹配。此外，使用独立的 ReID 模型，Hybrid-SORT-ReID 在 DanceTrack 上为启发式跟踪器实现了 65.7 的最新 HOTA。

MOT20 ：Hybrid-SORT 在 MOT20 测试集上取得了卓越的性能（如表 2 所示），具有高推理速度。具体来说，Hybrid-SORT 在所有指标上超越了 OC-SORT（即 0.4 HOTA, 0.3 IDF1, 和 0.9 MOTA），且额外计算量实际上难以区分。通过使用独立的 ReID 模型，Hybrid-SORT 在 MOT20 上为启发式跟踪器实现了 63.9 的最新 HOTA 性能。结果证明了所提出方法在建模弱线索以应对密集目标下聚集和严重遮挡场景时的有效性、鲁棒性和泛化能力。

MOT17 ：我们在表 3 中展示了 Hybrid-SORT 在 MOT17 上的性能。具体来说，Hybrid-SORT 在所有指标上超越了之前的最先进跟踪器 OC-SORT（即 0.4 HOTA, 0.9 IDF1, 和 1.3 MOTA），且额外计算量可忽略不计。通过整合独立的 ReID 模型，Hybrid-SORT 进一步实现了性能提升，在 MOT17 上设定了 64.0 的优越 HOTA。值得注意的是，我们的方法主要是为了解决目标聚集和复杂运动模式的挑战。然而，即使应用于代表更通用和更容易的线性运动场景的 MOT17 数据集，我们的方法也始终表现出增强的跟踪性能。

4.3 消融实验

组件消融 ：如表 4 所示。结果证明了 Hybrid-SORT 中提出模块的有效性和高效率。由 TCM 建模的置信度状态显著提升了性能，HOTA 提高了 4.0。值得注意的是，TCM 对推理速度的影响很小（-0.7 FPS）。同样，利用 HMIoU 的高度状态导致 HOTA 明显提高 1.6，而几乎不影响推理速度（-0.1 FPS）。ROCM 也将 HOTA 的关联性能提高了 0.6。然而，由于更多的时间间隔和建模点，ROCM 将推理速度降低了 1.5 FPS。使用常用的 ReID 模型，Hybrid-SORT-ReID 进一步将 HOTA 提高了 3.7，但推理速度变为接近实时。请注意，将 ReID 模型高效地整合到 MOT 框架超出了本文的范围。

TCM 中的建模策略 ：在表 5 中，我们研究了卡尔曼滤波和线性预测在 DanceTrack-val 上对置信度状态建模的性能。在与高置信度检测的第一关联阶段，卡尔曼滤波显著提升了关联性能，HOTA 提高了 2.9，而线性预测使 HOTA 降低了 1.1。我们将结果归因于高置信度检测通常不会受到严重遮挡，因此置信度是稳定的，没有表现出明确的方向趋势。所以卡尔曼滤波能很好地建模置信度状态，而线性预测则失败。在与低置信度检测的第二关联阶段，卡尔曼滤波和线性预测都表现良好（HOTA 分别为 0.7 和 1.1）。被遮挡目标的置信度可以根据聚集的开始或结束而迅速降低或增加。卡尔曼滤波相对无法建模这种突然变化，估计值通常滞后于实际置信度。然而，线性预测可以很好地建模方向性变化。

高度状态或宽度状态 ：我们认为高度状态而非宽度状态有利于关联。类似于 HMIoU，我们通过用宽度替换高度提出了宽度调制 IoU（WMIoU）。如表 6 所示，宽度状态显著损害了关联性能，而高度状态是有益的。原因是框宽由于姿态变化或肢体运动而不规则地变化，给卡尔曼滤波的精确估计带来了挑战。相比之下，高度状态在下蹲或站立期间经历相对短暂且连续的变化，使其能被卡尔曼滤波有效建模。

在其他跟踪器上的通用性 ：我们将我们的设计应用于其他 4 个代表性启发式跟踪器，即 SORT, DeepSORT, MOTDT 和 ByteTrack。在这些跟踪器中，SORT 和 ByteTrack 仅依赖空间信息，而 MOTDT 和 DeepSORT 联合利用空间和外观信息。结果呈现在表 7 和表 8 中，在上述所有跟踪器的 DanceTrack 和 MOT17 数据集中都可以观察到显著的改进。例如，我们的设计 TCM 将 DeepSORT 在 DanceTrack 上的性能提高了 4.9 HOTA，在 MOT17 上提高了 0.9 HOTA，而我们的 HMIoU 将 SORT 在 DanceTrack 上的性能提高了 1.6 HOTA，在 MOT17 上提高了 1.0 HOTA。这些结果提供了令人信服的证据，即我们引入弱线索（如置信度状态和高度状态）作为强线索补偿的见解是有效的，并且在不同的跟踪器和场景中具有良好的泛化能力。此外，我们的方法可以以即插即用和无训练的方式轻松应用于现有跟踪器，以增强性能。

5. 结论

在本文中，我们证明了常见的长期存在的严重遮挡和聚集挑战可以通过以前被忽视的弱线索（例如置信度状态、高度状态和速度方向）得到有效且高效的缓解。这些弱线索可以补偿强线索的局限性。然后，我们通过为新引入的弱线索引入简单的建模并利用强线索和弱线索，提出了 Hybrid-SORT，这显著提高了关联性能。此外，Hybrid-SORT 仍然保持了简单、在线和实时（SORT）的特性，并且可以以即插即用和无训练的方式轻松应用于现有跟踪器。大量的实验证明了 Hybrid-SORT 在不同跟踪器和场景中的强大泛化能力。结合广泛使用的外观信息，Hybrid-SORT 以更简单的流程和更快的关联速度实现了优于最先进方法的性能。我们希望 Hybrid-SORT 的上述特性使其对各种场景和计算资源有限的设备具有吸引力。