（论文速读）基于优化的YOLO-BFP和RIoU度量学习的动态尺度感知车辆再识别

****论文题目：****Dynamic scale-aware vehicle re-identification via optimized YOLO-BFP and RIoU metric learning（基于优化的YOLO-BFP和RIoU度量学习的动态尺度感知车辆再识别）

****期刊：****Multimedia Systems（SCI4-CCFC）

****摘要：****车辆目标检测与跟踪是智能交通领域的一个研究热点。然而，由于交通场景复杂多变、遮挡问题、光照变化、车辆尺度差异等因素，准确检测和跟踪车辆目标仍面临诸多挑战。本研究提出了一种改进的级联匹配车辆检测与跟踪算法，该算法基于YOLO框架，将优化后的特征提取网络与双向融合金字塔模块相结合，形成目标检测模型YOLOBFP。为了提高模型在目标跟踪中的性能，我们引入了RIoU模块，该模块通过检测盒与预测盒的高度比提供补充信息，从而提高了跟踪关联的精度。在此基础上，构建了基于YOLO-BFP的轻型多目标车辆跟踪框架。在UA-DETRAC数据集上的实验结果表明，该算法不仅性能突出，而且在保持较高处理速度的同时显著减少了ID切换的数量。在低分辨率场景下，YOLOv8 + IoU跟踪器的HOTA比YOLOv8 + IoU跟踪器高出4.46%，证明了轻量级模型在保持高性能跟踪效果的同时减少了计算负担。

用更少的计算，追更难的车：YOLO-BFP + RIoU 车辆多目标追踪详解

一、为什么这个问题值得研究？

在智能交通系统中，车辆检测与追踪是核心任务之一。它不仅支撑着交通流监控和事故预警，也是自动驾驶、车联网等前沿领域的基础能力。

然而，真实交通场景远比实验室复杂。道路上的车辆密度高、速度快，相机分辨率参差不齐，还有遮挡、运动模糊、光照突变等一系列"折磨"系统的因素。精确追踪，难。

目前主流方法采用"先检测，后追踪"（detect-then-track）的范式：先用检测模型定位每帧中的车辆，再通过关联算法把不同帧中的同一辆车串联起来。这个链条中，任何一环的失误都会引发ID Switch（身份切换），即系统把同一辆车当成了不同目标，或把不同的车认成了同一辆。

本文的研究正是针对这一链条中最关键的两个薄弱点展开：检测质量不足 和关联匹配不准。

二、现有方法有哪些痛点？

2.1 小目标检测能力弱

传统特征金字塔（FPN）只做单向的从高层到低层的信息传播（top-down），高层的语义信息可以指导低层，但低层丰富的细节信息却无法反哺高层。对于尺寸差异悬殊的车辆（比如远处的小轿车 vs. 近处的大巴车），这种单向结构在多尺度特征融合上力不从心。

2.2 标准 IoU 在遮挡/模糊下失效

IoU（Intersection over Union）是追踪关联中最常用的相似性度量------把检测框和预测框的交并比算出来，越接近1说明越可能是同一个目标。

但遮挡会导致检测框面积缩小、置信度下降 ；非线性快速运动会导致卡尔曼滤波的预测框偏移。在这两种情况下，IoU的计算结果不再可靠，关联容易出错，进而引发大量ID Switch。

论文展示了一个典型案例：一辆白色轿车被遮挡后，置信度从正常水平骤降至0.31，在标准追踪流程中直接被过滤掉，无法与历史轨迹成功关联。

2.3 单次关联匹配容错率低

传统方法通常只做一轮匹配：检测框要么和轨迹配上，要么被丢弃。这意味着低置信度的框（很可能包含真实车辆）会被直接抛弃，轨迹一旦丢失就很难恢复。

2.4 Re-ID 特征代价高

引入外观重识别（Re-ID）特征虽然能增强重识别能力，但需要额外的网络前向推理，在资源受限的设备上会显著降低处理帧率。

三、本文提出的解决方案

本文的方法体系由三个模块组成，分别对应检测、关联度量和追踪三个层面：

YOLO-BFP （改进检测器）+ RIoU （改进相似性度量）+ RCTrack（改进追踪算法）

【此处配图：图1 --- 整体框架图（论文Figure 1）】

3.1 YOLO-BFP：更强的多尺度检测器

骨干网络：EfficientNet + 层级窗口注意力

用 EfficientNet 替换原始 YOLO 骨干网络。EfficientNet 的核心思想是复合缩放：通过一套统一的缩放系数，同时按比例调整输入分辨率、网络深度和宽度，在计算量约束下实现最优性能。

在此基础上，进一步引入层级窗口注意力机制（Hierarchical Window Attention），其核心公式为：

通过局部窗口划分与层级结构，网络在局部细节捕获与全局上下文建模之间取得平衡，显著增强了在复杂车辆场景中的特征表达能力。

创新模块：双向融合金字塔（BFP）

BFP（Bidirectional Fusion Pyramid） 是本文在检测端最核心的创新。与传统FPN的单向传播不同，BFP构建了双向信息流：

Top-down：高层语义特征 → 低层，帮助低层理解"这是什么"
Bottom-up：低层细节特征 → 高层，帮助高层感知"在哪里、有多大"

双向融合公式：

更重要的是，BFP引入了动态权重归一化机制，让模型自动学习不同尺度特征的融合比例：

这意味着面对不同场景（近处大车 vs 远处小车），BFP能自适应地调整各层特征的贡献权重，而不是用固定比例生硬融合。

【此处配图：图1中YOLO-BFP内部结构部分，即Feature Fusion Mechanism示意】

3.2 RIoU：用高度比增强关联鲁棒性

设计动机

车辆在行驶中，形状相对稳定 。即便发生遮挡，检测框在高度维度上的变化也比宽度更具规律性和鲁棒性。标准IoU在遮挡场景下会整体偏小，但如果检测框和预测框在高度比例上差异很大，说明关联本身就存在问题。

计算方式

RIoU 在标准 IoU 的基础上，乘以一个高度相似性系数：

其中是卡尔曼滤波预测框的高度，是检测框的高度。取二者之比的较小值，确保系数始终在 (0, 1] 之间。

直觉理解：如果预测框和检测框高度相近（比例接近1），RIoU ≈ IoU，影响微小；如果高度差异悬殊，说明这次关联可能是误匹配，RIoU 会将原始 IoU 显著压低，从而减少错误关联。

【此处配图：图2 --- RIoU示意图（论文Figure 2）】

与同类方法的对比

HybridSort中的HMIoU也利用了高度信息，但其关注的是IoU区域高度与最小外接矩形高度之比 （偏向几何形状分析）；而RIoU关注的是预测框与检测框本身的高度之比（偏向实例形状一致性），两者出发点不同，但实验证明效果相当。

3.3 RCTrack：三阶段级联匹配

RCTrack（RIoU Enhanced Cascade Tracking Algorithm）的核心思想是：不同置信度的检测框、不同状态的轨迹，分阶段、分策略地进行关联。

【此处配图：图3 --- 级联匹配流程图（论文Figure 3）】

整个流程分为三轮：

第一轮：OCM 匹配（高置信度框优先）

OCM（Observation-Centric Momentum）将高置信度检测框 与卡尔曼滤波预测轨迹进行关联。传统方法直接假设线性运动，但实际车辆运动方向会有偏差且存在噪声干扰。OCM在损失函数中引入运动方向一致性损失项：

其中，V 是由前两次观测计算的平均速度。通过方向损失约束，减少累积估计误差对追踪的影响。

第二轮：Byte 匹配（挽救低置信度框）

第一轮未匹配的轨迹，与低置信度检测框进行关联。这一设计灵感来自ByteTrack------低置信度框很可能是被遮挡的真实目标，不应直接丢弃。通过Byte匹配，可以有效提升部分遮挡或运动模糊目标的关联成功率。

关联失败的低置信度框作为背景丢弃；未匹配的轨迹进入第三轮。

第三轮：OCR 匹配（轨迹恢复）

OCR（Observation-Centric Recovery）利用轨迹的最后一次有效观测位置，与OCM阶段遗留的未匹配高置信度框进行关联，实现对丢失轨迹的恢复。这一步与Byte匹配共同构成系统的"双保险"轨迹恢复机制。

最终，成功重关联的轨迹通过 OOS（Observation-centric Online Smoothing） 插值对卡尔曼滤波参数进行优化更新，减少过去遮挡带来的参数偏差。

整个RCTrack无需Re-ID特征提取，在维持高帧率的同时大幅降低ID Switch。

四、实验结果

4.1 实验设置

数据集：UA-DETRAC（40个视频序列，960×540分辨率，25FPS，涵盖多种场景和天气）
评估分辨率：主要在320×320（低分辨率场景），同时对比480×480和640×640
硬件：RTX 2080Ti GPU
评估指标：HOTA（越高越好）、MOTA、IDF1、MT（完全追踪比例）、ML（完全丢失比例）、IDSW（越低越好）、FPS（越高越好）

4.2 主要追踪结果对比

【此处配表：表1 --- UA-DETRAC数据集追踪结果对比（论文Table 1）】

核心发现：

YOLO-BFP + RCTrack 在320×320分辨率下达到 HOTA 59.32% ，相比基线 YOLOv8+IoU Tracker 提升 +4.46% HOTA，同时 IDSW 减少63次
相比同检测器下的ByteTrack：HOTA +2.15% ，MOTA +1.29% ，IDF1 +2.24%，IDSW减少165
相比OCSort：MOTA +0.95% ，IDSW大幅减少 237次
使用YOLO-BFP作为检测器时，搭配ByteTrack的速度比YOLOv8-N提升 25%