**摘要:**我们推出 DEIM ------一个创新且高效的训练框架,专为加速基于Transformer架构的实时目标检测(DETR)模型收敛而设计。为缓解DETR模型中一对一匹配(O2O)固有的稀疏监督问题, DEIM 采用了密集型O2O匹配策略:通过运用标准数据增强技术引入额外目标样本,从而提升每张图像的正样本数量。虽然密集型O2O匹配能加快收敛速度,但也会产生大量低质量匹配结果,影响模型性能。为此,我们提出匹配感知损失函数(MAL),该创新函数可优化不同质量水平下的匹配效果,显著提升密集型O2O方法的性能。在COCO数据集上的广泛实验验证了 DEIM 的有效性:与RT-DETR和D-FINE结合使用时,其不仅能持续提升性能,还能将训练时间缩短50%;尤其与RT-DETRv2配合使用时,在 NVIDIA 4090 GPU上单日训练即可实现53.2%的平均精度(AP)。此外,基于 DEIM 训练的实时模型表现优于主流实时目标检测器------ DEIM -D-FINE-L和 DEIM -D-FINE-X在 NVIDIA T4 GPU上以124帧/秒和78帧/秒的速度分别达到54.7%和56.5%的AP值,且无需额外数据支持。我们认为 DEIM 为实时目标检测领域的发展树立了新基准。相关代码及预训练模型可访问https://www.shihuahuang.cn/ DEIM /获取。
我们提出的 DEIM 示意图如下:黄色、红色和绿色方框分别代表真实标签(GT)、正样本和负样本;"pos."表示正样本。上图:我们的密集O2O方法(图2c)能提供与O2M方法(图2a)同等质量的正样本;下图:对于低质量匹配案例,使用VFL和MAL时的损失值以⋆标记,表明MAL能更有效地优化此类情况。
锚点/查询匹配比较。比较同一COCO数据集周期内每张图像中匹配的锚点/查询数量,分别采用一对多(SimOTA)和一对一(Hungarian)匹配方案进行分析。
VFL与MAL的比较:针对低质量(IoU = 0.05,图a)和高质量(IoU = 0.95,图b)匹配案例,对VFL与我们开发的MAL方法进行对比分析。
与COCOval2017数据集上的实时目标检测器进行对比。通过将我们的方法集成到D-FINE-L和 DFINE -X中,我们构建了 DEIM -D-FINE-L和 DEIM -D-FINE-X模型,并将其与基于YOLO和DETR的实时目标检测器进行性能比较。⋆表示该 NMS 模型采用0.01的置信度阈值进行调参。
与基于ResNet的DETR模型在COCOval2017数据集上的性能对比。通过将我们的方法集成到ResNet50和ResNet101中,我们构建了 DEIM -RT-DETRv2-R50和 DEIM -RT-DETRv2-R101模型,并将其与采用ResNet50或ResNet101作为骨干网络的竞争性DETR基目标检测器进行对比。
本文将D-FINE与我们在CrowdHuman数据集上的 DEIM 进行对比。两者均经过120个训练周期的训练。
对比不同马赛克与混淆增强策略组合的密集O2O方法。概率值表示训练过程中每个小批次应用马赛克和混淆增强的概率。
γ 在MAL中的影响。我们报告了其在COCOval2017数据集上经过24个训练周期的性能表现。
密集O2O与MAL的影响。我们使用RT-DETRv2-R50和D-FINE-L进行了实验。
训练时间(以GPU小时计)
来自 Object365 预训练的精细调优结果
结论:本文提出了一种名为 DEIM 的方法,旨在通过优化匹配机制来加速基于DETR的实时目标检测器的收敛速度。 DEIM 将密集O2O匹配(可增加每张图像的正样本数量)与MAL(一种专为优化不同质量匹配结果、尤其能提升低质量匹配效果的新型损失函数)相结合。这种组合显著提升了训练效率,使得 DEIM 相较于YOLOv11等模型能在更少训练轮次内实现更优性能。与RT-DETR、D-FINE等当前最先进的DETR模型相比, DEIM 在检测精度和训练速度方面均展现出明显优势,且不会影响推理延迟。这些特性使 DEIM 成为适用于实时场景的高效解决方案,并具备进一步优化及应用于其他高性能检测任务的潜力。