DEIM ：采用改进匹配算法实现快速收敛的DETR（中国25年3月研究）

**摘要：**我们推出 DEIM ------一个创新且高效的训练框架，专为加速基于Transformer架构的实时目标检测（DETR）模型收敛而设计。为缓解DETR模型中一对一匹配（O2O）固有的稀疏监督问题， DEIM 采用了密集型O2O匹配策略：通过运用标准数据增强技术引入额外目标样本，从而提升每张图像的正样本数量。虽然密集型O2O匹配能加快收敛速度，但也会产生大量低质量匹配结果，影响模型性能。为此，我们提出匹配感知损失函数（MAL），该创新函数可优化不同质量水平下的匹配效果，显著提升密集型O2O方法的性能。在COCO数据集上的广泛实验验证了 DEIM 的有效性：与RT-DETR和D-FINE结合使用时，其不仅能持续提升性能，还能将训练时间缩短50%；尤其与RT-DETRv2配合使用时，在 NVIDIA 4090 GPU上单日训练即可实现53.2%的平均精度（AP）。此外，基于 DEIM 训练的实时模型表现优于主流实时目标检测器------ DEIM -D-FINE-L和 DEIM -D-FINE-X在 NVIDIA T4 GPU上以124帧/秒和78帧/秒的速度分别达到54.7%和56.5%的AP值，且无需额外数据支持。我们认为 DEIM 为实时目标检测领域的发展树立了新基准。相关代码及预训练模型可访问https://www.shihuahuang.cn/ DEIM /获取。
我们提出的 DEIM 示意图如下：黄色、红色和绿色方框分别代表真实标签（GT）、正样本和负样本；"pos."表示正样本。上图：我们的密集O2O方法（图2c）能提供与O2M方法（图2a）同等质量的正样本；下图：对于低质量匹配案例，使用VFL和MAL时的损失值以⋆标记，表明MAL能更有效地优化此类情况。
锚点/查询匹配比较。比较同一COCO数据集周期内每张图像中匹配的锚点/查询数量，分别采用一对多（SimOTA）和一对一（Hungarian）匹配方案进行分析。
VFL与MAL的比较：针对低质量（IoU = 0.05，图a）和高质量（IoU = 0.95，图b）匹配案例，对VFL与我们开发的MAL方法进行对比分析。
与COCOval2017数据集上的实时目标检测器进行对比。通过将我们的方法集成到D-FINE-L和 DFINE -X中，我们构建了 DEIM -D-FINE-L和 DEIM -D-FINE-X模型，并将其与基于YOLO和DETR的实时目标检测器进行性能比较。⋆表示该 NMS 模型采用0.01的置信度阈值进行调参。
与基于ResNet的DETR模型在COCOval2017数据集上的性能对比。通过将我们的方法集成到ResNet50和ResNet101中，我们构建了 DEIM -RT-DETRv2-R50和 DEIM -RT-DETRv2-R101模型，并将其与采用ResNet50或ResNet101作为骨干网络的竞争性DETR基目标检测器进行对比。
本文将D-FINE与我们在CrowdHuman数据集上的 DEIM 进行对比。两者均经过120个训练周期的训练。
对比不同马赛克与混淆增强策略组合的密集O2O方法。概率值表示训练过程中每个小批次应用马赛克和混淆增强的概率。
γ 在MAL中的影响。我们报告了其在COCOval2017数据集上经过24个训练周期的性能表现。
密集O2O与MAL的影响。我们使用RT-DETRv2-R50和D-FINE-L进行了实验。
训练时间（以GPU小时计）
来自 Object365 预训练的精细调优结果

结论：本文提出了一种名为 DEIM 的方法，旨在通过优化匹配机制来加速基于DETR的实时目标检测器的收敛速度。 DEIM 将密集O2O匹配（可增加每张图像的正样本数量）与MAL（一种专为优化不同质量匹配结果、尤其能提升低质量匹配效果的新型损失函数）相结合。这种组合显著提升了训练效率，使得 DEIM 相较于YOLOv11等模型能在更少训练轮次内实现更优性能。与RT-DETR、D-FINE等当前最先进的DETR模型相比， DEIM 在检测精度和训练速度方面均展现出明显优势，且不会影响推理延迟。这些特性使 DEIM 成为适用于实时场景的高效解决方案，并具备进一步优化及应用于其他高性能检测任务的潜力。