超越DFINE最新目标检测SOTA模型DEIM

以下是文章的主要贡献和发现：

DEIM框架：提出了DEIM，这是一个简单且灵活的训练框架，用于加速实时目标检测模型的收敛。

Dense O2O匹配：通过在训练图像中增加目标数量，DEIM在保持一对一匹配结构的同时，增加了正样本的数量，从而提供了更密集的监督信号，加速了模型的学习。

Matchability-Aware Loss（MAL）：提出了一种新的损失函数MAL，它根据匹配质量对损失进行缩放，优化了不同质量水平上的匹配，特别是在低质量匹配上，提高了有限正样本的效用。

实验验证：在COCO数据集上进行的广泛实验验证了DEIM的有效性。与RT-DETR和D-FINE集成时，DEIM在减少训练时间的同时提高了性能。特别是与RT-DETRv2集成时，DEIM在NVIDIA 4090 GPU上单天训练就达到了53.2%的平均精度（AP）。

性能提升：DEIM训练的实时模型在没有额外数据的情况下，超越了领先的实时目标检测器。例如，DEIM-D-FINE-L和DEIM-D-FINE-X在NVIDIA T4 GPU上分别以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP。

摘要

DEIM 通过采用密集的一对一（Dense O2O）匹配策略和提出一种新颖的损失函数 Matchability-Aware Loss (MAL)，来增加每张图片中的正样本数量，优化不同质量水平的匹配效果。

在 COCO 数据集上的广泛实验验证了 DEIM 的有效性。与 RT-DETR 和 D-FINE 集成时，DEIM 能显著提升性能并减少50%的训练时间。

搭配 RT-DETRv2 使用时，DEIM 在 NVIDIA 4090 GPU 上仅用一天训练就达到了 53.2% AP。此外，DEIM 训练的实时模型在 NVIDIA T4 GPU 上达到了 54.7% 和 56.5% AP，性能超过了现有的实时目标检测器。

提出的DEIM（Detection with Improved Matching）框架主要做了以下优化：

传统的DETR模型采用一对一（O2O）匹配策略，每个目标只与一个预测框匹配，这限制了正样本的数量，导致监督稀疏。

DEIM通过增加每张图片中的目标数量来增加正样本数量，使用如mosaic和mixup等数据增强技术，生成额外的正样本，从而提供更密集的监督，加速模型收敛。

为了处理密集一对一匹配引入的大量低质量匹配，DEIM提出了MAL，这是一种新的损失函数，它根据匹配质量（IoU）和分类置信度来调整损失，优化不同质量水平的匹配。

MAL在处理低质量匹配时，相比传统的Varifocal Loss (VFL)，能够更有效地提升模型性能，特别是在训练的早期阶段。

DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度，与RT-DETRv2搭配使用时，仅需一半的训练周期就能达到相似的性能。

在 MS-COCO 数据集上进行训练和验证，展示了 DEIM 在不同模型和数据集上的性能提升。

与现有的实时目标检测器（包括基于 YOLO 和 DETR 的模型）相比，DEIM 在训练成本、推理延迟和检测精度方面均表现出色。