代码地址:https://github.com/ShihuaHuang95/DEIM
论文地址:DEIM: DETR with Improved Matching for Fast Convergence
论文中文版:DEIM: 改进匹配的 DETR 以实现快速收敛
以下是文章的主要贡献和发现:
DEIM框架:提出了DEIM,这是一个简单且灵活的训练框架,用于加速实时目标检测模型的收敛。
Dense O2O匹配:通过在训练图像中增加目标数量,DEIM在保持一对一匹配结构的同时,增加了正样本的数量,从而提供了更密集的监督信号,加速了模型的学习。
Matchability-Aware Loss(MAL):提出了一种新的损失函数MAL,它根据匹配质量对损失进行缩放,优化了不同质量水平上的匹配,特别是在低质量匹配上,提高了有限正样本的效用。
实验验证:在COCO数据集上进行的广泛实验验证了DEIM的有效性。与RT-DETR和D-FINE集成时,DEIM在减少训练时间的同时提高了性能。特别是与RT-DETRv2集成时,DEIM在NVIDIA 4090 GPU上单天训练就达到了53.2%的平均精度(AP)。
性能提升:DEIM训练的实时模型在没有额外数据的情况下,超越了领先的实时目标检测器。例如,DEIM-D-FINE-L和DEIM-D-FINE-X在NVIDIA T4 GPU上分别以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP。
摘要
DEIM 通过采用密集的一对一(Dense O2O)匹配策略和提出一种新颖的损失函数 Matchability-Aware Loss (MAL),来增加每张图片中的正样本数量,优化不同质量水平的匹配效果。
在 COCO 数据集上的广泛实验验证了 DEIM 的有效性。与 RT-DETR 和 D-FINE 集成时,DEIM 能显著提升性能并减少50%的训练时间。
搭配 RT-DETRv2 使用时,DEIM 在 NVIDIA 4090 GPU 上仅用一天训练就达到了 53.2% AP。此外,DEIM 训练的实时模型在 NVIDIA T4 GPU 上达到了 54.7% 和 56.5% AP,性能超过了现有的实时目标检测器。
相关工作
目标检测与Transformer(DETR)
DETR基础:DETR(Detection Transformer)是一种基于Transformer的端到端目标检测框架,它通过使用匈牙利算法进行一对一(O2O)匹配,消除了对手工设计的非极大值抑制(NMS)的需求。DETR利用多头注意力机制捕捉全局上下文信息,从而提高定位和分类的准确性。
DETR的挑战:尽管DETR在目标检测领域显示出潜力,但它面临的主要挑战之一是收敛速度慢。这主要是因为O2O匹配机制限制了每个目标只有一个正样本,导致正样本稀疏,影响了模型的学习效率。
增加正样本数量
O2O与O2M:传统的目标检测方法,如YOLO系列,采用一对多(O2M)分配策略,为每个目标分配多个锚点,从而提供密集的监督信号,加速了模型的收敛并提高了性能。然而,这会导致每个目标产生多个重叠的边界框,需要NMS来移除冗余,引入了延迟和不稳定性。
在O2O框架内增加监督:一些研究探索了在O2O框架内增加监督的方法。例如,Group DETR使用多个查询组,每组独立进行O2O匹配,从而为每个目标分配多个正样本。Co-DETR提出了一种协作混合分配方案,通过辅助头与O2M标签分配结合,增强了编码器表示。
优化低质量匹配
查询初始化:DETR使用少量(100或300)随机初始化的查询,这些查询缺乏与目标的空间对齐,导致训练中存在大量低质量匹配。为了解决这个问题,一些方法引入了先验知识到查询初始化中,例如anchor queries、DAB-DETR、DN-DETR等。
损失函数的改进:现有的损失函数,如Varifocal Loss(VFL),主要针对高IoU的匹配进行优化,对低IoU的匹配关注不足。VFL主要针对高IoU匹配进行惩罚,对低IoU匹配的优化不足,因为它们的损失值很小。
减少计算成本
高效的注意力机制:为了提高效率和促进与多尺度特征的交互,开发了几种先进的注意力机制,如可变形注意力、多尺度可变形注意力、动态注意力和级联窗口注意力。
高效的编码器:例如,Lite DETR引入了一个编码器块,该块在高级和低级特征之间交替更新,而RT-DETR在其编码器中结合了CNN和自注意力,显著减少了资源消耗。
DEIM优化
提出的DEIM(Detection with Improved Matching)框架主要做了以下优化:
Dense O2O Matching(密集一对一匹配)
传统的DETR模型采用一对一(O2O)匹配策略,每个目标只与一个预测框匹配,这限制了正样本的数量,导致监督稀疏。
DEIM通过增加每张图片中的目标数量来增加正样本数量,使用如mosaic和mixup等数据增强技术,生成额外的正样本,从而提供更密集的监督,加速模型收敛。
Matchability-Aware Loss (MAL)(匹配能力感知损失)
为了处理密集一对一匹配引入的大量低质量匹配,DEIM提出了MAL,这是一种新的损失函数,它根据匹配质量(IoU)和分类置信度来调整损失,优化不同质量水平的匹配。
MAL在处理低质量匹配时,相比传统的Varifocal Loss (VFL),能够更有效地提升模型性能,特别是在训练的早期阶段。
DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度,与RT-DETRv2搭配使用时,仅需一半的训练周期就能达到相似的性能。
实验结果
在 MS-COCO 数据集上进行训练和验证,展示了 DEIM 在不同模型和数据集上的性能提升。
与现有的实时目标检测器(包括基于 YOLO 和 DETR 的模型)相比,DEIM 在训练成本、推理延迟和检测精度方面均表现出色。