超越DFINE最新目标检测SOTA模型DEIM

代码地址:https://github.com/ShihuaHuang95/DEIM

论文地址:DEIM: DETR with Improved Matching for Fast Convergence

论文中文版:DEIM: 改进匹配的 DETR 以实现快速收敛

以下是文章的主要贡献和发现:

DEIM框架:提出了DEIM,这是一个简单且灵活的训练框架,用于加速实时目标检测模型的收敛。

Dense O2O匹配:通过在训练图像中增加目标数量,DEIM在保持一对一匹配结构的同时,增加了正样本的数量,从而提供了更密集的监督信号,加速了模型的学习。

Matchability-Aware Loss(MAL):提出了一种新的损失函数MAL,它根据匹配质量对损失进行缩放,优化了不同质量水平上的匹配,特别是在低质量匹配上,提高了有限正样本的效用。

实验验证:在COCO数据集上进行的广泛实验验证了DEIM的有效性。与RT-DETR和D-FINE集成时,DEIM在减少训练时间的同时提高了性能。特别是与RT-DETRv2集成时,DEIM在NVIDIA 4090 GPU上单天训练就达到了53.2%的平均精度(AP)。

性能提升:DEIM训练的实时模型在没有额外数据的情况下,超越了领先的实时目标检测器。例如,DEIM-D-FINE-L和DEIM-D-FINE-X在NVIDIA T4 GPU上分别以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP。

摘要

DEIM 通过采用密集的一对一(Dense O2O)匹配策略和提出一种新颖的损失函数 Matchability-Aware Loss (MAL),来增加每张图片中的正样本数量,优化不同质量水平的匹配效果。

在 COCO 数据集上的广泛实验验证了 DEIM 的有效性。与 RT-DETR 和 D-FINE 集成时,DEIM 能显著提升性能并减少50%的训练时间。

搭配 RT-DETRv2 使用时,DEIM 在 NVIDIA 4090 GPU 上仅用一天训练就达到了 53.2% AP。此外,DEIM 训练的实时模型在 NVIDIA T4 GPU 上达到了 54.7% 和 56.5% AP,性能超过了现有的实时目标检测器。

相关工作

目标检测与Transformer(DETR)

DETR基础:DETR(Detection Transformer)是一种基于Transformer的端到端目标检测框架,它通过使用匈牙利算法进行一对一(O2O)匹配,消除了对手工设计的非极大值抑制(NMS)的需求。DETR利用多头注意力机制捕捉全局上下文信息,从而提高定位和分类的准确性。

DETR的挑战:尽管DETR在目标检测领域显示出潜力,但它面临的主要挑战之一是收敛速度慢。这主要是因为O2O匹配机制限制了每个目标只有一个正样本,导致正样本稀疏,影响了模型的学习效率。

增加正样本数量

O2O与O2M:传统的目标检测方法,如YOLO系列,采用一对多(O2M)分配策略,为每个目标分配多个锚点,从而提供密集的监督信号,加速了模型的收敛并提高了性能。然而,这会导致每个目标产生多个重叠的边界框,需要NMS来移除冗余,引入了延迟和不稳定性。

在O2O框架内增加监督:一些研究探索了在O2O框架内增加监督的方法。例如,Group DETR使用多个查询组,每组独立进行O2O匹配,从而为每个目标分配多个正样本。Co-DETR提出了一种协作混合分配方案,通过辅助头与O2M标签分配结合,增强了编码器表示。

优化低质量匹配

查询初始化:DETR使用少量(100或300)随机初始化的查询,这些查询缺乏与目标的空间对齐,导致训练中存在大量低质量匹配。为了解决这个问题,一些方法引入了先验知识到查询初始化中,例如anchor queries、DAB-DETR、DN-DETR等。

损失函数的改进:现有的损失函数,如Varifocal Loss(VFL),主要针对高IoU的匹配进行优化,对低IoU的匹配关注不足。VFL主要针对高IoU匹配进行惩罚,对低IoU匹配的优化不足,因为它们的损失值很小。

减少计算成本

高效的注意力机制:为了提高效率和促进与多尺度特征的交互,开发了几种先进的注意力机制,如可变形注意力、多尺度可变形注意力、动态注意力和级联窗口注意力。

高效的编码器:例如,Lite DETR引入了一个编码器块,该块在高级和低级特征之间交替更新,而RT-DETR在其编码器中结合了CNN和自注意力,显著减少了资源消耗。

DEIM优化

提出的DEIM(Detection with Improved Matching)框架主要做了以下优化:

Dense O2O Matching(密集一对一匹配)

传统的DETR模型采用一对一(O2O)匹配策略,每个目标只与一个预测框匹配,这限制了正样本的数量,导致监督稀疏。

DEIM通过增加每张图片中的目标数量来增加正样本数量,使用如mosaic和mixup等数据增强技术,生成额外的正样本,从而提供更密集的监督,加速模型收敛。

Matchability-Aware Loss (MAL)(匹配能力感知损失)

为了处理密集一对一匹配引入的大量低质量匹配,DEIM提出了MAL,这是一种新的损失函数,它根据匹配质量(IoU)和分类置信度来调整损失,优化不同质量水平的匹配。

MAL在处理低质量匹配时,相比传统的Varifocal Loss (VFL),能够更有效地提升模型性能,特别是在训练的早期阶段。

DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度,与RT-DETRv2搭配使用时,仅需一半的训练周期就能达到相似的性能。

实验结果

在 MS-COCO 数据集上进行训练和验证,展示了 DEIM 在不同模型和数据集上的性能提升。

与现有的实时目标检测器(包括基于 YOLO 和 DETR 的模型)相比,DEIM 在训练成本、推理延迟和检测精度方面均表现出色。

相关推荐
牧歌悠悠3 小时前
【深度学习】Unet的基础介绍
人工智能·深度学习·u-net
坚毅不拔的柠檬柠檬4 小时前
AI革命下的多元生态:DeepSeek、ChatGPT、XAI、文心一言与通义千问的行业渗透与场景重构
人工智能·chatgpt·文心一言
坚毅不拔的柠檬柠檬4 小时前
2025:人工智能重构人类文明的新纪元
人工智能·重构
jixunwulian4 小时前
DeepSeek赋能AI边缘计算网关,开启智能新时代!
人工智能·边缘计算
Archie_IT4 小时前
DeepSeek R1/V3满血版——在线体验与API调用
人工智能·深度学习·ai·自然语言处理
大数据追光猿4 小时前
Python应用算法之贪心算法理解和实践
大数据·开发语言·人工智能·python·深度学习·算法·贪心算法
灵感素材坊5 小时前
解锁音乐创作新技能:AI音乐网站的正确使用方式
人工智能·经验分享·音视频
xinxiyinhe6 小时前
如何设置Cursor中.cursorrules文件
人工智能·python
AI服务老曹6 小时前
运用先进的智能算法和优化模型,进行科学合理调度的智慧园区开源了
运维·人工智能·安全·开源·音视频
alphaAIstack6 小时前
大语言模型推理能力从何而来?
人工智能·语言模型·自然语言处理