超越DFINE最新目标检测SOTA模型DEIM

代码地址:https://github.com/ShihuaHuang95/DEIM

论文地址:DEIM: DETR with Improved Matching for Fast Convergence

论文中文版:DEIM: 改进匹配的 DETR 以实现快速收敛

以下是文章的主要贡献和发现:

DEIM框架:提出了DEIM,这是一个简单且灵活的训练框架,用于加速实时目标检测模型的收敛。

Dense O2O匹配:通过在训练图像中增加目标数量,DEIM在保持一对一匹配结构的同时,增加了正样本的数量,从而提供了更密集的监督信号,加速了模型的学习。

Matchability-Aware Loss(MAL):提出了一种新的损失函数MAL,它根据匹配质量对损失进行缩放,优化了不同质量水平上的匹配,特别是在低质量匹配上,提高了有限正样本的效用。

实验验证:在COCO数据集上进行的广泛实验验证了DEIM的有效性。与RT-DETR和D-FINE集成时,DEIM在减少训练时间的同时提高了性能。特别是与RT-DETRv2集成时,DEIM在NVIDIA 4090 GPU上单天训练就达到了53.2%的平均精度(AP)。

性能提升:DEIM训练的实时模型在没有额外数据的情况下,超越了领先的实时目标检测器。例如,DEIM-D-FINE-L和DEIM-D-FINE-X在NVIDIA T4 GPU上分别以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP。

摘要

DEIM 通过采用密集的一对一(Dense O2O)匹配策略和提出一种新颖的损失函数 Matchability-Aware Loss (MAL),来增加每张图片中的正样本数量,优化不同质量水平的匹配效果。

在 COCO 数据集上的广泛实验验证了 DEIM 的有效性。与 RT-DETR 和 D-FINE 集成时,DEIM 能显著提升性能并减少50%的训练时间。

搭配 RT-DETRv2 使用时,DEIM 在 NVIDIA 4090 GPU 上仅用一天训练就达到了 53.2% AP。此外,DEIM 训练的实时模型在 NVIDIA T4 GPU 上达到了 54.7% 和 56.5% AP,性能超过了现有的实时目标检测器。

相关工作

目标检测与Transformer(DETR)

DETR基础:DETR(Detection Transformer)是一种基于Transformer的端到端目标检测框架,它通过使用匈牙利算法进行一对一(O2O)匹配,消除了对手工设计的非极大值抑制(NMS)的需求。DETR利用多头注意力机制捕捉全局上下文信息,从而提高定位和分类的准确性。

DETR的挑战:尽管DETR在目标检测领域显示出潜力,但它面临的主要挑战之一是收敛速度慢。这主要是因为O2O匹配机制限制了每个目标只有一个正样本,导致正样本稀疏,影响了模型的学习效率。

增加正样本数量

O2O与O2M:传统的目标检测方法,如YOLO系列,采用一对多(O2M)分配策略,为每个目标分配多个锚点,从而提供密集的监督信号,加速了模型的收敛并提高了性能。然而,这会导致每个目标产生多个重叠的边界框,需要NMS来移除冗余,引入了延迟和不稳定性。

在O2O框架内增加监督:一些研究探索了在O2O框架内增加监督的方法。例如,Group DETR使用多个查询组,每组独立进行O2O匹配,从而为每个目标分配多个正样本。Co-DETR提出了一种协作混合分配方案,通过辅助头与O2M标签分配结合,增强了编码器表示。

优化低质量匹配

查询初始化:DETR使用少量(100或300)随机初始化的查询,这些查询缺乏与目标的空间对齐,导致训练中存在大量低质量匹配。为了解决这个问题,一些方法引入了先验知识到查询初始化中,例如anchor queries、DAB-DETR、DN-DETR等。

损失函数的改进:现有的损失函数,如Varifocal Loss(VFL),主要针对高IoU的匹配进行优化,对低IoU的匹配关注不足。VFL主要针对高IoU匹配进行惩罚,对低IoU匹配的优化不足,因为它们的损失值很小。

减少计算成本

高效的注意力机制:为了提高效率和促进与多尺度特征的交互,开发了几种先进的注意力机制,如可变形注意力、多尺度可变形注意力、动态注意力和级联窗口注意力。

高效的编码器:例如,Lite DETR引入了一个编码器块,该块在高级和低级特征之间交替更新,而RT-DETR在其编码器中结合了CNN和自注意力,显著减少了资源消耗。

DEIM优化

提出的DEIM(Detection with Improved Matching)框架主要做了以下优化:

Dense O2O Matching(密集一对一匹配)

传统的DETR模型采用一对一(O2O)匹配策略,每个目标只与一个预测框匹配,这限制了正样本的数量,导致监督稀疏。

DEIM通过增加每张图片中的目标数量来增加正样本数量,使用如mosaic和mixup等数据增强技术,生成额外的正样本,从而提供更密集的监督,加速模型收敛。

Matchability-Aware Loss (MAL)(匹配能力感知损失)

为了处理密集一对一匹配引入的大量低质量匹配,DEIM提出了MAL,这是一种新的损失函数,它根据匹配质量(IoU)和分类置信度来调整损失,优化不同质量水平的匹配。

MAL在处理低质量匹配时,相比传统的Varifocal Loss (VFL),能够更有效地提升模型性能,特别是在训练的早期阶段。

DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度,与RT-DETRv2搭配使用时,仅需一半的训练周期就能达到相似的性能。

实验结果

在 MS-COCO 数据集上进行训练和验证,展示了 DEIM 在不同模型和数据集上的性能提升。

与现有的实时目标检测器(包括基于 YOLO 和 DETR 的模型)相比,DEIM 在训练成本、推理延迟和检测精度方面均表现出色。

相关推荐
说私域30 分钟前
AI 智能名片 S2B2C 商城小程序在社群团购运营中的作用与价值
大数据·人工智能·小程序
东方佑1 小时前
图像清晰度计算
人工智能·opencv·计算机视觉
whaosoft-1431 小时前
51c~Pytorch~合集2
人工智能
人机与认知实验室2 小时前
生物神经网络与人工神经网络都有自组织临界
人工智能·深度学习·神经网络·机器学习
微臣愚钝2 小时前
【实验16】基于双向LSTM模型完成文本分类任务
人工智能·rnn·lstm
小众AI2 小时前
supervision - 好用的计算机视觉 AI 工具库
人工智能·计算机视觉
WeeJot嵌入式3 小时前
深度学习中的多通道卷积与偏置过程详解
人工智能·深度学习
独泪了无痕3 小时前
【IntelliJ IDEA 集成工具】TalkX - AI编程助手
人工智能·个人开发·intellij idea
z千鑫3 小时前
【人工智能】ChatGPT 4的潜力:AI文案、绘画、视频与GPTs平台详解
人工智能·chatgpt·音视频