《DETRs Beat YOLOs on Real-time Object Detection》CVPR2023论文解读

摘要

这篇论文介绍了一种名为Real-Time DEtection TRansformer (RT-DETR)的新方法,旨在解决现有端到端基于Transformer的目标检测(DETRs)在实时目标检测中的高计算成本问题。作者首先分析了现代实时目标检测器中非极大值抑制(NMS)对推理速度的影响,并建立了一个端到端速度基准。为了避免NMS引起的推理延迟,提出了RT-DETR,据作者所知,这是第一个实时端到端目标检测器。具体来说,设计了一个高效的混合编码器来处理多尺度特征,并通过解耦内部尺度交互和跨尺度融合来提高效率。此外,提出了IoU感知查询选择来改进目标查询的初始化。RT-DETR支持通过使用不同的解码器层灵活调整推理速度,而无需重新训练。实验结果表明,RT-DETR在速度和准确性方面均优于同规模的YOLO检测器。

拟解决的问题

  • DETRs的高计算成本:现有的端到端变换器基检测器(DETRs)虽然在性能上取得了显著进展,但其高计算成本限制了其在实时应用中的实用性。
  • NMS的推理延迟:现代实时目标检测器通常需要NMS进行后处理,这不仅难以优化,而且不够稳健,导致检测器的推理速度延迟。

创新之处

  1. 高效的混合编码器:通过解耦内部尺度交互和跨尺度融合,设计了一个能够高效处理多尺度特征的混合编码器。
  2. IoU感知查询选择:提出了一种新的查询选择方法,通过在训练期间引入IoU约束,提供更高质量的初始目标查询。
  3. 灵活调整推理速度:RT-DETR支持通过使用不同的解码器层来灵活调整推理速度,而无需重新训练,这有助于实时目标检测器的实际应用。

方法论

图1 架构图

论文提出的RT-DETR(Real-Time DEtection TRansformer)是一种实时端到端目标检测方法,其主要流程如下:

多尺度特征提取:使用主干网络(CNN Backbone)提取图像的多尺度特征。RT-DETR利用主干网最后三个阶段的输出特征(例如{S3, S4, S5})作为编码器的输入。

**高效的混合编码器(Efficient Hybrid Encoder):**设计一个高效的混合编码器来处理这些多尺度特征。该编码器包含两个主要模块:

  • 基于注意力的内部尺度特征交互(AIFI):仅对最高尺度的特征(例如S5)进行自注意力操作,以减少计算冗余。
  • 基于CNN的跨尺度特征融合模块(CCFM):使用融合块(Fusion Block)来融合不同尺度的特征,每个融合块包含多个重复块(RepBlocks)。

IoU感知查询选择(IoU-aware Query Selection):在混合编码器的输出序列中,使用IoU感知查询选择机制来选择一定数量的高质量图像特征,这些特征将作为解码器的初始对象查询。

Transformer解码器与辅助预测头(Decoder & Auxiliary Prediction Heads):使用Transformer 解码器和辅助预测头对所选的图像特征进行迭代优化,以生成目标的类别和边界框预测。

1. EHE

AIFI:仅对S5特征执行自注意力操作,公式如下:

CCFM:将AIFI模块的输出 𝐹5 与S3和S4特征一起进行跨尺度融合。使用融合块来融合特征,融合块的结构如下:具体的融合过程可见图1

将多尺度特征交互解耦为尺度内交互和跨尺度融合的两步操作。

2. IoU感知查询选择

在DETR及其变体中,对象查询是一组可学习的嵌入,它们通过解码器进行优化,并最终映射到目标的类别和边界框。传统的查询选择方法主要依赖于分类分数来选择顶部K个特征,但这可能导致选择出的查询在分类上得分高但与真实边界框(Ground Truth, GT)的交并比(IoU)较低。IoU感知查询选择的目标是在训练期间引导模型生成具有高分类分数和高IoU分数的特征,从而提高检测性能。

IoU感知查询选择通过在损失函数中引入IoU分数来实现对查询选择过程的优化。具体来说,这种方法在训练期间对模型施加约束,使得模型倾向于选择那些分类分数和IoU分数都较高的特征。

其中:

可视化:分类分数大于 0.5 的散点图可视化。红色和蓝色点分别由应用 vanilla 查询选择和提议的 IoU 感知查询选择训练的模型计算。

点越接近右上角,表示对应的特征质量越高,即分类标签和边界框更可能描述图像中的真实对象。可视化结果显示,使用IoU感知查询选择训练的模型生成了更多的高质量特征。

结论

RT-DETR是第一个实时端到端目标检测器,不仅在准确性和速度方面优于现有的实时检测器,而且不需要后处理,从而避免了NMS引起的推理速度延迟。通过实验验证,RT-DETR在COCO val2017数据集上取得了53.0%的AP(平均精度)和114 FPS(每秒帧数)的性能,优于同规模的YOLO检测器。此外,RT-DETR还支持通过使用不同的解码器层来灵活调整模型大小和推理速度,而无需重新训练,这为实时目标检测器的实际应用提供了可行的解决方案。

相关推荐
白光白光11 分钟前
大语言模型训练的两个阶段
人工智能·机器学习·语言模型
巷95536 分钟前
OpenCV图像金字塔详解:原理、实现与应用
人工智能·opencv·计算机视觉
科技小E44 分钟前
WebRTC实时音视频通话技术EasyRTC嵌入式音视频通信SDK,助力智慧物流打造实时高效的物流管理体系
人工智能·音视频
BioRunYiXue1 小时前
一文了解氨基酸的分类、代谢和应用
人工智能·深度学习·算法·机器学习·分类·数据挖掘·代谢组学
achene_ql1 小时前
深入探索 RKNN 模型转换之旅
python·目标检测·rk3588·模型部署·rk3566
IT古董2 小时前
【漫话机器学习系列】255.独立同分布(Independent and Identically Distributed,简称 IID)
人工智能·机器学习
fytianlan2 小时前
机器学习 day6 -线性回归练习
人工智能·机器学习·线性回归
算家云2 小时前
通义千问席卷日本!开源界“卷王”阿里通义千问成为日本AI发展新基石
人工智能·开源·通义千问·算家云·国产ai·租算力,到算家云·日本ai
ai产品老杨3 小时前
AI赋能安全生产,推进数智化转型的智慧油站开源了。
前端·javascript·vue.js·人工智能·ecmascript
明月醉窗台3 小时前
[20250507] AI边缘计算开发板行业调研报告 (2024年最新版)
人工智能·边缘计算