《DETRs Beat YOLOs on Real-time Object Detection》CVPR2023论文解读

摘要

这篇论文介绍了一种名为Real-Time DEtection TRansformer (RT-DETR)的新方法,旨在解决现有端到端基于Transformer的目标检测(DETRs)在实时目标检测中的高计算成本问题。作者首先分析了现代实时目标检测器中非极大值抑制(NMS)对推理速度的影响,并建立了一个端到端速度基准。为了避免NMS引起的推理延迟,提出了RT-DETR,据作者所知,这是第一个实时端到端目标检测器。具体来说,设计了一个高效的混合编码器来处理多尺度特征,并通过解耦内部尺度交互和跨尺度融合来提高效率。此外,提出了IoU感知查询选择来改进目标查询的初始化。RT-DETR支持通过使用不同的解码器层灵活调整推理速度,而无需重新训练。实验结果表明,RT-DETR在速度和准确性方面均优于同规模的YOLO检测器。

拟解决的问题

  • DETRs的高计算成本:现有的端到端变换器基检测器(DETRs)虽然在性能上取得了显著进展,但其高计算成本限制了其在实时应用中的实用性。
  • NMS的推理延迟:现代实时目标检测器通常需要NMS进行后处理,这不仅难以优化,而且不够稳健,导致检测器的推理速度延迟。

创新之处

  1. 高效的混合编码器:通过解耦内部尺度交互和跨尺度融合,设计了一个能够高效处理多尺度特征的混合编码器。
  2. IoU感知查询选择:提出了一种新的查询选择方法,通过在训练期间引入IoU约束,提供更高质量的初始目标查询。
  3. 灵活调整推理速度:RT-DETR支持通过使用不同的解码器层来灵活调整推理速度,而无需重新训练,这有助于实时目标检测器的实际应用。

方法论

图1 架构图

论文提出的RT-DETR(Real-Time DEtection TRansformer)是一种实时端到端目标检测方法,其主要流程如下:

多尺度特征提取:使用主干网络(CNN Backbone)提取图像的多尺度特征。RT-DETR利用主干网最后三个阶段的输出特征(例如{S3, S4, S5})作为编码器的输入。

**高效的混合编码器(Efficient Hybrid Encoder):**设计一个高效的混合编码器来处理这些多尺度特征。该编码器包含两个主要模块:

  • 基于注意力的内部尺度特征交互(AIFI):仅对最高尺度的特征(例如S5)进行自注意力操作,以减少计算冗余。
  • 基于CNN的跨尺度特征融合模块(CCFM):使用融合块(Fusion Block)来融合不同尺度的特征,每个融合块包含多个重复块(RepBlocks)。

IoU感知查询选择(IoU-aware Query Selection):在混合编码器的输出序列中,使用IoU感知查询选择机制来选择一定数量的高质量图像特征,这些特征将作为解码器的初始对象查询。

Transformer解码器与辅助预测头(Decoder & Auxiliary Prediction Heads):使用Transformer 解码器和辅助预测头对所选的图像特征进行迭代优化,以生成目标的类别和边界框预测。

1. EHE

AIFI:仅对S5特征执行自注意力操作,公式如下:

CCFM:将AIFI模块的输出 𝐹5 与S3和S4特征一起进行跨尺度融合。使用融合块来融合特征,融合块的结构如下:具体的融合过程可见图1

将多尺度特征交互解耦为尺度内交互和跨尺度融合的两步操作。

2. IoU感知查询选择

在DETR及其变体中,对象查询是一组可学习的嵌入,它们通过解码器进行优化,并最终映射到目标的类别和边界框。传统的查询选择方法主要依赖于分类分数来选择顶部K个特征,但这可能导致选择出的查询在分类上得分高但与真实边界框(Ground Truth, GT)的交并比(IoU)较低。IoU感知查询选择的目标是在训练期间引导模型生成具有高分类分数和高IoU分数的特征,从而提高检测性能。

IoU感知查询选择通过在损失函数中引入IoU分数来实现对查询选择过程的优化。具体来说,这种方法在训练期间对模型施加约束,使得模型倾向于选择那些分类分数和IoU分数都较高的特征。

其中:

可视化:分类分数大于 0.5 的散点图可视化。红色和蓝色点分别由应用 vanilla 查询选择和提议的 IoU 感知查询选择训练的模型计算。

点越接近右上角,表示对应的特征质量越高,即分类标签和边界框更可能描述图像中的真实对象。可视化结果显示,使用IoU感知查询选择训练的模型生成了更多的高质量特征。

结论

RT-DETR是第一个实时端到端目标检测器,不仅在准确性和速度方面优于现有的实时检测器,而且不需要后处理,从而避免了NMS引起的推理速度延迟。通过实验验证,RT-DETR在COCO val2017数据集上取得了53.0%的AP(平均精度)和114 FPS(每秒帧数)的性能,优于同规模的YOLO检测器。此外,RT-DETR还支持通过使用不同的解码器层来灵活调整模型大小和推理速度,而无需重新训练,这为实时目标检测器的实际应用提供了可行的解决方案。

相关推荐
m0_6090004213 分钟前
向日葵好用吗?4款稳定的远程控制软件推荐。
运维·服务器·网络·人工智能·远程工作
开MINI的工科男1 小时前
深蓝学院-- 量产自动驾驶中的规划控制算法 小鹏
人工智能·机器学习·自动驾驶
AI大模型知识分享2 小时前
Prompt最佳实践|如何用参考文本让ChatGPT答案更精准?
人工智能·深度学习·机器学习·chatgpt·prompt·gpt-3
张人玉4 小时前
人工智能——猴子摘香蕉问题
人工智能
草莓屁屁我不吃4 小时前
Siri因ChatGPT-4o升级:我们的个人信息还安全吗?
人工智能·安全·chatgpt·chatgpt-4o
小言从不摸鱼4 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
AI科研视界5 小时前
ChatGPT+2:修订初始AI安全性和超级智能假设
人工智能·chatgpt
霍格沃兹测试开发学社测试人社区5 小时前
人工智能 | 基于ChatGPT开发人工智能服务平台
软件测试·人工智能·测试开发·chatgpt
小R资源5 小时前
3款免费的GPT类工具
人工智能·gpt·chatgpt·ai作画·ai模型·国内免费
artificiali8 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python