《DETRs Beat YOLOs on Real-time Object Detection》CVPR2023论文解读

摘要

这篇论文介绍了一种名为Real-Time DEtection TRansformer (RT-DETR)的新方法，旨在解决现有端到端基于Transformer的目标检测（DETRs）在实时目标检测中的高计算成本问题。作者首先分析了现代实时目标检测器中非极大值抑制（NMS）对推理速度的影响，并建立了一个端到端速度基准。为了避免NMS引起的推理延迟，提出了RT-DETR，据作者所知，这是第一个实时端到端目标检测器。具体来说，设计了一个高效的混合编码器来处理多尺度特征，并通过解耦内部尺度交互和跨尺度融合来提高效率。此外，提出了IoU感知查询选择来改进目标查询的初始化。RT-DETR支持通过使用不同的解码器层灵活调整推理速度，而无需重新训练。实验结果表明，RT-DETR在速度和准确性方面均优于同规模的YOLO检测器。

拟解决的问题

DETRs的高计算成本：现有的端到端变换器基检测器（DETRs）虽然在性能上取得了显著进展，但其高计算成本限制了其在实时应用中的实用性。
NMS的推理延迟：现代实时目标检测器通常需要NMS进行后处理，这不仅难以优化，而且不够稳健，导致检测器的推理速度延迟。

创新之处

高效的混合编码器：通过解耦内部尺度交互和跨尺度融合，设计了一个能够高效处理多尺度特征的混合编码器。
IoU感知查询选择：提出了一种新的查询选择方法，通过在训练期间引入IoU约束，提供更高质量的初始目标查询。
灵活调整推理速度：RT-DETR支持通过使用不同的解码器层来灵活调整推理速度，而无需重新训练，这有助于实时目标检测器的实际应用。

方法论

图1 架构图

论文提出的RT-DETR（Real-Time DEtection TRansformer）是一种实时端到端目标检测方法，其主要流程如下：

多尺度特征提取：使用主干网络（CNN Backbone）提取图像的多尺度特征。RT-DETR利用主干网最后三个阶段的输出特征（例如{S3, S4, S5}）作为编码器的输入。

**高效的混合编码器（Efficient Hybrid Encoder）：**设计一个高效的混合编码器来处理这些多尺度特征。该编码器包含两个主要模块：

基于注意力的内部尺度特征交互（AIFI）：仅对最高尺度的特征（例如S5）进行自注意力操作，以减少计算冗余。
基于CNN的跨尺度特征融合模块（CCFM）：使用融合块（Fusion Block）来融合不同尺度的特征，每个融合块包含多个重复块（RepBlocks）。

IoU感知查询选择（IoU-aware Query Selection）：在混合编码器的输出序列中，使用IoU感知查询选择机制来选择一定数量的高质量图像特征，这些特征将作为解码器的初始对象查询。

Transformer解码器与辅助预测头（Decoder & Auxiliary Prediction Heads）：使用Transformer 解码器和辅助预测头对所选的图像特征进行迭代优化，以生成目标的类别和边界框预测。

1. EHE

AIFI：仅对S5特征执行自注意力操作，公式如下：

CCFM：将AIFI模块的输出 𝐹5 与S3和S4特征一起进行跨尺度融合。使用融合块来融合特征，融合块的结构如下：具体的融合过程可见图1

将多尺度特征交互解耦为尺度内交互和跨尺度融合的两步操作。

2. IoU感知查询选择

在DETR及其变体中，对象查询是一组可学习的嵌入，它们通过解码器进行优化，并最终映射到目标的类别和边界框。传统的查询选择方法主要依赖于分类分数来选择顶部K个特征，但这可能导致选择出的查询在分类上得分高但与真实边界框（Ground Truth, GT）的交并比（IoU）较低。IoU感知查询选择的目标是在训练期间引导模型生成具有高分类分数和高IoU分数的特征，从而提高检测性能。

IoU感知查询选择通过在损失函数中引入IoU分数来实现对查询选择过程的优化。具体来说，这种方法在训练期间对模型施加约束，使得模型倾向于选择那些分类分数和IoU分数都较高的特征。

其中：

可视化：分类分数大于 0.5 的散点图可视化。红色和蓝色点分别由应用 vanilla 查询选择和提议的 IoU 感知查询选择训练的模型计算。

点越接近右上角，表示对应的特征质量越高，即分类标签和边界框更可能描述图像中的真实对象。可视化结果显示，使用IoU感知查询选择训练的模型生成了更多的高质量特征。

结论

RT-DETR是第一个实时端到端目标检测器，不仅在准确性和速度方面优于现有的实时检测器，而且不需要后处理，从而避免了NMS引起的推理速度延迟。通过实验验证，RT-DETR在COCO val2017数据集上取得了53.0%的AP（平均精度）和114 FPS（每秒帧数）的性能，优于同规模的YOLO检测器。此外，RT-DETR还支持通过使用不同的解码器层来灵活调整模型大小和推理速度，而无需重新训练，这为实时目标检测器的实际应用提供了可行的解决方案。