《博主简介》
小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。
✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~
👍感谢小伙伴们点赞、关注!
《------往期经典推荐------》
二、机器学习实战专栏【链接】 ,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
引言
在实时目标检测上,RT-DETR击败了YOLO。其核心改进如下:
- 实时设计模型(RT-DETR)基于两个步骤提出:专注于在提高速度的同时保持精度,然后在提高精度的同时保持速度。
- 高效的混合编码器旨在通过解耦尺度内相互作用和跨尺度融合来快速处理多尺度特征,以提高速度。
- 然后,提出不确定性最小查询选择,为解码器提供高质量的初始查询,从而提高精度;
1. YOLO存在的问题
- 非极大值抑制NMS的执行时间主要取决于检测框数和两个阈值。
- 随着置信度阈值的增加,更多的预测框被过滤掉,需要计算IoU的剩余框数减少,从而减少了NMS的执行时间。
- 另一个观察结果是,无锚探测器的性能优于基于锚的探测器,其精度与YOLO探测器相当,因为前者比后者需要更少的NMS时间。
2. RT-DETR介绍
2.1. 概述
- 主干 {S3,S4,S5} 最后三级的特征被输送到编码器中。
- 高效的混合编码器通过
尺度内特征交互AIFI
和跨尺度特征融合CCFF
,将多尺度特征转化为一系列图像特征。 - 随后,采用不确定性最小查询选择来选择固定数量的编码器特征作为解码器的初始对象查询。
- 最后,带有辅助检测头的解码器迭代优化对象查询以生成类别和框。
2.2. 高效混合编码器
- 编码器占 GFLOP 的 49%,但在可变形 DETR 中仅贡献 11% 的 AP。需要优化的编码器设计。
- A:DINO-Deformable-R50具有更小尺寸的数据编码器和更轻的解码器。
- A → B:变体 B 将单尺度 Transformer 编码器插入 A,该编码器使用一层 Transformer 模块。多尺度要素共享编码器以进行尺度内特征交互,然后连接作为输出。
- B → C:变体 C 引入了基于 B 的跨尺度特征融合,并将串联的特征输送到多尺度 Transformer 编码器中,以同时执行尺度内和跨尺度特征交互。
- C → D:变体 D 通过前者使用单尺度 Transformer 编码器和后者使用 PANet 式结构,将尺度内相互作用和跨尺度融合解耦。
D → E:变体 E 采用了作者设计的高效混合编码器,增强了基于 D 的尺度内交互和跨尺度融合。
- 提出了基于注意力的尺度内特征交互(AIFI)和基于CNN的跨尺度特征融合(CCFF)2个组成部分
2.2.1. AIFI尺度内特征交互
具体而言,AIFI通过仅在S5上与单尺度Transformer编码器执行尺度内交互,进一步降低了基于变体D的计算成本。
- 在 S5 上使用 D 不仅可以显著降低延迟(提高 35%),还可以提高准确性(AP 提高 0.4%)。
2.2.2. CCFF跨尺度特征融合
- 融合块的作用是将两个相邻的尺度特征融合成一个新特征,如上所述。
- 使用两个 1 × 1 卷积来调整通道数,使用 N 个由 RepConv (RepVGG) 组成的 RepBlock 进行特征融合,并通过逐元加法融合双路径输出。
- 混合编码器的配方如下:
2.3. 不确定性最小查询选择
- 基于DETR的先前工作使用置信度分数来选择查询的前K个特征,这导致所选特征具有相当大的不确定性,导致解码器的初始化次优。
特征不确定性 U 定义为定位 P 与分类 C 的预测分布之间的差异,并添加到损失函数中。
- 紫色和绿色点分别表示使用不确定性最小查询选择和普通查询选择训练的模型中的选定特征。
紫色的点集中在图的右上角,而绿色的点集中在右下角。这表明不确定性最小查询选择会产生更高质量的编码器特征。
2.4. 缩放的RT-DETR
- 具体来说,对于混合编码器,宽度通过调整嵌入尺寸和通道数来控制,深度通过调整 Transformer 层数和 RepBlock 来控制。
- 解码器的宽度和深度可以通过操作对象查询和解码器层的数量来控制。
- 此外,RT-DETR的速度支持通过调整解码器层数进行灵活调整。
3. 实验结果
3.1. SOTA比较
- 与YOLOv5-L / PP-YOLOE-L / YOLOv6-L相比,RT-DETR-R50将精度提高了4.1%/1.7%/0.3% AP,FPS提高了100.0%/14.9%/9.1%,参数数量减少了8.7%/19.2%/28.8%。
- 与YOLOv5-X / PP-YOLOE-X相比,RT-DETR-R101的准确率提高了3.6%/2.0%,FPS提高了72.1%/23.3%,参数数量减少了11.6%/22.4%。
- 与YOLOv7-L / YOLOv8-L相比,RT-DETR-R50将准确度提高了1.9%/0.2% AP,并将FPS提高了96.4%/52.1%。
- 与YOLOv7-X / YOLOv8-X相比,RT-DETR-R101将准确度提高了1.4%/0.4% AP,并将FPS提高了64.4%/48.0%。
这表明所提出的RT-DETR实现了最先进的实时检测性能。
- 与 DINO-Deformable-DETR-R50 相比,RT-DETR-R50 将精度提高了 2.2% AP,将速度提高了 21 倍(108 FPS 对 5 FPS),两者都得到了显着提高。
RT-DETR 在速度和精度方面都优于所有具有相同主干的 DETRs。
3.2. 消融研究
编码器变体
所提出的混合编码器在速度和精度之间实现了更好的权衡。
- 通过不确定性最小查询选择选择的编码器特征不仅增加了高分类分数的比例(0.82% vs 0.35%),而且提供了更高质量的特征(0.67% vs 0.30%)。
不确定性最小查询选择实现了 0.8% AP 的改进(48.7% AP vs 47.9% AP)。
RT-DETR支持灵活的速度微调,无需重新训练即可调整解码器层数,从而提高其实用性。
好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!