【目标检测】对DETR的简单理解

insight^tkk2024-02-05 19:25

【目标检测】对DETR的简单理解

文章目录

【目标检测】对DETR的简单理解
- [1. Abs](#1. Abs)
- [2. Intro](#2. Intro)
- [3. Method](#3. Method)
- - [3.1 模型结构](#3.1 模型结构)
  - [3.2 Loss](#3.2 Loss)
- [4. Exp](#4. Exp)
- [5. Discussion](#5. Discussion)
- - [5.1 二分匹配](#5.1 二分匹配)
  - [5.2 注意力机制](#5.2 注意力机制)
  - [5.3 方法存在的问题](#5.3 方法存在的问题)
- [6. Conclusion](#6. Conclusion)
- 参考

1. Abs

两句话概括：

第一个真正意义上的端到端检测器
最早将transformer应用到计算机视觉领域方法之一

2. Intro

基于Conv目标检测方法，如YOLO，在精度和速度上都已经非常优秀。

但是这些传统算法往往需要prior和post-process流程，导致额外的计算量，需要复杂的代码来部署模型。

prior：例如，YOLOv5使用聚类算法提前计算anchor boxes

post-process：例如，NMS去除多余预测框

DETR则完全不需要这些，从输入到输出，一气呵成，简洁优雅。

3. Method

3.1 模型结构

网络架构如图所示，同样非常简单

一个backbone：提取特征
两个transformer
1. encoder：将特征图展平成序列，加上位置编码，使用self-attn进一步处理，使得每个特征向量关注到合适的特征表示
2. decoder：cross-attn，query在特征序列上"逐个问询是否存在目标，目标在哪，有多大"，使得query学习到目标的位置信息和特征表示
两个FFN：对query的信息进行"解压"，得到预测结果（类别和边界框）。

3.2 Loss

分类：负log损失

bbox:（GIoU）IoU损失 + L1损失

4. Exp

除了AP75和APs，DETR在同样的参数规模下都超过了Faster RCNN，但是计算量和检测速度更慢。

5. Discussion

5.1 二分匹配

匈牙利算法可参考[3]

由于DETR默认使用100个queries，即模型输出100个预测框，而实际目标数量只有几个；
因此，需要通过二分匹配算法得到最终的预测结果；
简单来说，就是要把query和gt一一对应，如果一张图像中有5个gt，则在100个queries中通过匹配算法筛选出5个最接近gt的预测结果。

5.2 注意力机制

如图是decoder的注意力可视化结果，可以看到query更关注于物体的边边角角，为目标定位提供了有效信息。

5.3 方法存在的问题

使用self-attn，太长的特征序列会导致爆炸的计算量，因此输入图像也不能太大
transformer收敛速度慢，训练时间长
小目标效果一般

6. Conclusion

DETR为目标检测提供了简洁有效的端到端检测框架，且达到了主流检测器的水平，但仍然有较多改进空间。

参考

1\] https://arxiv.org/abs/2005.12872 \[2\] https://www.bilibili.com/video/BV1ZT411D7xK/ \[3\] https://blog.csdn.net/qq_54185421/article/details/125992305

上一篇：Angular BaseView抽离页面公用属性

下一篇：Linux命令-arping命令（通过发送ARP协议报文测试网络）

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）07Spring 调试终于不再痛苦了 082025最新国内服务器可用docker源仓库地址大全（2025年8月更新）09Claude Code VSCode集成开发指南：AI编程助手完整配置 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南