DETR【Transformer+目标检测】

End-to-End Object Detection with Transformers
2024 NVIDIA GTC,发布了地表最强的GPU B200,同时,黄仁勋对谈《Attention is All You Need》论文其中的7位作者,座谈的目的无非就是诉说,Transformer才是今天人工智能成功的核心关键,它上面承载着大模型的运转,下面承载着对训练和推理芯片的要求。

1、Introduction

DETR 的开创性主要体现不需要像Faster R-CNN、YOLO等目标检测算法那样,生成大量的预测框,然后再通过NMS非极大值抑制方法处理冗余的预测框。

而是,利用 Transformer 全局建模的能力,把目标检测看成集合预测(给定一张图片,返回一个集合,其中包括每个框的坐标,以及框中物体的类别)的问题。

2、DETR architecture

首先,图像经过CNN提取图像特征,再经过 Transformer Encoder 学习全局特征,让 Decoder 预测出检测结果,最后,将置信度大的目标作为检测结果。

3、Encoder self-attention

作者将编码器注意力可视化,利用对每个物体选一个点计算自注意力,可以发现,经过Transformer Encoder后每个物体都可以很好的区分开来。

4、Decoder

Encoder是学习全局特征,让物体之间尽可能分得开。但是对于轮廓点这些细节就需要Decoder去做,Decoder可以很好的处理遮挡问题。

5、Comparison with Faster R-CNN

6、Conclusion

  • 文章作者指出DETR的优势在于:
    • 对于大物体的检测,性能优于Faster R-CNN;
    • 模型结构简单,Pytorch推理代码不到50行;
    • 方便拓展到其他任务上,文章也指出DETR在全景分割上表现出不错的效果.
  • 文章作者也指出DETR存在的缺点:
    • 模型训练时间较长,大概需要500epoch;
    • 相对于Faster R-CNN,对于小物体的目标检测性能较差。

查阅文章

【计算机视觉 | 目标检测】Object query的理解
从人脑到Transformer:轻松理解注意力机制中的QKV
DETR哔哩哔哩讲解笔记
DETR哔哩哔哩讲解笔记
DETR哔哩哔哩讲解笔记
DETR哔哩哔哩讲解笔记

相关推荐
Quintus五等升2 分钟前
深度学习②|实现人数回归预测
人工智能·深度学习·学习·机器学习·回归
AI街潜水的八角3 分钟前
基于paddle框架的MobileNetV2深度学习神经网络番茄/西红柿叶子病虫害识别系统源码
深度学习·神经网络·paddle
计算机C9硕士_算法工程师8 分钟前
基于深度学习风力叶片缺陷检测系统 无人机自动巡检风电场 - 风电运维智能诊断平台 - 缺陷生命周期追踪系统
运维·深度学习·无人机
大模型最新论文速读17 分钟前
ProFit: 屏蔽低概率 token,解决 SFT 过拟合问题
人工智能·深度学习·机器学习·语言模型·自然语言处理
cskywit23 分钟前
VMamba环境本地适配配置
人工智能·深度学习·mamba
victory043124 分钟前
minimind SFT失败原因排查和解决办法
人工智能·python·深度学习
跳跳糖炒酸奶31 分钟前
基于深度学习的单目深度估计综述阅读(1)
人工智能·深度学习·数码相机·单目深度估计
2501_941333101 小时前
耳机听筒检测与识别 Ear_Piece和Head_Phone目标检测改进版freeanchor_r101_fpn_1x_coco模型_1
人工智能·目标检测·计算机视觉
逄逄不是胖胖1 小时前
《动手学深度学习》-48全连接卷积神经网络FCN实现
人工智能·深度学习·cnn
极智视界1 小时前
目标检测数据集 - 鹦鹉检测数据集下载
yolo·目标检测·数据集·voc·coco·算法训练·鹦鹉检测