transformer目标检测 DETR

(在某些位置上查询有无物体以及类别)

四部分组成:

  • 骨干是CNN,输出的特征拉成一维;
  • transformer的encoder;
  • ransformer的decoder,Object Query,向量形式的anchor;
  • FFN,就是由两个全连接层+ReLu激活函数组成。

亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;

论文:https://arxiv.org/abs/2005.12872

代码:GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers

翻译论文博客:https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351

相关推荐
却道天凉_好个秋5 分钟前
OpenCV(四):视频采集与保存
人工智能·opencv·音视频
minhuan6 分钟前
构建AI智能体:五十七、LangGraph + Gradio:构建可视化AI工作流的趣味指南
人工智能·语言模型·workflow·langgraph·自定义工作流
WWZZ202526 分钟前
ORB_SLAM2原理及代码解析:SetPose() 函数
人工智能·opencv·算法·计算机视觉·机器人·自动驾驶
lisw0526 分钟前
AIoT(人工智能物联网):融合范式下的技术演进、系统架构与产业变革
大数据·人工智能·物联网·机器学习·软件工程
java1234_小锋32 分钟前
TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 立即执行模式(Eager Execution)
python·深度学习·tensorflow·tensorflow2
mtouch3331 小时前
GIS+VR地理信息虚拟现实XR MR AR
大数据·人工智能·ar·无人机·xr·vr·mr
一人の梅雨1 小时前
1688 拍立淘接口深度开发:从图像识别到供应链匹配的技术实现
人工智能·算法·计算机视觉
dundunmm1 小时前
【数据集】WebQuestions
人工智能·llm·数据集·知识库问答·知识库
wan5555cn2 小时前
Windows 11系统鼠标键盘被禁用问题的全面解决方案
windows·笔记·深度学习·计算机外设
却道天凉_好个秋2 小时前
OpenCV(五):鼠标控制
人工智能·opencv·鼠标控制