transformer目标检测 DETR

(在某些位置上查询有无物体以及类别)

四部分组成:

  • 骨干是CNN,输出的特征拉成一维;
  • transformer的encoder;
  • ransformer的decoder,Object Query,向量形式的anchor;
  • FFN,就是由两个全连接层+ReLu激活函数组成。

亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;

论文:https://arxiv.org/abs/2005.12872

代码:GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers

翻译论文博客:https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351

相关推荐
Skrrapper3 分钟前
【大模型开发之数据挖掘】2.数据挖掘的核心任务与常用方法
数据库·人工智能·数据挖掘
围炉聊科技4 分钟前
尝鲜 AWS Agentic IDE:Kiro 一周使用初体验
ide·人工智能·ai编程·aws
智算菩萨1 小时前
从对话演示到智能工作平台:ChatGPT的三年演进史(2022-2025)
人工智能·chatgpt
lsrsyx1 小时前
以科技守护长寿:Quantum Life 自主研发AI驱动平台助力港怡医疗,开启香港精准预防医疗新时代
人工智能·科技
Good kid.1 小时前
基于XGBoost的中文垃圾分类系统实战(TF-IDF + XGBoost)
人工智能·分类·tf-idf
It's now8 小时前
Spring AI 基础开发流程
java·人工智能·后端·spring
Glad_R8 小时前
巧用AI流程图,让信息呈现更全面
人工智能·信息可视化·产品运营·流程图·产品经理
西南胶带の池上桜9 小时前
1.Pytorch模型应用(线性与非线性预测)
人工智能·pytorch·python
杀生丸学AI9 小时前
【无标题】VGGT4D:用于4D场景重建的视觉Transformer运动线索挖掘
人工智能·深度学习·3d·aigc·transformer·三维重建·视觉大模型