transformer目标检测 DETR

(在某些位置上查询有无物体以及类别)

四部分组成:

  • 骨干是CNN,输出的特征拉成一维;
  • transformer的encoder;
  • ransformer的decoder,Object Query,向量形式的anchor;
  • FFN,就是由两个全连接层+ReLu激活函数组成。

亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;

论文:https://arxiv.org/abs/2005.12872

代码:GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers

翻译论文博客:https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351

相关推荐
知秋一叶1239 小时前
Miloco v0.1.6 :米家摄像头清晰度配置 + RTSP 音频传输
人工智能·音视频·智能家居
sali-tec9 小时前
C# 基于OpenCv的视觉工作流-章20-仿射变换
图像处理·人工智能·opencv·算法·计算机视觉
zhangfeng11339 小时前
LLaMA Factory 完全支自定义词库(包括自定义微调数据集、自定义领域词汇/词表)
人工智能·llama
weisian1519 小时前
进阶篇-7-数学篇-6--向量、矩阵、张量在 AI 中的运算与应用:解锁智能的“计算语法”
人工智能·线性代数·矩阵·向量·ai运算
阿杰学AI9 小时前
AI核心知识76——大语言模型之RAG 2.0(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·rag·检索增强生成·rag2.0
shangjian0079 小时前
AI-大语言模型LLM-Transformer架构7-模型参数量计算
人工智能·语言模型·transformer
说私域9 小时前
开源链动2+1模式商城小程序在深度分销数字化转型中的应用研究
人工智能·小程序·开源·流量运营·私域运营
weixin_509138349 小时前
专业书评 | 《智能体认知动力学导论》:当思维有了形状
人工智能·智能体·认知动力学
nvd119 小时前
LangChain 核心对比:ChatPromptTemplate vs PromptTemplate
人工智能·langchain
万岳软件开发小城9 小时前
在线问诊系统源码实战:视频/图文问诊平台搭建步骤全解析
人工智能·开源·源码·在线问诊系统源码·问诊app开发·问诊软件开发·视频问诊小程序