transformer目标检测 DETR

(在某些位置上查询有无物体以及类别)

四部分组成:

  • 骨干是CNN,输出的特征拉成一维;
  • transformer的encoder;
  • ransformer的decoder,Object Query,向量形式的anchor;
  • FFN,就是由两个全连接层+ReLu激活函数组成。

亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;

论文:https://arxiv.org/abs/2005.12872

代码:GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers

翻译论文博客:https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351

相关推荐
tobias.b1 分钟前
机器学习 超清晰通俗讲解 + 核心算法全解(深度+易懂版)
人工智能·算法·机器学习
code_pgf2 分钟前
Jetson 上 OpenClaw + Ollama + llama.cpp 的联动配置模板部署大模型
服务器·数据库·人工智能·llama
北京耐用通信3 分钟前
CC-Link IE转Modbus RTU选哪家?耐达讯自动化协议转换方案深度解析
人工智能·物联网·网络协议·自动化·信息与通信
guoji77885 分钟前
Gemini vs Grok镜像站技术拆解对比:视觉派与实时派的正面交锋
大数据·人工智能·gpt
踩着两条虫8 分钟前
AI 驱动的 Vue3 应用开发平台 深入探究(二十五):API与参考之Renderer API 参考
前端·vue.js·人工智能
Predestination王瀞潞8 分钟前
1.1.1 AI->GB T 42755-2023数据集标注标准:GB T 42755-2023《人工智能 面向机器学习的数据标注规程》
人工智能·机器学习
乐迪信息11 分钟前
乐迪信息:AI防爆摄像机在智慧港口船舶监测中的技术优势
大数据·人工智能·安全·计算机视觉·目标跟踪
合合技术团队17 分钟前
合合信息联合亚马逊云科技推出长文档智能处理方案,破解智能体规模化落地困局
大数据·人工智能·科技·文档解析
Mr.Cheng.19 分钟前
TOWARDS INTERPRETING VISUAL INFORMATIONPROCESSING IN VISION-LANGUAGE MODELS
人工智能·语言模型·自然语言处理
web3.088899923 分钟前
OpenClaw + 飞书打造 AI 电商选品系统,无缝对接三方数据服务商
人工智能·飞书