transformer目标检测 DETR

wangzha_m2024-09-24 4:01

（在某些位置上查询有无物体以及类别）

四部分组成：

骨干是CNN，输出的特征拉成一维；
transformer的encoder；
ransformer的decoder，Object Query，向量形式的anchor；
FFN，就是由两个全连接层+ReLu激活函数组成。

亮点：位置编码，encoder中加了，decoder中也加了；没用NMS，用的匈牙利匹配；两个注意力自注意力+交叉注意，交叉注意在decoder，object queries做的是qurey；object queries是固定100个；

论文：https://arxiv.org/abs/2005.12872

代码：GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers

翻译论文博客：https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351

上一篇：离散化算法

下一篇：探索Mem0：AI的智能记忆层

热门推荐

01UV安装并设置国内源 02【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 052025最新国内服务器可用docker源仓库地址大全（2025年8月更新）06蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE Rules 实践：为项目配置 6A 工作流