transformer目标检测 DETR

(在某些位置上查询有无物体以及类别)

四部分组成:

  • 骨干是CNN,输出的特征拉成一维;
  • transformer的encoder;
  • ransformer的decoder,Object Query,向量形式的anchor;
  • FFN,就是由两个全连接层+ReLu激活函数组成。

亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;

论文:https://arxiv.org/abs/2005.12872

代码:GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers

翻译论文博客:https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351

相关推荐
山烛4 分钟前
KNN 算法中的各种距离:从原理到应用
人工智能·python·算法·机器学习·knn·k近邻算法·距离公式
盲盒Q14 分钟前
《频率之光:归途之光》
人工智能·硬件架构·量子计算
墨染点香23 分钟前
第七章 Pytorch构建模型详解【构建CIFAR10模型结构】
人工智能·pytorch·python
go546315846523 分钟前
基于分组规则的Excel数据分组优化系统设计与实现
人工智能·学习·生成对抗网络·数学建模·语音识别
茫茫人海一粒沙29 分钟前
vLLM 的“投机取巧”:Speculative Decoding 如何加速大语言模型推理
人工智能·语言模型·自然语言处理
诗酒当趁年华31 分钟前
【NLP实践】二、自训练数据实现中文文本分类并提供RestfulAPI服务
人工智能·自然语言处理·分类
静心问道1 小时前
Idefics3:构建和更好地理解视觉-语言模型:洞察与未来方向
人工智能·多模态·ai技术应用
sheep88881 小时前
AI与区块链Web3技术融合:重塑数字经济的未来格局
人工智能·区块链
奋进的孤狼1 小时前
【Spring AI】阿里云DashScope灵积模型
人工智能·spring·阿里云·ai·云计算
AIGC_北苏1 小时前
让UV管理一切!!!
linux·人工智能·uv