(在某些位置上查询有无物体以及类别)
四部分组成:
- 骨干是CNN,输出的特征拉成一维;
- transformer的encoder;
- ransformer的decoder,Object Query,向量形式的anchor;
- FFN,就是由两个全连接层+ReLu激活函数组成。
亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;
论文:https://arxiv.org/abs/2005.12872
代码:GitHub - facebookresearch/detr: End-to-End Object Detection with Transformers
翻译论文博客:https://zhuanlan.zhihu.com/p/701507885
https://zhuanlan.zhihu.com/p/366938351