加电：DETR论文阅读

NONE-C2024-12-26 14:17

DETR：End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于，是将transformer引入到目标检测这一类计算机视觉的任务中，transformer的优势在于：模型的通用性和高上限(gpt是最好的例子，算力和效果正相关)；全局注意力机制；可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构，也是主流趋势。相较于以往的一阶段、二阶段的目标检测，DETR会抛弃之前的先验框，先验中心点角点这些人工设计的步骤，这个算是transfomer的附加优势，其注意力机制可以解决之前先验框问题。旧的模型中，之所以有先验框很大一部分原因是框的解空间太大了，没必要也难以穷举，于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中，做了：

引入二分图匹配来实现pred和gt的1对1匹配，顺带的优势便是可以实现并行解码

pipeline

利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
将encoder输出送入到decoder中得到预测结果
模型流程比较简单, 工作会集中在对怕热diction heads 的处理