加电:DETR论文阅读

DETR:End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于,是将transformer引入到目标检测这一类计算机视觉的任务中,transformer的优势在于:模型的通用性和高上限(gpt是最好的例子,算力和效果正相关);全局注意力机制;可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构,也是主流趋势。相较于以往的一阶段、二阶段的目标检测,DETR会抛弃之前的先验框,先验中心点角点这些人工设计的步骤,这个算是transfomer的附加优势,其注意力机制可以解决之前先验框问题。旧的模型中,之所以有先验框很大一部分原因是框的解空间太大了,没必要也难以穷举,于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中,做了:

  • 引入二分图匹配来实现pred和gt的1对1匹配,顺带的优势便是可以实现并行解码

pipeline

  • 利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
  • 将encoder输出送入到decoder中得到预测结果
    模型流程比较简单, 工作会集中在对怕热diction heads 的处理
相关推荐
DuHz9 小时前
基于时频域霍夫变换的汽车雷达互干扰抑制——论文阅读
论文阅读·算法·汽车·毫米波雷达
张较瘦_10 小时前
[论文阅读] AI + 职业教育 | 从框架到实践:职业院校教师人工智能素养提升的完整方案
论文阅读·人工智能
仙人掌_lz10 小时前
Kimi Linear 论文阅读笔记:第一次“线性注意力”全面胜过全注意力
论文阅读·笔记
平和男人杨争争10 小时前
SNN(TTFS)论文阅读——LC-TTFS
论文阅读·人工智能·神经网络·机器学习
2301_7978928310 小时前
论文阅读:《A Universal Model for Human Mobility Prediction》
论文阅读
锂享生活15 小时前
论文阅读:铁路车辆跨临界 CO₂ 空调系统模型预测控制(MPC)策略
论文阅读·算法
DuHz18 小时前
霍夫变换和基于时频脊线的汽车FMCW雷达干扰抑制——论文阅读
论文阅读·物联网·算法·汽车·信息与通信·毫米波雷达
柳安忆20 小时前
【论文阅读与项目复现】Hypothesis Generation with Large Language Models
论文阅读·人工智能·语言模型
张较瘦_2 天前
[论文阅读] AI + 软件工程 | 3340个Python ML项目实证:PyQu工具+61种代码变更,精准提升软件质量!
论文阅读·人工智能·软件工程
张较瘦_5 天前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能