加电:DETR论文阅读

DETR:End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于,是将transformer引入到目标检测这一类计算机视觉的任务中,transformer的优势在于:模型的通用性和高上限(gpt是最好的例子,算力和效果正相关);全局注意力机制;可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构,也是主流趋势。相较于以往的一阶段、二阶段的目标检测,DETR会抛弃之前的先验框,先验中心点角点这些人工设计的步骤,这个算是transfomer的附加优势,其注意力机制可以解决之前先验框问题。旧的模型中,之所以有先验框很大一部分原因是框的解空间太大了,没必要也难以穷举,于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中,做了:

  • 引入二分图匹配来实现pred和gt的1对1匹配,顺带的优势便是可以实现并行解码

pipeline

  • 利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
  • 将encoder输出送入到decoder中得到预测结果
    模型流程比较简单, 工作会集中在对怕热diction heads 的处理
相关推荐
s1ckrain11 小时前
【论文阅读】VARGPT-v1.1
论文阅读·多模态大模型·统一生成模型
Catching Star14 小时前
【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B
论文阅读·强化微调
王上上14 小时前
【论文阅读41】-LSTM-PINN预测人口
论文阅读·人工智能·lstm
s1ckrain1 天前
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文阅读·强化学习·多模态大模型·vlm
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破
论文阅读·人工智能
北京地铁1号线2 天前
GPT-2论文阅读:Language Models are Unsupervised Multitask Learners
论文阅读·gpt·语言模型
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 软件架构中自然问题主动辅助研究:从挑战到解决方案
论文阅读·人工智能·软件工程
有Li3 天前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
张较瘦_3 天前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
selia10783 天前
[论文阅读] Neural Architecture Search: Insights from 1000 Papers
论文阅读