加电:DETR论文阅读

DETR:End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于,是将transformer引入到目标检测这一类计算机视觉的任务中,transformer的优势在于:模型的通用性和高上限(gpt是最好的例子,算力和效果正相关);全局注意力机制;可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构,也是主流趋势。相较于以往的一阶段、二阶段的目标检测,DETR会抛弃之前的先验框,先验中心点角点这些人工设计的步骤,这个算是transfomer的附加优势,其注意力机制可以解决之前先验框问题。旧的模型中,之所以有先验框很大一部分原因是框的解空间太大了,没必要也难以穷举,于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中,做了:

  • 引入二分图匹配来实现pred和gt的1对1匹配,顺带的优势便是可以实现并行解码

pipeline

  • 利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
  • 将encoder输出送入到decoder中得到预测结果
    模型流程比较简单, 工作会集中在对怕热diction heads 的处理
相关推荐
cqbzcsq6 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
凌晨一点的秃头猪6 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构
论文阅读
有Li6 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
大模型最新论文速读6 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
墨绿色的摆渡人7 天前
论文笔记(一百三十七)Learning Dual-Arm Push and Grasp Synergy in Dense Clutter
arm开发·论文阅读
Chunyyyen7 天前
【第四十九周】论文阅读
论文阅读
Biomamba生信基地7 天前
NC | 单细胞分析揭示头颈部癌早期转移过程中潜在的免疫逃逸机制(R语言版本)
论文阅读·生物信息学·单细胞rna测序
大模型最新论文速读7 天前
06-15 · LLM 最新论文速览
论文阅读·人工智能·深度学习·自然语言处理
小马哥crazymxm7 天前
Arxiv论文周选 (2026-W24)
论文阅读·人工智能·考研
大模型最新论文速读8 天前
TRUST:RL 时保留模型的不确定性,效果提升 8%
论文阅读·人工智能·深度学习·机器学习·自然语言处理