加电:DETR论文阅读

DETR:End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于,是将transformer引入到目标检测这一类计算机视觉的任务中,transformer的优势在于:模型的通用性和高上限(gpt是最好的例子,算力和效果正相关);全局注意力机制;可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构,也是主流趋势。相较于以往的一阶段、二阶段的目标检测,DETR会抛弃之前的先验框,先验中心点角点这些人工设计的步骤,这个算是transfomer的附加优势,其注意力机制可以解决之前先验框问题。旧的模型中,之所以有先验框很大一部分原因是框的解空间太大了,没必要也难以穷举,于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中,做了:

  • 引入二分图匹配来实现pred和gt的1对1匹配,顺带的优势便是可以实现并行解码

pipeline

  • 利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
  • 将encoder输出送入到decoder中得到预测结果
    模型流程比较简单, 工作会集中在对怕热diction heads 的处理
相关推荐
大写-凌祁16 小时前
论文阅读:HySCDG生成式数据处理流程
论文阅读·人工智能·笔记·python·机器学习
颜妮儿19 小时前
论文笔记——相干体技术在裂缝预测中的应用研究
论文阅读
柠石榴19 小时前
【论文阅读笔记】《A survey on deep learning approaches for text-to-SQL》
论文阅读·笔记·深度学习·nlp·text-to-sql
张较瘦_19 小时前
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析
论文阅读·人工智能
Jamence21 小时前
多模态大语言模型arxiv论文略读(111)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
Jamence1 天前
多模态大语言模型arxiv论文略读(110)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
迪娜学姐1 天前
GenSpark vs Manus实测对比:文献综述与学术PPT,哪家强?
论文阅读·人工智能·prompt·powerpoint·论文笔记
张较瘦_2 天前
[论文阅读] 人工智能+项目管理 | 当 PMBOK 遇见 AI:传统项目管理框架的破局之路
论文阅读·人工智能
张较瘦_2 天前
[论文阅读] 人工智能 | 大语言模型计划生成的新范式:基于过程挖掘的技能学习
论文阅读·人工智能·语言模型
0x2112 天前
[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG
论文阅读