加电:DETR论文阅读

DETR:End ot End object detection with transformer.

主要工作

这篇文章的主要工作在于,是将transformer引入到目标检测这一类计算机视觉的任务中,transformer的优势在于:模型的通用性和高上限(gpt是最好的例子,算力和效果正相关);全局注意力机制;可以较好的建模元素和元素之间的关系。端到端这样简洁的流程架构,也是主流趋势。相较于以往的一阶段、二阶段的目标检测,DETR会抛弃之前的先验框,先验中心点角点这些人工设计的步骤,这个算是transfomer的附加优势,其注意力机制可以解决之前先验框问题。旧的模型中,之所以有先验框很大一部分原因是框的解空间太大了,没必要也难以穷举,于是选择人工设计一些策略来输入一些先验信息。

方法

为了实现将transformer的结构引入到视觉任务中,做了:

  • 引入二分图匹配来实现pred和gt的1对1匹配,顺带的优势便是可以实现并行解码

pipeline

  • 利用CNN提取图像序列特征融入位置编码作为transfoermer encoder输入
  • 将encoder输出送入到decoder中得到预测结果
    模型流程比较简单, 工作会集中在对怕热diction heads 的处理
相关推荐
m0_650108243 小时前
DreamZero:基于世界行动模型的零样本机器人策略
论文阅读·机器人·vla·世界动作模型·预训练视频扩散模型
白白白飘5 小时前
【论文阅读】加密流量-ETool-林欣杰熊刚-TIFS2025
论文阅读·加密流量
传说故事5 小时前
【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models
论文阅读·人工智能·具身智能·rl
做cv的小昊19 小时前
结合代码读3DGS论文(10)——ICLR 2025 3DGS加速&压缩新工作Sort-Free 3DGS论文及代码解读
论文阅读·人工智能·游戏·计算机视觉·3d·图形渲染·3dgs
QFIUNE20 小时前
【文献阅读】MINT:让AI“学会”蛋白质对话的语言,开启相互作用预测新时代
论文阅读
智算菩萨1 天前
AI原生6G网络:语义通信、可重构智能表面与边缘智能的深度融合研究
网络·论文阅读·人工智能·ai·重构·论文笔记·ai-native
诸神缄默不语1 天前
论文阅读笔记:AI编程用的AGENTS.md应该不写或少写
论文阅读·笔记·ai编程
王上上1 天前
【论文阅读103】pinn-review-科学机器学习中的物理信息神经网络:现状与展望
论文阅读·神经网络·机器学习
白白白飘1 天前
【论文阅读】加密流量-FECOSL-TIFS2026-CCFA
论文阅读·加密流量
电科_银尘2 天前
【论文阅读】Deep Cascade:开启级联网络与数据一致性(DC)的新纪元
论文阅读