论文阅读【检测】:Facebook ECCV2020 | DETR

文章目录

论文地址

DETR

Abstract

提出了一种将目标检测视为直接集预测问题 的新方法。简化了检测pipeline,有效地消除了许多手工设计的组件的需求,例如非最大抑制过程或锚生成,这些组件明确地编码了任务的先验知识。新框架的主要成分,是基于集合的全局损失,它通过二部匹配强制唯一的预测,以及变transformer encoder-decoder架构。给定一组固定的学习对象查询,DETR 推理对象和全局图像上下文的关系,以并行直接输出最终的预测集。DETR在具有挑战性的COCO对象检测数据集上展示了与成熟和高度优化的Faster RCNN基线相当的准确性和运行时性能。

Motivation

通常检测器通过在proposal、anchor 或center point 上定义代理回归和分类问题,以间接方式解决该集合预测任务。它们的性能受到后处理步骤、锚集的设计以及将目标框分配给锚的启发式方法显着影响。为了简化这些pipeline,所以提出了一种直接集预测方法来绕过代理任务。

模型框架

从论文图中可以看出,整个pipeline确实很简单。


详细结构

图像先经过下采样,用小的feature map输入transformer结构中,必然导致了对小目标检测效果较差。论文中也明确说了这个问题。 初始化的queries为0, 同时position embedding 每个模块都要加一次

Encoder

Decoder

小结

确实简化都不少手工设计的组建,但是在小目标的表现上较差。NMS感觉还是需要的,不可能刚刚好一个目标对应预测一个框。

相关推荐
imbackneverdie1 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1231 天前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN1 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈2 天前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs
智算菩萨2 天前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记
檐下翻书1732 天前
音乐产业版权管理与运营流程图表制作方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
森诺Alyson2 天前
前沿技术借鉴研讨-2026.3.26(解决虚假特征x2/混合专家对比学习框架)
论文阅读·人工智能·经验分享·深度学习·学习·论文笔记
森诺Alyson2 天前
前沿技术借鉴研讨-2026.3.19(睡眠分期/Agents模拟临床会诊/多模态抑郁症检测)
论文阅读·经验分享·深度学习·论文笔记·论文讨论
imbackneverdie3 天前
如何从海量文献中跨界汲取创新灵感?
论文阅读·人工智能·ai·自然语言处理·aigc·ai写作·ai工具
云霄星乖乖的果冻4 天前
【文献阅读:RobustRAG】Certifiably Robust RAG against Retrieval Corruption
论文阅读