DETR:新一代目标检测范式的综述
摘要
本综述旨在全面梳理自2020年DEtection TRansformer (DETR)被提出以来,其在目标检测及相关视觉任务领域所引发的范式革命。DETR首次将目标检测构建为一个端到端的集合预测(Set Prediction)问题,通过引入Transformer架构和一对一的二分图匹配,彻底摒弃了传统检测器中如非极大值抑制(NMS)等复杂的手工设计组件。然而,DETR的开创性设计也带来了严峻的挑战,尤其是其高计算复杂度、极其缓慢的训练收敛速度(需数百个周期)以及对小目标检测性能不佳等初始缺陷。
这些挑战催生了一系列密集的后续研究。本报告将系统性地追溯DETR家族的演进脉络,并将其划分为三大主线进行深度剖析:
- "收敛与效率"演进: 这一主线致力于解决DETR的核心性能瓶颈。从Deformable DETR引入"可变形注意力"以降低计算复杂度并融合多尺度特征,到Conditional DETR和DAB-DETR通过精炼"查询机制"、引入更强空间先验来加速收敛,再到DN-DETR和DINO创见性地提出"查询去噪"训练策略以稳定匹配过程,最终实现了在收敛速度和检测精度上的双重突破,并登顶COCO排行榜。
- "实时化"突破: 以RT-DETR为代表,该工作通过设计"高效混合编码器"并保持端到端(NMS-Free)特性,在速度与精度的综合指标上,首次全面超越了以YOLO为代表的传统实时检测器,标志着DETR范式在工业应用上的成熟。
- "范式扩展": 探讨DETR的"查询-注意力-解码"元框架如何被成功泛化,以解决更广泛的视觉任务。这包括将其适配到3D检测(如DETR3D)、通用图像分割(如Mask2Former)、多目标追踪(如TrackFormer),以及融合视觉语言模型(VLM)以实现开放词汇检测(如LaMI-DETR和OVA-DETR)。
本综述将通过对关键技术创新的深度剖析、核心性能指标的横向对比,为计算机视觉领域的研究者呈现DETR这一新一代检测范式的全景图,并展望其在多模态统一感知与高效能部署方面的未来发展趋势。
一、 DETR:开启端到端目标检测的范式革命
1.1 范式革新:从"间接"到"直接"的集合预测
在2020年之前,目标检测领域长期由基于卷积神经网络(CNN)的架构主导。无论是两阶段方法(如Faster R-CNN)还是一阶段方法(如YOLO和FCOS),其核心思想均是一种"间接"流程:它们首先在图像上定义大量的、密集的"代理"目标,如锚框(Anchors)、区域提议(Proposals)或窗口中心,然后对这些海量的候选项进行分类和边界框回归。这一流程的必然产物是大量的冗余预测,因此,诸如非极大值抑制(NMS)之类的手工设计的后处理步骤,成为了这些框架不可或缺的组成部分。
2020年,Carion等人提出的DEtection TRansformer (DETR)彻底颠覆了这一现状。DETR的哲学转变在于,它将目标检测首次 重新定义为一个直接的集合预测(Set Prediction)问题。它不再需要密集的代理目标和手工后处理,而是构建了一个完全端到端的架构。
DETR的核心架构由四个关键组件构成:
- CNN主干网 (Backbone): 一个常规的CNN(如ResNet),用于从输入图像中提取2D特征图。
- Transformer 编码器 (Encoder): 该编码器接收由CNN主干网输出的、展平后的特征图,并辅以位置编码。通过多层自注意力(Self-Attention)机制,编码器能够捕捉图像特征之间的全局上下文关系。
- Transformer 解码器 (Decoder): 这是DETR设计的核心。解码器接收一个固定数量 (例如100个)的、可学习的位置嵌入(Positional Embeddings) ,这些嵌入被称为"对象查询"(Object Queries)。这些查询是独立于图像内容的,它们在解码器中通过自注意力机制相互感知(从而避免产生重复预测),并通过交叉注意力(Cross-Attention)机制去"查询"编码器输出的全局图像特征。
- 预测头 (Prediction Heads): 每个对象查询经过解码器处理后,其输出嵌入被送入一个共享的前馈网络(FFN),该网络预测一个二元组:(类别, 边界框),或者在没有物体与之对应时预测为"无对象"(no object)类别。
为了实现端到端的训练,DETR引入了两个关键机制:
- 二分图匹配 (Bipartite Matching): 由于模型的输出是一个固定大小的预测集合(例如100个),而真实标注(Ground-Truth)的数量是可变的,DETR采用匈牙利算法(Hungarian algorithm)在预测集和真实标注集之间寻找一个成本最低的**一对一(one-to-one)**匹配。
- 集合损失 (Set Prediction Loss): 一旦匹配完成,损失函数(包括分类损失和L1/GIoU回归损失)仅针对匹配上的"预测-标注"对进行计算。
DETR的革命性意义在于其架构的简洁性与完整性。它消除了所有特定于检测任务的手工组件(如锚框生成、NMS),使得整个目标检测流程首次实现了完全的端到端。此外,这一架构具有极强的泛化能力;研究者证明,只需在DETR之上添加一个简单的分割头,该模型就能被"轻松泛化"到更复杂的全景分割(Panoptic Segmentation)任务上,并显著超越了当时的主流基线。
1.2 奠基性挑战:全局注意力的"双刃剑"
尽管DETR在概念上取得了巨大成功,但其初始版本在工程实践中暴露了三大严峻挑战,这些挑战均源于其核心设计------全局Transformer注意力:
- 收敛极度缓慢: 原始DETR需要500个训练周期(Epochs)才能在COCO数据集上达到或超越一个经过高度优化的Faster R-CNN基线。相比之下,传统的CNN检测器通常仅需几十个周期。
- 小目标检测(APSAP_SAPS)性能不佳: DETR"在小物体上表现出较低的性能"。虽然它凭借"非局部计算"的能力在大目标上表现出色,但在检测小物体这一关键短板上却不尽如人意。
- 高计算/内存复杂度: Transformer编码器中标准自注意力机制的计算复杂度,是关于特征图空间维度(H×WH \times WH×W)的二次方 ,即 O(H2W2)O(H^2W^2)O(H2W2)。这种二次方复杂度导致DETR在计算和内存上都极为昂贵,使其无法处理高分辨率的特征图。
对DETR开创性与局限性的深入分析表明,其核心挑战(收敛慢、小目标性能差)与其核心创新(全局Transformer注意力)直接相关。
首先,收敛缓慢的本质原因在于,Transformer的交叉注意力机制在训练初期(即随机初始化时),其注意力权重在整个特征图上几乎是均匀分布的。模型需要耗费极长的时间(500个周期 3)来"学会"如何将注意力从全局的均匀分布,收敛到稀疏且有意义的目标区域上。
其次,小目标检测性能不佳,一方面是因为全局注意力在处理低分辨率特征图(例如DETR-DC5使用的C5特征图)时,小目标的精细特征信息很容易在全局上下文的"平均化"过程中被淹没或稀释。
最后,高计算复杂度问题(O(H2W2)O(H^2W^2)O(H2W2))则从根本上锁死了性能优化的路径。它使得DETR无法像传统检测器那样,便捷地引入特征金字塔网络(FPN)或使用高分辨率特征图,而这些技术已被证明对于提升小目标检测性能至关重要。
因此,DETR 的诞生是一场"哲学"上的胜利,它指明了端到端检测的未来;但在"工程"上,它留下了巨大的优化空间。后续几乎所有的DETR变体,都是在试图解决这三个由全局注意力带来的"原罪"。
二、 核心难题攻坚:DETR家族的"收敛"与"效率"演进之路
DETR 所暴露的收敛与效率瓶颈,激发了研究者的巨大热情。纵观DETR的后续演进,可以发现一条清晰的技术脉络:这是一场关于"空间先验"(Spatial Priors)的回归。
原始DETR 以摒弃"先验"(如Anchors)为荣。其"对象查询"(Object Queries)是一种"盲目"的先验------它们是可学习的嵌入,与图像内容无关,仅在训练后学会了"这个查询槽(Slot)倾向于在图像的左上角寻找物体"。这种盲目的查询方式,正是导致模型需要500个周期才能学会"去哪里看"的核心原因。
后续的演进,本质上是以更智能、更动态的方式,将"空间先验"重新引入到Transformer架构中:
- Deformable DETR 引入了"参考点"(Reference Point)。注意力不再是全局的,而是围绕一个参考点进行稀疏采样。这是一个"弱空间先验"。
- Conditional DETR 将内容和空间查询解耦。它明确地学习一个"条件空间查询"(Conditional Spatial Query),该查询依赖于解码器嵌入,使其能够"动态地"决定去哪里寻找特征(例如"物体的末端")。这是一个"可学习的动态先验"。
- DAB-DETR 将这一思想推向极致。查询本身 就是一个4D锚框 (x,y,w,h)(x,y,w,h)(x,y,w,h) 。它不仅提供了中心点 (x,y)(x,y)(x,y) 作为先验,还利用 (w,h)(w,h)(w,h) 来"调制"注意力范围,使其适应不同尺度的物体。这是一个"显式、动态的4D先验"。
DETR的收敛难题,根源在于让一个"盲目"的系统学会聚焦是极其困难的。后续的演进证明,给予系统一个"可调节的放大镜"(即动态空间先验),是加速其学习(收敛)的关键路径。
2.1 可变形注意力 (Deformable DETR, 2021)
Deformable DETR 是对原始DETR 缺陷的第一次重大修正,它同时瞄准了二次方复杂度、收敛慢和缺乏多尺度特征三大问题。
其核心创新是借鉴了可变形卷积(Deformable Convolution)思想的可变形注意力模块 (Deformable Attention Module) 。
机制: 对于解码器中的每一个查询(Query)及其对应的2D参考点(Reference Point pqp_qpq),标准Transformer 需要计算该查询与特征图上所有 像素(H×WH \times WH×W个键)的注意力。而可变形注意力则彻底改变了这一点:
- 它只在一个小集合的(例如K=4个)采样点上进行注意力计算。
- 关键在于,这K个采样点的位置偏移量 Δpmqk\Delta p_{mqk}Δpmqk,是通过对查询特征 zqz_qzq 进行线性投影来动态预测的。
- 注意力权重 AmqkA_{mqk}Amqk 也是由查询特征 zqz_qzq 预测的。
- 最终的输出是这K个采样点上的特征值 x(pq+Δpmqk)x(p_q + \Delta p_{mqk})x(pq+Δpmqk) 的加权平均。
优势:
- 解决复杂度问题: 该机制将注意力的计算复杂度从 O(NqNk)O(N_q N_k)O(NqNk)(其中 Nk=HWN_k=HWNk=HW)急剧降低到 O(NqK)O(N_q K)O(NqK),其中K是一个远小于 HWHWHW 的小常数。这使得Deformable DETR首次 能够高效地处理高分辨率和多尺度特征图,而无需依赖FPN。
- 加速收敛: 它提供了一个"弱空间先验"。注意力不再是在全局均匀分布,而是被限制在参考点周围的K个(习得的)相关位置上,这极大地降低了模型的学习难度。
性能: Deformable DETR 的效果立竿见影。在COCO数据集上,它仅需50个训练周期 (相比DETR的500个周期,减少了10倍 )就达到了43.3 AP,优于DETR的42.0 AP 。更重要的是,得益于多尺度特征的引入,它显著提升了小目标的检测性能(APSAP_SAPS 从20.5提升到22.5)。
2.2 查询机制的精炼:从条件查询到动态锚框
尽管Deformable DETR 解决了计算复杂度和多尺度问题,但"收敛慢"的问题尚未被完全解决(50个周期仍然很长)。后续研究将焦点从"注意力机制"转向了"查询"本身的设计。
2.2.1 Conditional DETR (2021)
Conditional DETR 再次聚焦于加速收敛这一核心痛点。研究者认为,原始DETR将"内容查询"(来自解码器自注意力的嵌入)和"空间查询"(即Object Query位置嵌入)相加,这种模糊的耦合增加了训练难度。
核心创新:条件空间查询 (Conditional Spatial Query) :
- 解耦: Conditional DETR将查询明确地解耦为"内容部分"和"空间部分" 。
- 动态生成: 它不再使用静态的位置嵌入,而是从解码器的"内容嵌入"(Content Embedding)中动态学习(即预测)一个"条件空间查询"。
- 机制: 这个动态生成的空间查询被用于交叉注意力中,其效果是引导注意力模块去关注对分类和回归最有利的特定空间区域,例如物体的四个"末端"(Extremities)或其"内部"区域。这极大地放松了对内容嵌入的依赖,使得训练更容易。
性能: Conditional DETR 极大地加速了收敛。实证结果显示,在ResNet-50和ResNet-101主干网上,其收敛速度快了6.7倍 ;在更强的主干网上(如DC5-R50),收敛速度快了10倍。
2.2.2 DAB-DETR (2022)
DAB-DETR (Dynamic Anchor Boxes DETR) 认为Conditional DETR 的方向是对的,但还不够直观------其"空间查询"仍然是一个高维嵌入。DAB-DETR 旨在为查询提供一个更明确的物理含义。
核心创新:将查询定义为4D动态锚框 (Dynamic Anchor Boxes) :
- 显式先验: DAB-DETR提出,解码器中的查询直接 就是4D坐标 (x,y,w,h)(x, y, w, h)(x,y,w,h)(代表锚框的中心点、宽度和高度)。
- 逐层更新: 这些4D锚框在解码器的每一层 都会被动态更新,实现了一种级联式的边界框精炼(Cascade Box Refinement)。
- 大小调制注意力 (Size-Modulated Positional Attention): 这是DAB-DETR 的一个精妙设计。它不仅使用中心点 (x,y)(x, y)(x,y) 作为位置先验(即在 (x,y)(x, y)(x,y) 附近进行特征池化),更进一步地,它利用锚框的宽度和高度 (w,h)(w, h)(w,h) 来调制交叉注意力图。例如,这允许注意力的高斯先验被塑造成一个更匹配物体尺度的"椭圆",而不仅仅是一个固定大小的 isotropic 点。
性能: 通过引入这种显式的4D空间先验,DAB-DETR 进一步提升了性能和收敛速度。在相同的50个epoch设置下,使用ResNet-50-DC5主干网,DAB-DETR达到了45.7% AP,优于此前的Conditional DETR和Deformable DETR。
2.3 训练策略的革新:从查询去噪到DINO
在DINO 出现之前,DETR的演进存在两条平行的技术路线:
- 路线一:查询与注意力优化(空间先验): 即Deformable DETR →\rightarrow→ Conditional DETR →\rightarrow→ DAB-DETR 。这条路线的核心是优化"查询"(Query)的定义和"注意力"(Attention)的机制,使其更具空间感知能力,从而加速收敛。
- 路线二:匹配与损失优化(训练动态): 这条路线的开创者是DN-DETR 。
DN-DETR 的研究者发现了DETR收敛缓慢的另一个 核心痛点:在训练早期,原始DETR的"二分图匹配"(Bipartite Matching)过程极度不稳定。对于同一张图片,在不同的训练周期,同一个对象查询(Object Query)可能会被匹配到不同的真实物体(GT)上,导致模型的优化目标(即哪个Query负责哪个GT)来回跳动。
DINO 的天才之处在于,它首次将这两条路线汇合 。它同时 继承了路线一的终极成果(DAB-DETR 的"4D动态锚框查询")和路线二的开创性思想(DN-DETR 的"去噪训练")。DINO 8 不仅仅是一个新模型,它是DETR演进的阶段性综合体,它证明了要达到SOTA,既需要先进的"空间先验"(来自DAB),也需要稳定的"训练动态"(来自DN)。
2.3.1 DN-DETR (2022)
DN-DETR (Denoising DETR) 旨在解决由二分图匹配不稳定性导致的收敛缓慢问题。
核心创新:查询去噪 (Query Denoising) :
- 辅助任务: 在训练中,除了常规的可学习查询(如DAB 中的锚框)外,DN-DETR 额外向解码器喂入了一组**"去噪查询"**(Denoising Queries)。
- 机制: "去噪查询"是通过获取真实的GT边界框和标签,并对它们施加随机噪声(例如,轻微的中心点偏移或尺寸缩放)而创建的。
- 训练目标: 模型被要求从这些"损坏的"查询中重建(Denoise)出原始的、干净的GT框和标签。
- 关键优势: 这个去噪任务是一个简化的辅助任务 ,它绕过了二分图匹配(因为每个去噪查询都明确知道它对应的GT)。这为解码器提供了一个稳定、清晰的优化梯度,称其"有效降低了二分图匹配的难度"并"稳定了训练过程",从而显著加速收敛。
性能: DN-DETR 7 仅需50%的训练周期就能达到基线的性能。在12个epoch的短周期训练设置下,它达到了46.0 AP,显著优于DAB-DETR基线(+1.9 AP)。
2.3.2 DINO (2023)
DINO (DETR with Improved deNoising anchOr boxes) 是DETR家族的集大成者。DINO 的目标是在DN-DETR 和DAB-DETR 的基础上,打造一个性能SOTA的端到端检测器。
核心创新 8:
- 对比去噪训练 (Contrastive Denoising Training, CDN): 这是对DN-DETR 的重大改进 。DN-DETR只学习重建(即处理"正样本")。DINO引入了对比 思想:它同时创建**"正样本"(施加轻微噪声 λ1\lambda_1λ1,模型应重建它们)和 "负样本"**(施加中度噪声 λ2>λ1\lambda_2 > \lambda_1λ2>λ1,模型应拒绝它们并预测为"无对象")。这种对比训练极大地提升了模型区分"硬负样本"(Hard Negatives)的能力,显著减少了重复预测 。
- Look Forward Twice (LFT): 这是对DAB-DETR "逐层精炼"的改进。原始的逐层精炼是"短视的"(第 i−1i-1i−1 层的参数只为第 i−1i-1i−1 层的损失负责)。LFT允许第 i−1i-1i−1 层的梯度不仅来自自身的损失,还**"向前看"**(Look Forward),接收来自第 iii 层的梯度。这使得Box的精炼更具远见,优化更充分。
- 混合查询选择 (Mixed Query Selection): 一种更优的查询初始化方法。它从编码器输出中选择Top-K个特征作为"位置查询 "(即锚框的初始位置),但保持"内容查询"为可学习的嵌入。
性能: DINO 取得了巨大的成功。使用ResNet-50主干网,它在12个epoch内达到了49.4 AP(相比DN-DETR 7 的46.0 AP,提升显著)。在Swin-L主干网和Objects365预训练下,DINO在COCO test-dev上达到了63.3 AP ,成为首个在COCO检测排行榜上占据榜首的DETR类模型。
三、 迈向实时:RT-DETR------重塑实时检测新标杆
实时目标检测领域长期以来被YOLO系列架构所主导。尽管DETR 家族在精度上(如DINO)取得了SOTA,但其复杂的Transformer结构(尤其是编码器)导致其推理速度远无法满足实时需求(例如DINO-R50仅为5 FPS )。RT-DETR 的出现,标志着DETR范式在实时检测领域的重大突破。
RT-DETR 的胜利,不仅是Transformer在速度上追赶CNN,更深层次的意义在于,它代表了**"端到端"理念在实时检测领域的工程胜利**。
YOLO 等传统单阶段检测器,其报告的推理速度(FPS)通常只包含模型的前向传播时间,但它们严重依赖于NMS后处理 。NMS本身是一个计算瓶颈,它会"对实时检测器的速度和精度产生负面影响",并且其IoU阈值等超参数会引入部署时的不稳定。
RT-DETR 是第一个真正的实时端到端目标检测器 。它继承了DETR 的NMS-Free特性 。因此,RT-DETR的FPS(例如R50模型达到108 FPS )是**"所见即所得"**的、包含了"匹配和抑制"步骤的真正端到端速度。
RT-DETR-R50(53.1 AP @ 108 FPS)在速度和精度上双重超越 了YOLOv8-L(52.9 AP @ 71 FPS)时,这不仅是模型的胜利,更是端到端架构(无NMS)对"模型+后处理"架构(有NMS)的胜利。RT-DETR证明了端到端检测范式在工程实践中,已经比传统范式更具优越性。
3.1 实时架构的设计 (RT-DETR, 2023)
RT-DETR 的核心是解决DETR家族(包括Deformable DETR )的编码器在处理多尺度特征时仍然存在的计算瓶颈。
核心创新:高效混合编码器 (Efficient Hybrid Encoder) :
- 瓶颈分析 : Deformable DETR 虽然降低了注意力的复杂度,但在编码器中,多尺度特征(例如S3, S4, S5)之间的交互仍然是计算密集型的。
- 架构设计 : RT-DETR 43 的编码器解耦 了特征的尺度内交互(Intra-scale Interaction)和尺度间融合(Cross-scale Fusion) 。分析表明,这很可能意味着它使用轻量级的(例如可变形的)自注意力模块来处理单个尺度 内的特征交互(尺度内),然后利用高效的、类似CNN的FPN结构来融合不同尺度的特征(尺度间)。这种"混合"(Hybrid)设计兼顾了Transformer的上下文捕捉能力和CNN的计算效率。
关键特性:
- 不确定性最小查询选择 (Uncertainty-minimal Query Selection) : RT-DETR没有使用DINO 复杂的查询选择,而是提出了一种新的查询选择机制,从编码器特征中选择高质量的初始查询(即初始锚框)。
- 灵活的速度调节 : 这是RT-DETR 在部署上的一个巨大优势。得益于DETR 的多层解码器架构,用户可以通过调整(即减少)解码器层数来灵活地提升推理速度 ,以适应不同的硬件或应用场景,并且这一调整无需重新训练 。
性能 :
- RT-DETR-R50: 在COCO val2017上达到53.1% AP,在T4 GPU上达到108 FPS。
- RT-DETR-R101: 达到54.3% AP,74 FPS。
- 对比YOLO: RT-DETR-R50/R101在精度和速度上全面超越了YOLOv8-L/X和YOLOv7-L/X 。
- 对比DETR: RT-DETR-R50相比于DINO-R50 ,精度高出2.2% AP(53.1% vs 50.9%),而推理速度快了约21倍(108 FPS vs 5 FPS)。
3.2 性能的再精进 (RT-DETRv2, 2024)
RT-DETRv2 的目标是在RT-DETR 的强大基线上,引入一系列"免费午餐包"(Bag-of-Freebies),即在不增加推理开销的前提下,通过优化训练策略和微调模块设计来提升性能和实用性 。
核心创新 ("Bag-of-Freebies") :
- 灵活性 (Flexibility): 原始的Deformable DETR 对所有特征尺度使用相同数量的采样点。RT-DETRv2 提出,应该为不同尺度(S3, S4, S5)的特征图设置不同数量的采样点,以更灵活地提取特征。
- 实用性 (Practicality): 引入"离散采样算子"(Discrete Sampling Operator)。RT-DETR 1依赖的grid_sample算子(即双线性插值)在某些推理后端上难以部署。RT-DETRv2 提出使用一个简单的四舍五入操作来替代插值,称这移除了DETR类模型的部署限制,使其更具YOLO那样的普适性。
- 训练策略 (Training Strategy):
- 动态数据增强: 在训练早期使用强数据增强,但在训练的最后几个周期关闭部分增强(如RandomZoomOut等),使模型更好地适应目标域的真实数据分布。
- 尺度自适应超参: 为不同规模(如ResNet18 vs ResNet101)的RT-DETR模型定制不同的优化器超参数。例如,为轻量级模型(ResNet18)的主干网设置更高的学习率,因为其预训练特征质量较低。
性能: RT-DETRv2及其后续演进(如RT-DETRv4)在RT-DETR基线上实现了显著的mAP提升(例如,+2.1% ),进一步巩固了DETR家族在实时检测领域的SOTA地位。
四、 范式扩展:DETR在多维视觉任务中的应用
DETR 的成功并不仅限于2D目标检测。它最大的贡献是提供了一个**"基于查询的集合预测"(Query-Based Set Prediction)的通用元框架**(Meta-Framework)。
在原始DETR 中,"Object Query"是一个可学习的嵌入(Slot),它通过注意力机制"查询"图像特征,并最终被解码为一个"(类,框)"二元组。
这个"查询"的概念是高度抽象 和可泛化 的。它不必须代表一个2D边界框。通过重新定义"查询"的物理含义,DETR范式被成功地应用于解决几乎所有的主流视觉感知任务:
- 当"查询"被重新解释为"Segment Query "(区域查询),并结合"掩码注意力 "(Masked Attention,即只在预测的掩码区域内计算注意力)时,该框架演变为Mask2Former 。这个简单的转变,使其能够以单一架构统一解决语义分割、实例分割和全景分割 。
- 当"查询"被重新解释为"Track Query "(轨迹查询),并使其有状态 和自回归 (即第 t−1t-1t−1 帧的查询输出作为第 ttt 帧的查询输入)时,该框架演变为TrackFormer 。这就将"检测"(由新的Object Query负责)和"数据关联"(由Track Query负责)统一在了"Tracking-by-Attention"(注意力追踪)框架下。
- 当"查询"被重新解释为"3D Query "(3D查询),并利用相机几何(Camera Geometry)将其解码的3D参考点投影 到多视图2D特征图上采样特征时,该框架演变为DETR3D 。
DETR的核心贡献是"查询-注意力-解码"这一流程。通过重新定义"查询"的物理含义,DETR范式展现了其作为"通用视觉感知框架"的巨大潜力。
4.1 三维检测 (DETR3D, 2021)
DETR3D旨在解决一个极具挑战性的任务:仅从多视图2D RGB图像中进行3D目标检测。
动机: 传统的解决方案通常依赖多阶段流程,如先进行2D检测,再估计深度,最后提升到3D;或先通过多视图几何重建"伪LiDAR"点云,再应用3D点云检测器。这些方法都存在"级联误差"(Compounding Errors)问题:第一阶段(如深度估计)的误差会严重影响最终的3D检测性能。
核心创新:3D到2D查询 (3D-to-2D Queries) :
- 架构: DETR3D 保持了DETR 的Encoder-Decoder结构。
- 查询: 解码器中的"Object Query"被赋予了新的含义,它代表一个3D物体。
- 机制 : DETR3D 的核心机制是一个"自顶向下"(Top-down)的特征采样过程:
- 3D参考点: 在解码器的第 lll 层,每个Object Query qilq^l_iqil 首先被一个子网络解码为一个3D参考点 cil∈R3c^l_i \in \mathbb{R}^3cil∈R3。
- 几何投影 (3D-to-2D): 利用已知的相机内外参矩阵 TmT_mTm(mmm为相机索引),将该3D参考点 cilc^l_icil 投影 (Geometric Projection)到所有 (K个)摄像机视图的2D特征图 FkmF_{km}Fkm 上,得到K个2D坐标 cmilc^l_{mi}cmil。
- 特征采样: 在K个2D特征图 FkmF_{km}Fkm 上的 cmilc^l_{mi}cmil 位置,通过双线性插值 (Bilinear Interpolation)采样2D图像特征 fkmilf^l_{kmi}fkmil。
- 特征聚合与精炼: 收集到的多视图2D特征 fkmilf^l_{kmi}fkmil 被送回解码器,通过交叉注意力和自注意力机制来优化(Refine)这个3D Object Query qilq^l_iqil。
- 优势: 这种方法通过相机几何约束,将3D查询与2D特征紧密联系起来,实现了端到端的3D检测。它不需要NMS ,也无需任何中间的3D表示(如BEV、体素)或密集的深度估计 。
4.2 通用图像分割 (Mask2Former, 2022)
Mask2Former 的目标是提供一个单一的架构,以统一解决全景(Panoptic)、实例(Instance)和语义(Semantic)这三大图像分割任务。
动机: 在Mask2Former之前,这三个任务通常由高度专门化(Specialized)的架构来解决,例如Mask R-CNN用于实例分割,FCN用于语义分割。
核心创新:掩码注意力 (Masked-Attention) :
- 范式: Mask2Former 建立在"掩码分类"(Mask Classification)范式之上,该范式(源自DETR的全景分割扩展)的目标是预测N个(类别, 掩码)对。
- 机制: 原始DETR 的交叉注意力是在整个 特征图上全局计算的。Mask2Former的Transformer解码器 引入了"掩码注意力":
- 在解码器的第 lll 层,Query qilq^l_iqil 不仅预测目标,还预测一个粗略 的二值掩码 MilM^l_iMil。
- 在下一层 (第 l+1l+1l+1 层)的交叉注意力计算中,注意力计算被限制(Constrained)在 上一层预测的掩码 MilM^l_iMil(即前景区域)之内 。
- 优势:
- 加速收敛与提升性能: 通过将注意力动态地集中在相关的局部区域(Localized Features),而不是分散到整个全局特征图,极大地降低了学习难度。
- 利用多尺度特征: 编码器-解码器架构(Pixel Decoder)结合了多尺度可变形注意力(MSDeformAttn),并使用"循环(Round Robin)"方式将高分辨率特征(如1/81/81/8尺度)送入解码器层,有效提升了对小物体/区域的分割。
- 性能: Mask2Former 是第一个在所有三项分割任务上均达到了SOTA的单一架构(COCO实例分割 50.1 AP, COCO全景分割 57.8 PQ, ADE20K语义分割 57.7 mIoU)。
4.3 多目标追踪 (TrackFormer, 2022)
TrackFormer旨在将多目标追踪(MOT)任务(即同时进行检测和数据关联)统一到DETR 的端到端框架下。
核心创新:自回归追踪查询 (Autoregressive Track Queries) :
- "Tracking-by-Attention" 范式 : TrackFormer 的核心思想是,数据关联(即判断帧 ttt 的物体A是否就是帧 t−1t-1t−1 的物体A)也可以通过Transformer的注意力机制来完成。
- 机制 14: TrackFormer 的解码器在处理视频的第 ttt 帧时,同时处理两种类型的查询:
- 静态对象查询 (Static Object Queries): 与DETR相同,是N个可学习的嵌入。它们负责初始化新轨迹 (即检测到在第 ttt 帧新出现的目标)。
- 自回归追踪查询 (Autoregressive Track Queries): 这是核心。在第 t−1t-1t−1 帧中成功匹配的查询(即检测到的物体),其解码器输出的嵌入 (Embedding)不会被丢弃 ,而是作为输入 被传递到第 ttt 帧的解码器中。这个"有记忆"的查询负责在第 ttt 帧中继续追踪同一个物体。
- 优势:
- 端到端: 将"检测"(由Object Queries负责)和"数据关联"(由Track Queries的自回归特性负责)统一在一个注意力机制中。
- 无需额外关联: 它不需要任何额外的运动模型、外观模型(Re-ID)或匈牙利算法之外的图优化。解码器中的自注意力机制(Self-Attention)会自动处理查询之间的交互(如遮挡)。
- 性能: TrackFormer 在MOT17 和MOTS20(分割追踪)等基准上均达到了SOTA。
五、 融合VLM:DETR迈向开放词汇检测 (Open-Vocabulary)
开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)要求模型能够检测在训练期间未见过的"新类别"(Novel Categories)。将DETR框架与视觉语言模型(Vision-Language Models, VLM)如CLIP相结合,是实现OVOD的自然选择。
然而,这种结合引发了一个新的、微妙的问题:模型在训练(Finetune)过程中,为了学习检测"基础类别"(Base Categories),会逐渐"遗忘"VLM(如CLIP)原始的开放词汇泛化能力。这种现象被称为"基础类别过拟合"(Overfitting to Base Categories)。
LaMI-DETR 的研究者敏锐地指出,这种过拟合的部分原因在于VLM(CLIP)的文本空间(Text Space)本身存在"概念表示缺陷"。CLIP可能难以区分"fireweed"(柳兰)和"fireboat"(消防船),因为它们在文本构成 上相似,尽管它们在视觉上毫无关系。
LaMI-DETR 的解决方案是,引入更强的大语言模型(LLM)作为"指令"(Language Model Instruction)来"教导"DETR检测器:
- VLM (CLIP) 提供"感知": VLM(如CLIP)负责连接词汇与像素 。
- LLM (GPT/T5) 提供"认知": 更强的LLM(如GPT-3.5和T5)被用来理解词汇之间复杂的语义 和视觉关系。
- GPT-3.5 被用于生成丰富的视觉概念描述(例如,"海狮"的形状、颜色、大小、栖息地)。
- T5 则被用于评估这些丰富描述 之间的语义相似性 。T5能够理解"海狮"和"儒艮"在视觉上高度相似,即使它们在文本名称上差异很大。
利用这种由LLM提供的"类别间关系"认知图谱(Inter-category Relationships),LaMI-DETR 可以在训练中更智能地采样负样本(例如,不把"儒艮"当作"海狮"的硬负样本),从而避免了对基础类别名称的过拟过,保留了模型的泛化能力。这证明了在OVOD任务中,"认知"(LLM)对于指导"感知"(VLM-DETR)训练至关重要。
5.1 语言模型指令 (LaMI-DETR, 2024)
LaMI-DETR (DETR with Language Model Instruction) 是一个旨在解决OVOD中"基础类别过拟合"问题的DETR检测器。
核心创新:语言模型指令 (LaMI) :
- 双重LLM机制 :
- GPT-3.5 (视觉概念构建): 使用GPT-3.5为每个类别生成详细的视觉描述(关于形状、颜色、属性)。
- T5 (类别关系调查): 使用T5语言模型来评估这些丰富描述之间的"视觉相似性",构建类别间的关系图 。
- 训练应用:
- 改进概念表示: 将T5评估过的、更丰富的类别嵌入(Language embeddings)注入到Object Query中,以提高分类准确性。
- 视觉概念采样 (Visual Concept Sampling): 利用T5构建的类别关系图,在训练中智能地采样"视觉上不同"(Visually Distinct)的负样本。这引导模型学习"广义的前景特征",而不是"过拟合基础类别名称"。
- 性能: LaMI-DETR在OV-LVIS基准上,对"稀有类别"的AP(APrAP_rAPr)达到了43.4,比之前的SOTA方法高出了7.8 AP。
5.2 航空影像检测 (OVA-DETR, 2024)
OVA-DETR专注于一个特定的OVOD场景:航空影像(Aerial Object Detection)。
动机: 航空影像的OVOD面临"效率低下"和"小目标检测困难"的双重挑战。
核心创新:双向视觉语言融合 (Bidirectional Vision-Language Fusion, Bi-VLF) :
- 理念: 传统的VLM融合(如CLIP)通常只在最后的分类阶段进行。OVA-DETR认为,类别(文本)信息应该尽早 注入,以指导视觉特征的提取过程。
- 架构: Bi-VLF由两个新组件构成:
- 双重注意力融合编码器 (Dual-Attention Fusion Encoder, DAFE): 在编码器阶段,就将"类别语义"作为线索(Clues)注入到多尺度图像特征中,以增强特征提取。
- 多级文本引导融合解码器 (Multi-level Text-guided Fusion Decoder, MTFD): 在解码器阶段,使用"多级类别嵌入"(Multi-level class embeddings)来引导Object Query,帮助其从多尺度特征中解码,这被证明对小目标检测尤其有效。
- 损失函数: 为了实现开放词汇,OVA-DETR使用"区域-文本对比损失"(Region-text contrastive loss)来替代传统的分类损失。
- 性能: 在DIOR航空影像基准上,OVA-DETR的mAP比YOLO-World高33.1%,且推理速度快3倍(达到87 FPS)。
六、 总结与前瞻:DETR家族的演进脉络与未来展望
6.1 演进总结:从"哲学"到"实用"的SOTA范式
DETR的发展历程,是一个"纯粹的概念"走向"工程实用"的经典演进。
- 诞生 (DETR): 2020年,DETR提出一个纯粹的、革命性的端到端哲学,摒弃了NMS。但这一哲学胜利伴随着巨大的工程缺陷:收敛极慢(500个周期)和对小目标检测性能不佳。
- 反应 (Deformable, Conditional, DAB): 2021-2022年,研究社区通过引入"务实"的妥协------即各种形式的"动态空间先验"------来解决这些缺陷。Deformable DETR解决了复杂度,Conditional DETR和DAB-DETR通过更智能的查询机制加速了收敛。
- 综合 (DINO, RT-DETR): 2023年至今,DETR家族通过两次关键的"综合",最终在"哲学上的简洁性"(NMS-Free)和"工程上的实用性"上实现了统一。
- DINO 综合了"空间先验"(DAB)和"训练动态优化"(DN),实现了SOTA的检测精度。
- RT-DETR 通过"混合编码器设计"(Hybrid Encoder),在保持NMS-Free简洁性的同时,实现了SOTA的实时检测速度。
6.2 关键模型对比
为了清晰地展示DETR家族的演进脉络,以下表格从"收敛与效率"和"多任务扩展"两个维度对关键模型进行了总结。
表格1:DETR 家族"收敛与效率"演进关键模型对比
| 模型 (Model) | 年份 | 核心创新 (Key Innovation) | 解决的问题 (Problem Solved) | 关键指标 (Key Metric) (COCO AP) |
|---|---|---|---|---|
| DETR | 2020 | Transformer端到端集合预测;NMS-Free | 传统检测器的"间接"和"手工"设计 | 42.0 AP @ 500 epochs |
| Deformable DETR | 2021 | 可变形注意力 (Deformable Attention) | 复杂度 (O(H2W2)O(H^2W^2)O(H2W2));收敛慢;小目标差 | 43.3 AP @ 50 epochs |
| Conditional DETR | 2021 | 条件空间查询 (Conditional Spatial Query) | 收敛慢(通过解耦内容/空间查询) | ~6.7x-10x 更快收敛 |
| DAB-DETR | 2022 | 4D动态锚框查询 (4D Dynamic Anchor Box) | 查询的空间先验不明确;逐层优化 | 45.7 AP @ 50 epochs (R50-DC5) |
| DN-DETR | 2022 | 查询去噪 (Query Denoising) | 二分图匹配不稳定;收敛慢 | 46.0 AP @ 12 epochs (R50) |
| DINO | 2023 | CDN; LFT; 混合查询选择 (DAB+DN) | 性能SOTA;硬负样本抑制 | 51.3 AP @ 24 epochs (R50) 8; 63.3 AP (SwinL) |
| RT-DETR | 2023 | 高效混合编码器 (Efficient Hybrid Encoder) | 实时检测 (NMS-Free);编码器瓶颈 | 53.1 AP @ 108 FPS (R50) |
表格2:DETR 范式"多任务扩展"机制对比
| 任务 (Task) | 代表模型 (Model) | "查询"的物理含义 | 核心机制 (Key Mechanism) |
|---|---|---|---|
| 2D目标检测 | DINO | 2D动态锚框 (x,y,w,h) | 对比去噪 (CDN);Look Forward Twice |
| 通用分割 | Mask2Former | 区域/掩码 (Segment) | 掩码注意力 (Masked-Attention) |
| 多目标追踪 | TrackFormer | 轨迹身份 (Track Identity) | 自回归追踪查询 (Autoregressive Track Query) |
| 3D检测(多视图) | DETR3D | 3D参考点 (3D Reference Point) | 3D到2D查询 (3D-to-2D Query via Geometry) |
| 开放词汇检测 | LaMI-DETR | 视觉概念 (Visual Concept) | 语言模型指令 (LLM Instruction) |
6.3 未来展望
DETR范式已经重塑了目标检测及相关领域的格局,其未来的发展预计将集中在以下几个方向:
- 多模态的统一感知: LaMI-DETR 和OVA-DETR 已经展示了融合文本(VLM/LLM)的巨大潜力。未来的DETR将不仅是视觉检测器,更有可能成为融合文本、音频、LiDAR 、雷达甚至触觉信号的多模态感知统一框架。
- 轻量化与边缘部署: 尽管RT-DETRv2 在部署友好性上取得了进展(如离散采样 ),但Transformer 的计算模式(尤其是注意力)在端侧和移动设备上仍然面临挑战。模型压缩、量化、蒸馏以及硬件感知(Hardware-Aware) 的DETR架构设计,将是其走向大规模边缘应用的关键。
- 长尾与稀有物体检测: DINO 和LaMI-DETR 的去噪机制和VLM融合,在稀有类别检测上表现出色。如何利用DETR的集合预测特性,更系统地解决数据极端不平衡下的长尾分布问题,仍是一个开放的研究方向。
- 通用感知模型的终局: Mask2Former 统一了分割,TrackFormer 统一了追踪。未来的最终趋势可能是将检测、分割、追踪、3D感知、姿态估计、视频理解等所有主流感知任务,统一到一个单一的、端到端的、基于查询的DETR(或DINO)架构中,实现"一个模型,所有任务"(One Model, All Tasks)的通用感知目标。
引用的著作
- Object Detection with Transformers: A Review - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2306.04670
- End-to-End Object Detection with Transformers, 访问时间为 十一月 10, 2025, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf
- Deformable DETR: Deformable Transformers for End-to-End Object ..., 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2010.04159
- Atten4Vis/ConditionalDETR: This repository is an official implementation of the ICCV 2021 paper "Conditional DETR for Fast Training Convergence". (https://arxiv.org/abs/2108.06152) - GitHub, 访问时间为 十一月 10, 2025, https://github.com/Atten4Vis/ConditionalDETR
-
2108.06152\] Conditional DETR for Fast Training Convergence - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2108.06152
- DN-DETR: Accelerate DETR Training by Introducing Query ... - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2203.01305
- DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection, 访问时间为 十一月 10, 2025, https://openreview.net/forum?id=3mRwyG5one
- DINO: DETR WITH IMPROVED DENOISING ANCHOR - OpenReview, 访问时间为 十一月 10, 2025, https://openreview.net/pdf?id=3mRwyG5one
- DETRs Beat YOLOs on Real-time Object Detection, 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2304.08069
- Introduction to DETR (Detection Transformers): Everything You Need to Know - Lightly AI, 访问时间为 十一月 10, 2025, https://www.lightly.ai/blog/detr
- DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D ..., 访问时间为 十一月 10, 2025, https://proceedings.mlr.press/v164/wang22b/wang22b.pdf
- Masked-attention Mask Transformer for Universal Image Segmentation, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2112.01527
- TrackFormer: Multi-Object Tracking with Transformers - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2101.02702
- LaMI-DETR: Open-Vocabulary Detection with Language Model ..., 访问时间为 十一月 10, 2025, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03396.pdf
- OVA-DETR: Open Vocabulary Aerial Object Detection Using Image ..., 访问时间为 十一月 10, 2025, https://www.researchgate.net/publication/383307781_OVA-DETR_Open_Vocabulary_Aerial_Object_Detection_Using_Image-Text_Alignment_and_Fusion
- RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2510.25257
- (PDF) End-to-End Object Detection with Transformers - ResearchGate, 访问时间为 十一月 10, 2025, https://www.researchgate.net/publication/341668528_End-to-End_Object_Detection_with_Transformers
-
2005.12872\] End-to-End Object Detection with Transformers - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2005.12872
- Semi-DETR: Semi-Supervised Object Detection With Detection Transformers - CVF Open Access, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_Semi-DETR_Semi-Supervised_Object_Detection_With_Detection_Transformers_CVPR_2023_paper.pdf
- (PDF) Conditional DETR for Fast Training Convergence - ResearchGate, 访问时间为 十一月 10, 2025, https://www.researchgate.net/publication/353922492_Conditional_DETR_for_Fast_Training_Convergence
-
PDF\] Conditional DETR for Fast Training Convergence - Semantic Scholar, 访问时间为 十一月 10, 2025, https://www.semanticscholar.org/paper/Conditional-DETR-for-Fast-Training-Convergence-Meng-Chen/1cd6b0f41d62aca38ba5a69db10e79c05e618c21
- arXiv:2112.01527v3 [cs.CV] 15 Jun 2022, 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2112.01527
- DETRs with Collaborative Hybrid Assignments Training - CVF Open Access, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/content/ICCV2023/papers/Zong_DETRs_with_Collaborative_Hybrid_Assignments_Training_ICCV_2023_paper.pdf
- Conditional DETR: Fast Convergence in Detection - Emergent Mind, 访问时间为 十一月 10, 2025, https://www.emergentmind.com/articles/2108.06152
- Fast DETR Training with Group-Wise One-to-Many Assignment - CVF Open Access, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_Group_DETR_Fast_DETR_Training_with_Group-Wise_One-to-Many_Assignment_ICCV_2023_paper.pdf
- ICCV 2021 Open Access Repository, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/ICCV2021?day=all
- Conditional DETR for Fast Training Convergence - CVF Open Access, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/content/ICCV2021/papers/Meng_Conditional_DETR_for_Fast_Training_Convergence_ICCV_2021_paper.pdf
-
ICLR 2022\] Official implementation of the paper "DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR" - GitHub, 访问时间为 十一月 10, 2025, https://github.com/IDEA-Research/DAB-DETR
-
2201.12329\] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2201.12329
-
2203.03605\] DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2203.03605
- DQ-DETR: DETR with Dynamic Query for Tiny Object Detection - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2404.03507v3
- DQ-DETR: DETR with Dynamic Query for Tiny Object Detection - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2404.03507v2
- An Improved DETR Based on Angle Denoising and Oriented Boxes Refinement for Remote Sensing Object Detection - MDPI, 访问时间为 十一月 10, 2025, https://www.mdpi.com/2072-4292/16/23/4420
- DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection, 访问时间为 十一月 10, 2025, https://www.researchgate.net/publication/359079872_DINO_DETR_with_Improved_DeNoising_Anchor_Boxes_for_End-to-End_Object_Detection
- RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2510.25257v1
- RT-DETRv2 Format - Labelformat Docs, 访问时间为 十一月 10, 2025, https://labelformat.com/formats/object-detection/rtdetrv2/
- DETRs Beat YOLOs on Real-time Object Detection - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2304.08069v3
- Improving Small Fruit Detection: Zero-Shot RT-DETR vs. YOLO-WORLD Using Patch-Based Techniques | by Natdhanai Praneenatthavee | Medium, 访问时间为 十一月 10, 2025, https://medium.com/@spped2000/improving-small-fruit-detection-zero-shot-rt-detr-vs-yolo-world-using-patch-based-techniques-42afbeae7335
- A Real-Time DETR Approach to Bangladesh Road Object Detection for Autonomous Vehicles - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2411.15110v1
- RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer, 访问时间为 十一月 10, 2025, https://www.researchgate.net/publication/382526773_RT-DETRv2_Improved_Baseline_with_Bag-of-Freebies_for_Real-Time_Detection_Transformer
-
PDF\] RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer \| Semantic Scholar, 访问时间为 十一月 10, 2025, https://www.semanticscholar.org/paper/1e030d91607e38b7b7fdd002123ca8baafbedc8f
- RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time ..., 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2407.17140
- facebookresearch/Mask2Former: Code release for "Masked-attention Mask Transformer for Universal Image Segmentation" - GitHub, 访问时间为 十一月 10, 2025, https://github.com/facebookresearch/Mask2Former
- Masked-Attention Mask Transformer for Universal Image Segmentation - CVF Open Access, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Cheng_Masked-Attention_Mask_Transformer_for_Universal_Image_Segmentation_CVPR_2022_paper.pdf
- TrackFormer: Multi-Object Tracking With Transformers - CVF Open Access, 访问时间为 十一月 10, 2025, https://openaccess.thecvf.com/content/CVPR2022/papers/Meinhardt_TrackFormer_Multi-Object_Tracking_With_Transformers_CVPR_2022_paper.pdf
- TrackFormer: Multi-Object Tracking with Transformers - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2101.02702
- Resilient Sensor Fusion under Adverse Sensor Failures via Multi-Modal Expert Fusion - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2503.19776v1
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2412.12725v2
-
PDF\] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries, 访问时间为 十一月 10, 2025, https://www.semanticscholar.org/paper/DETR3D%3A-3D-Object-Detection-from-Multi-view-Images-Wang-Guizilini/48e2d76d35b44edc21d09d460021103ce997c804
- Unified Domain Generalization and Adaptation for Multi-View 3D Object Detection - NIPS papers, 访问时间为 十一月 10, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/6b7e1e96243c9edc378f85e7d232e415-Paper-Conference.pdf
- DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2110.06922
- Query Nearby: Offset-Adjusted Mask2Former enhances small-organ segmentation - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2506.05897v1
- FastTrackTr:Towards Real-time Multi-Object Tracking with Transformers - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2411.15811v3
- The Progression of Transformers from Language to Vision to MOT: A Literature Review on Multi-Object Tracking with Transformers - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2406.16784v1
-
2407.10655\] OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/abs/2407.10655
- LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2407.11335v2
- LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction - Hugging Face, 访问时间为 十一月 10, 2025, https://huggingface.co/papers/2407.11335
-
Literature Review\] LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction - Moonlight \| AI Colleague for Research Papers, 访问时间为 十一月 10, 2025, https://www.themoonlight.io/en/review/lami-detr-open-vocabulary-detection-with-language-model-instruction
- arxiv.org, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2408.12246v1
- Open-Vocabulary Object Detection in UAV Imagery: A Review and Future Perspectives, 访问时间为 十一月 10, 2025, https://www.mdpi.com/2504-446X/9/8/557
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection - Semantic Scholar, 访问时间为 十一月 10, 2025, https://www.semanticscholar.org/paper/Learning-Background-Prompts-to-Discover-Implicit-Li-Zhang/e6e2eb0af28823d17f810d7618b47dcb28b24a06
- OVA-DETR: Open Vocabulary Aerial Object Detection Using Image, 访问时间为 十一月 10, 2025, https://zhuanzhi.ai/paper/b737ac8952949ad60718d6c933e4f7ee
- InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition - OpenReview, 访问时间为 十一月 10, 2025, https://openreview.net/pdf/67890a1ca029504906af0c1f28abdd02e8dbf87f.pdf
- arXiv:2403.15317v2 [cs.CV] 25 Mar 2024, 访问时间为 十一月 10, 2025, https://arxiv.org/pdf/2403.15317
- Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2407.19156v2
- HDETR/H-Deformable-DETR: [CVPR2023] This is an official implementation of paper "DETRs with Hybrid Matching". - GitHub, 访问时间为 十一月 10, 2025, https://github.com/HDETR/H-Deformable-DETR
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection - arXiv, 访问时间为 十一月 10, 2025, https://arxiv.org/html/2411.10715v2