目标检测是机器人视觉领域的核心技术,它不仅要识别出图像中有什么物体,还要精确地定位它们的位置。随着自动驾驶、智能监控、工业质检等应用的快速发展,对目标检测的精度和鲁棒性提出了越来越高的要求。
传统的目标检测方法,如R-CNN系列,虽然取得了显著成果,但往往依赖于复杂的后处理(如非极大值抑制NMS)和手工设计的锚框,限制了其效率和泛化能力。
2020年,DETR(Detection Transformer)的出现为这一领域带来了革命性的改变。它将目标检测视为一个集合预测问题,利用Transformer架构实现端到端训练,无需NMS等复杂组件。然而,DETR也存在收敛慢、一对一匹配监督信号稀疏等问题。
为了应对这些挑战,我们提出了NAN-DETR(Noise-Aware Multi-Anchor DETR),一个在精度上实现显著突破的创新框架。

NAN-DETR在DETR框架的基础上进行了多项关键创新,旨在提升检测精度。该架构包含一个骨干网络、一个 Transformer 编码器、多个 Transformer 解码器以及预测头,最终输出检测结果,如图 1 所示。该过程首先将图像输入到骨干网络,例如ResNet或 Swin-Transformer,以提取全局特征。这些特征与用于捕捉空间关系的嵌入位置相结合,随后由 Transformer 编码器进行处理,将图像分割成多个区域(查询)。每个查询都通过神经网络生成初始锚框。然后,这些锚框由k 个独立的解码器进行局部优化,以更好地检测目标。该策略称为基于解码器的多锚框策略。为了减少多个锚框之间的冲突,在计算后对它们进行扰动,中心化噪声机制。最后,匹配过程类似于 DETR,但引入了 CIoU以提高锚框之间相似性的精确度量并优化检测结果

NAN-DETR的核心创新:三大法宝
NAN-DETR的成功得益于三项关键技术的协同作用:
- 基于解码器的多锚点策略:让检测更全面
在原始DETR中,每个查询(query)只产生一个预测框。这就像让一个侦查员只报告一个嫌疑目标的位置,可能会遗漏信息。
NAN-DETR引入了多个独立的解码器。想象一下,我们不是派一个侦查员,而是派出一支侦查小队(k个解码器)。每个队员都从同一初始线索(编码器输出的查询)出发,但凭借各自的经验和视角,对目标的位置进行独立分析和 refinement,最终报告多个可能的位置(锚框)。
这种"一对多"的策略显著提高了模型捕捉不同尺度、不同位置目标的能力,尤其是在物体尺寸变化大的复杂场景中。

- 集中式噪声机制:让锚点更"团结",减少内耗
多个锚点带来了更全面的信息,但也可能引发新问题:如果这些锚点"各自为政",指向完全不同的方向,反而会混淆模型的判断。
为了解决多锚点间的潜在冲突,我们设计了集中式噪声机制。它的核心思想很巧妙:我们不是对每个锚点施加完全随机的噪声,而是让它们有组织地向中心靠拢。

具体过程如下:
- 计算质心:首先找到所有锚点框的中心点,并计算它们的平均中心(质心)。
- 定向扰动:为每个锚点生成一个随机噪声,但这个噪声的方向被约束在"指向质心"的直线上。
- 可控移动:锚点沿着这个方向,向质心移动一个可控的距离。
这个过程就像在拔河比赛前,教练让队员们先向中心聚拢,统一发力方向,而不是各自乱拉。这样既能引入多样性(噪声),又能保证多锚点的预测保持一致性,大大增强了模型的鲁棒性。
- 完全交并比(CIoU)损失:让框定位更精准
目标检测不仅要知道"有没有",还要知道"在哪里",框的定位精度至关重要。传统的IoU损失只考虑预测框和真实框的重叠面积,存在明显缺陷:当两个框不重叠时,IoU为0,无法提供有效的梯度;它也无法区分两个同样IoU但中心点偏差很大的框。
NAN-DETR采用了更先进的CIoU损失。它在IoU的基础上,额外考虑了:
- 中心点距离: 惩罚预测框中心与真实框中心的偏离。
- 宽高比一致性: 鼓励预测框拥有与真实框相似的长宽比。
CIoU损失为模型提供了更丰富、更精确的优化信号,使得预测的边界框不仅在重叠度上,在位置和形状上也更接近真实情况。
实验验证:精度全面领先
我们在权威的COCO数据集上对NAN-DETR进行了全面评估,结果令人振奋。

使用ResNet-50骨干网络时,NAN-DETR取得了50.1%的AP(平均精度),显著超过了Conditional DETR、Anchor DETR、Deformable DETR、DINO、Co-DETR等一众先进的DETR变体,展现了其卓越的检测能力。

使用更强大的Swin-L骨干网络时,NAN-DETR的AP进一步提升至58.2% 。特别值得一提的是,其在大型目标检测(AP_L)上达到了74.2% ,超越了所有对比方法,这证明了多锚点策略和集中式噪声机制对于大尺度物体检测的独特优势。

深入分析:每个改进都有效
通过细致的消融实验,我们验证了每个创新点的贡献:
- 多锚点策略是性能基石: 仅引入多锚点(无噪声),AP就从单锚点的49.5%提升至49.7%。
- 集中式噪声是稳定器: 当结合多锚点和集中式噪声后,AP最终达到50.1%。噪声机制有效协调了多锚点,提升了稳定性。
- CIoU损失是精修师: 即使在单锚点情况下,引入CIoU损失也能带来小幅但稳定的精度提升(49.4% → 49.5%)。


结论
本文提出了一种新型目标检测框架NAN-DETR,它融合了基于解码器的多锚点策略、中心化噪声机制以及完全交并比(CIoU)损失函数。在COCO数据集上的实验结果表明,与现有的DETR变体相比,NAN-DETR显著提高了检测精度。多锚点策略增强了目标匹配的有效性,而中心化噪声机制和CIoU损失函数则有助于提高各种检测任务的精度。
尽管如此,所提出的方法在某些方面仍有改进空间。目前,NAN-DETR并未优先考虑处理速度或实时性能,但一种潜在的效率提升策略是利用模型蒸馏技术。另一方面,未来的研究方向之一是探索改进集中式噪声机制,例如利用从骨干网络中学习到的参数动态调整扰动幅度,以进一步提升检测性能,尤其是在检测小目标时。