RF-DETR：实时检测变换器（transformers）的神经架构搜索（美国2025.12研究）

**摘要：**开放词汇检测器在COCO数据集上表现优异，但往往难以泛化到包含其预训练模型中未常见的分布外类别的实际数据集。我们并未简单地对重型视觉语言模型（VLM）进行新领域的微调，而是提出了RF-DETR------一种轻量级专用检测变换器，它通过权重共享神经架构搜索（NAS）技术，能够为任意目标数据集发现准确率-延迟的帕累托曲线。我们的方法是在目标数据集上对预训练基础网络进行微调，并无需重新训练即可评估数千种不同准确率-延迟权衡的网络配置方案。此外，我们重新优化了NAS的"可调参数"，以提升DETRs在不同目标领域中的迁移能力。值得注意的是，RF-DETR在COCO和Roboflow100-VL数据集上的表现显著超越现有最先进的实时检测方法：RF-DETR（nano）在COCO上达到48.0的平均精度（AP），在相似延迟条件下比D-FINE（nano）高出5.3个AP；而在Roboflow100-VL上，RF-DETR（2x-large）不仅性能优于GroundingDINO（tiny），精度还高出1.2个AP，且运行速度提升达20倍。据我们所知，RF-DETR（2x-large）是首个在COCO数据集上突破60 AP的实时检测器。相关代码已发布于GitHub。
标准化延迟评估方法
COCO检测性能评估
COCO实例分割评估
RF100-VL评估
神经架构搜索中的消融分析
主干网络的消融分析

**局限性：**尽管我们在推理过程中已对功耗限制和GPU过热进行了控制，但由于TensorRT在编译时的非确定性行为，我们的延迟测量结果仍存在高达0.1毫秒的波动。具体而言，TensorRT可能引入功耗限制机制，这会直接影响引擎性能并导致延迟出现随机波动。虽然对同一TensorRT引擎的测量结果通常较为一致，但重新编译相同的 ONNX 代码片段仍可能产生不同的延迟值。因此，我们仅报告小数点后一位精度的延迟数据。

**结论：**本文中，我们介绍了RF-DETR------一种基于神经架构搜索（NAS）的前沿方法，专门用于针对特定数据集和硬件平台对专业级端到端目标检测器进行微调。我们的方法在COCO和RF100-VL数据集上的表现优于现有的最先进实时检测方法，在COCO数据集上较D-FINE（nano）模型提升了5%的平均精度（AP）。此外，我们指出当前的网络架构、学习率调度机制及数据增强策略均旨在最大化COCO数据集上的性能表现，这表明学界应使用多样化的大规模数据集对模型进行基准测试，以避免隐性过拟合问题。最后，我们指出了由于功耗限制导致的延迟基准测试结果存在显著波动，并提出了一种标准化协议以提升实验可复现性。