RF-DETR:实时检测变换器(transformers)的神经架构搜索(美国2025.12研究)

**摘要:**开放词汇检测器在COCO数据集上表现优异,但往往难以泛化到包含其预训练模型中未常见的分布外类别的实际数据集。我们并未简单地对重型视觉语言模型(VLM)进行新领域的微调,而是提出了RF-DETR------一种轻量级专用检测变换器,它通过权重共享神经架构搜索(NAS)技术,能够为任意目标数据集发现准确率-延迟的帕累托曲线。我们的方法是在目标数据集上对预训练基础网络进行微调,并无需重新训练即可评估数千种不同准确率-延迟权衡的网络配置方案。此外,我们重新优化了NAS的"可调参数",以提升DETRs在不同目标领域中的迁移能力。值得注意的是,RF-DETR在COCO和Roboflow100-VL数据集上的表现显著超越现有最先进的实时检测方法:RF-DETR(nano)在COCO上达到48.0的平均精度(AP),在相似延迟条件下比D-FINE(nano)高出5.3个AP;而在Roboflow100-VL上,RF-DETR(2x-large)不仅性能优于GroundingDINO(tiny),精度还高出1.2个AP,且运行速度提升达20倍。据我们所知,RF-DETR(2x-large)是首个在COCO数据集上突破60 AP的实时检测器。相关代码已发布于GitHub。
标准化延迟评估方法
COCO检测性能评估
COCO实例分割评估
RF100-VL评估
神经架构搜索中的消融分析
主干网络的消融分析

**局限性:**尽管我们在推理过程中已对功耗限制和GPU过热进行了控制,但由于TensorRT在编译时的非确定性行为,我们的延迟测量结果仍存在高达0.1毫秒的波动。具体而言,TensorRT可能引入功耗限制机制,这会直接影响引擎性能并导致延迟出现随机波动。虽然对同一TensorRT引擎的测量结果通常较为一致,但重新编译相同的 ONNX 代码片段仍可能产生不同的延迟值。因此,我们仅报告小数点后一位精度的延迟数据。

**结论:**本文中,我们介绍了RF-DETR------一种基于神经架构搜索(NAS)的前沿方法,专门用于针对特定数据集和硬件平台对专业级端到端目标检测器进行微调。我们的方法在COCO和RF100-VL数据集上的表现优于现有的最先进实时检测方法,在COCO数据集上较D-FINE(nano)模型提升了5%的平均精度(AP)。此外,我们指出当前的网络架构、学习率调度机制及数据增强策略均旨在最大化COCO数据集上的性能表现,这表明学界应使用多样化的大规模数据集对模型进行基准测试,以避免隐性过拟合问题。最后,我们指出了由于功耗限制导致的延迟基准测试结果存在显著波动,并提出了一种标准化协议以提升实验可复现性。

相关推荐
这token有力气2 小时前
Function Calling 格式漂移
人工智能
onething3652 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething3652 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒3 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯4 小时前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek
Lei活在当下12 小时前
【AI手记系列-2026/6/18】iSparto & Harness,Caveman 以及AI时代的生存指南
人工智能·llm·openai
JieE21213 小时前
LeetCode 226. 翻转二叉树|JS 递归超详细拆解,二叉树入门经典题
javascript·算法
JieE21213 小时前
LeetCode 104. 二叉树的最大深度|递归思路超详细拆解
javascript·算法
冬奇Lab14 小时前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
冬奇Lab14 小时前
Agent 系列(22):Context Engineering 深度——三种上下文管理策略的量化对比
人工智能·agent