RF-DETR:实时检测Transformer的神经架构搜索,首个突破 60 AP 的实时检测器 | ICLR 2026 in Submission

🔍本文的核心贡献在于:

  1. 提出RF-DETR框架:首次将端到端权重共享神经架构搜索应用于DETR系列,实现了无需重新训练即可为任意目标数据集与硬件快速定制模型。

  2. 实现性能突破:在COCO与Roboflow100-VL基准上全面超越现有实时检测器,其最大模型是首个在COCO上突破60 AP的实时检测器。

  3. 改进延迟评估标准:揭示了当前评测中因GPU功耗限制导致的结果不一致问题,并提出通过添加推理缓冲的标准化测量方法,提升了结果可复现性。

  4. 验证架构有效性:通过替换主干网络与简化训练策略,证明了结合互联网规模预训练与轻量化NAS能显著提升模型在分布外数据上的泛化能力。

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

  • YOLO算法结构性创新 :于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块 ,在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践,为行业提供了具备高参考价值的技术路径与完整解决方案。

  • 技术生态建设与知识传播 :独立运营 "计算机视觉大作战" 公众号(粉丝1.6万),成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码,显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

  • 荣获腾讯云年度影响力作者创作之星奖项,内容质量与专业性获行业权威平台认证。

  • 全网累计拥有 7万+ 垂直领域技术受众,专栏文章总阅读量突破百万,在目标检测领域形成了广泛的学术与工业影响力。

  • 具备丰富的企业级项目交付经验,曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案,驱动业务智能化升级。

💡 未来方向与使命

秉持 "让每一行代码都有温度" 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。

原创自研系列, 25年计算机视觉顶会创新点

《YOLOv13魔术师》

《YOLOv12魔术师》

《YOLO11魔术师》

《YOLOv8原创自研》

《YOLOv5原创自研》

《YOLOv7原创自研》

《YOLOv9魔术师》

​《YOLOv10魔术师》 ​

应用系列篇:

《YOLO小目标检测》

《深度学习工业缺陷检测》

《YOLOv8-Pose关键点检测》

23、24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高

《YOLOv8魔术师》

《YOLOv7魔术师》

《YOLOv5/YOLOv7魔术师》

《RT-DETR魔术师》

原理介绍

论文arxiv.org/pdf/2511.09554

摘要: 开放词汇检测器在COCO数据集上取得了令人瞩目的性能,但通常难以泛化到包含分布外类别的真实世界数据集,这些类别通常未在其预训练中出现。与简单地针对新领域微调一个大型视觉语言模型不同,我们提出了RF-DETR------一个轻量级的专用检测Transformer。它通过权重共享的神经架构搜索,能够针对任何目标数据集发现准确性与延迟之间的帕累托前沿曲线。我们的方法先在目标数据集上微调一个预训练的基础网络,随后无需重新训练即可评估数千种具有不同精度-延迟权衡的网络配置。此外,我们重新审视了用于NAS的"可调旋钮",以提升DETR模型向多样化目标领域的迁移能力。值得注意的是,RF-DETR在COCO和Roboflow100-VL数据集上显著超越了先前最先进的实时方法。具体而言,RF-DETR(纳米版)在COCO上达到了48.0 AP,在相近延迟下比D-FINE(纳米版)高出5.3 AP;而RF-DETR(2倍大型版)在Roboflow100-VL上以高出GroundingDINO(微型版)1.2 AP的表现,且运行速度快20倍。据我们所知,RF-DETR(2倍大型版)是首个在COCO上平均精度超过60的实时检测器。

1.引言

目标检测是计算机视觉领域的一个基本问题,近年来已趋于成熟(Felzenszwalb等人,2009;Lin等人,2014;Ren等人,2015)。诸如GroundingDINO(Liu等人,2023)和YOLO-World(Cheng等人,2024)等开放词汇检测器,在常见类别(如汽车、卡车、行人)上实现了卓越的零样本性能。然而,最先进的视觉语言模型在泛化到其预训练中通常不存在的分布外类别、任务和成像模态时,仍然存在困难(Robicheaux等人,2025)。在目标数据集上微调VLM可以显著提升其域内性能,但代价是运行时效率(由于沉重的文本编码器)和开放词汇泛化能力的下降。

相比之下,诸如D-FINE(Peng等人,2024)和RT-DETR(Zhao等人,2024)等专用(即封闭词汇)目标检测器能够实现实时推理,但其性能却不及像GroundingDINO这样的微调VLM。在本文中,我们通过将互联网规模的预训练与实时架构相结合,对专用检测器进行现代化改造,以实现最先进的性能和快速推理。

专用检测器是否对COCO过度优化? 目标检测领域的持续进步很大程度上归功于PASCAL VOC(Everingham等人,2015)和COCO(Lin等人,2014)等标准化基准。然而,我们发现,近期的专用检测器通过定制模型架构、学习率调度器和数据增强调度器,隐含地过度拟合COCO,牺牲了在真实世界中的性能。值得注意的是,像YOLOv8(Jocher等人,2023)这样的先进目标检测器,对于数据分布与COCO显著不同的真实世界数据集(例如,每张图像中的物体数量、类别数量、数据集大小)泛化能力很差。为了应对这些局限性,我们提出了RF-DETR,这是一种无需调度器的方法,它利用互联网规模的预训练来泛化到真实世界的数据分布。为了更好地使我们的模型适应多样化的硬件平台和数据集特性,我们在端到端目标检测和分割的背景下,重新审视了神经架构搜索。

为DETR重新思考神经架构搜索。 NAS通过在预定义的搜索空间内探索架构变体,来发现准确性与延迟之间的权衡。先前的研究已在图像分类(Tan & Le, 2019; Cai等人, 2019)以及检测器主干网络(Tan等人,2020)和FPN(Ghiasi等人,2019)等模型子组件中探索过NAS。与先前工作不同,我们探索用于目标检测和分割的端到端权重共享NAS。受OFA(Cai等人,2019)启发,我们的核心见解是,我们可以在训练过程中改变图像分辨率等模型输入,以及像图像块大小这样的架构组件。此外,权重共享NAS允许我们在无需微调的情况下,修改解码器层数和查询令牌数量等推理配置,以专门化我们强大的基础模型。我们在验证集上通过网格搜索来评估所有模型配置。重要的是,我们的方法只有在基础模型在目标数据集上完全训练完成后,才会对搜索空间进行评估。因此,所有可能的子网络(即搜索空间内的模型配置)都能在无需进一步微调的情况下获得强大的性能,从而显著降低了为新硬件优化的计算成本。有趣的是,我们发现训练期间未明确见过的子网络仍能实现高性能,这表明RF-DETR能够泛化到未见过的架构。将RF-DETR扩展到分割也相对直接,仅需添加一个轻量级实例分割头。我们称此模型为RF-DETR-Seg。值得注意的是,这使我们同样能够利用端到端权重共享NAS来发现实时实例分割的帕累托最优架构。

标准化延迟评估。 我们在COCO(Lin等人,2014)和Roboflow100-VL(Robicheaux等人,2025)上评估了我们的方法,并在实时检测器中实现了最先进的性能。RF-DETR(nano)在COCO上以相当的运行时,其AP比D-FINE(nano)高出5%;RF-DETR(2x-large)在RF100-VL上的性能优于GroundingDINO(tiny),同时运行时间仅为后者的一小部分。RF-DETR-Seg(nano)在COCO上的性能优于YOLOv11-Seg(x-large),且运行速度快4倍。然而,将RF-DETR的延迟与先前工作进行比较仍然具有挑战性,因为不同论文中报告的延迟评估差异很大。值得注意的是,每个新模型都会重新基准测试先前工作的延迟,以在其硬件上进行公平比较。例如,D-FINE报告的对LW-DETR(Chen等人,2024a)的延迟评估比最初报告的快了25%。我们发现,这种可复现性的缺失主要归因于推理过程中的GPU功耗限制。我们发现,在前向传递之间进行缓冲可以限制功耗超额,并标准化延迟评估。

表1:标准化延迟评估。延迟测量的差异很大程度上可归因于功耗限制与GPU过热。我们通过在连续前向传播之间设置200毫秒的缓冲来缓解此问题。需要指出的是,此基准测试方法并非旨在测量持续吞吐量,而是确保延迟测量的可复现性。我们无法在TensorRT中复现YOLOv8和YOLOv11的mAP结果,这很可能是因为这些模型在评估时使用了多类别NMS,而在推理时仅使用了单类别NMS。我们采用了标准经NMS调整的置信度阈值0.01。当从FP32量化至FP16时,YOLOv8和YOLOv11的性能进一步下降,这再次表明所有模型都应使用相同的模型文件来报告延迟与精度。值得注意的是,将D-FINE简单量化到FP16会使其性能下降至0.5 AP。我们通过修改作者的导出代码以使用ONNX opset 17修复了此问题。详见附录A以获取更多细节。

贡献。 我们提出了三个主要贡献。首先,我们介绍了RF-DETR,这是一个基于无调度器NAS的检测和分割模型系列,在RF100-VL上超越了先前最先进的方法,并且在COCO上实现了延迟≤40毫秒的实时方法中的最佳性能。据我们所知,RF-DETR是首个在COCO上平均精度超过60的实时检测器。其次,我们探索了权重共享NAS的"可调旋钮",以改善端到端目标检测的准确性-延迟权衡。值得注意的是,我们使用的权重共享NAS使我们能够利用大规模预训练,并有效地迁移到小数据集。最后,我们重新审视了当前用于测量延迟的基准测试协议,并提出了一种简单的标准化程序以提高可复现性。

2. 相关工作

神经架构搜索能自动识别出具有不同准确性-延迟权衡的模型架构家族(Zoph & Le, 2016; Zoph等人, 2018; Real等人, 2019; Cai等人, 2018a)。早期的NAS方法(Zoph & Le, 2016; Real等人, 2019)主要侧重于最大化准确性,很少考虑效率。因此,发现的架构(例如,NASNet和AmoebaNet)通常计算成本高昂。更新的硬件感知NAS方法(Cai等人, 2018b; Tan等人, 2019; Wu等人, 2019)通过将硬件反馈直接纳入搜索过程来解决这一局限。然而,这些方法必须为每个新硬件平台重复搜索和训练过程。相比之下,OFA(Cai等人, 2019)提出了一种权重共享NAS,它通过同时优化数千个具有不同准确性-延迟权衡的子网络,将训练和搜索过程解耦。当前的方法通常通过简单地在现有检测框架中用NAS主干网络替换标准主干网络来评估NAS用于目标检测。与先前工作不同,我们直接优化端到端的目标检测准确性,以寻找适用于任何目标数据集的帕累托最优准确性-延迟权衡。

实时目标检测器对于安全关键型和交互式应用具有重要意义。历史上,像Mask-RCNN(He等人, 2017)和Hybrid Task Cascade(Chen等人, 2019)这样的两阶段检测器以延迟为代价实现了最先进的性能,而像YOLO(Redmon等人, 2016)和SSD(Liu等人, 2016)这样的单阶段检测器则为了获得一流的运行时性能而牺牲了准确性。然而,现代检测器(Zhao等人, 2024)重新审视了这种准确性-延迟权衡,在这两个轴向上同时改进。最近的YOLO变体在架构、数据增强和训练技术上进行创新(Redmon等人, 2016; Wang等人, 2023; 2024; Jocher等人, 2023; 2024),以在保持快速推理的同时提升性能。尽管效率很高,但大多数YOLO模型依赖于非极大值抑制,这引入了额外的延迟。相比之下,DETR(Carion等人, 2020)移除了NMS和锚框等人工设计的组件。然而,早期的DETR变体(Zhu等人, 2020; Zhang等人, 2022a; Meng等人, 2021; Liu等人, 2022)以运行时为代价获得了强大的准确性,限制了它们在实时应用中的使用。最近的工作,如RT-DETR(Zhao等人, 2024)和LW-DETR(Chen等人, 2024a),已成功地将高性能DETR应用于实时场景。

视觉语言模型在来自网络的大规模、弱监督图文对上训练。这种互联网规模的预训练是实现开放词汇目标检测的关键推动因素(Liu等人, 2023; Cheng等人, 2024)。GLIP(Li等人, 2022)将检测定义为带有单一文本查询的短语定位任务,而Detic(Zhou等人, 2022)则利用ImageNet级别的监督来提升长尾检测性能(Russakovsky等人, 2015)。MQ-Det(Xu等人, 2024)通过一个可学习模块扩展了GLIP,实现了多模态提示。最近的VLM展示了强大的零样本性能,并常作为黑盒模型应用于各种下游任务(Ma等人, 2023; Peri等人, 2023; Khurana等人, 2024; Osep等人, 2024; Takmaz等人, 2025)。然而,Robicheaux等人(2025)发现,当评估的类别通常不在其预训练中出现时,此类模型表现不佳,需要进一步微调。此外,许多视觉语言模型速度极慢,难以用于实时任务。相比之下,RF-DETR将实时检测器的快速推理能力与VLM的互联网规模先验知识相结合,在RF100-VL上达到了最先进的性能,并且在COCO上所有延迟≤40毫秒的范围内均表现出色。

3 RF-DETR:基于基础模型的权重共享神经架构搜索

本章将介绍我们基础模型的架构(见图2),并阐述我们权重共享NAS的"可调参数"(见图3)。此外,我们将重点讨论手动设计的学习率与数据增强调度器的局限性,并倡导采用一种无调度器的方法。

融入互联网规模先验知识。 RF-DETR对LW-DETR进行了现代化改造,通过简化其架构和训练流程来提升对多样化目标领域的泛化能力。首先,我们用DINOv2主干网络替换了LW-DETR的CAEv2主干网络。我们发现,使用DINOv2的预训练权重初始化主干网络能显著提升在小数据集上的检测精度。值得注意的是,CAEv2编码器有10层,块大小为16,而DINOv2编码器有12层。我们的DINOv2主干网络层数更多,比CAEv2更慢,但我们通过使用NAS来弥补这部分延迟。最后,我们通过在多尺度投影器中使用层归一化代替批归一化,并配合梯度累积,使得在消费级GPU上进行训练成为可能。

实时实例分割。 受Li等人(2023)的启发,我们添加了一个轻量级实例分割头,以联合预测高质量的分割掩码。我们的分割头对编码器的输出进行双线性插值,并学习一个轻量级投影器来生成像素嵌入图。具体来说,我们为检测头和分割头上采样相同的低分辨率特征图,以确保其包含相关的空间信息。与MaskDINO不同,我们的分割头不融合多尺度主干特征,以最大限度地减少延迟。最后,我们计算所有投影后的查询令牌嵌入(在经FFN变换后的每个解码器层输出处)与像素嵌入图的点积,以生成分割掩码。有趣的是,我们可以将这些像素嵌入解释为分割原型。受LW-DETR关于预训练能提升DETR性能的观察启发,我们在使用SAM2实例掩码进行伪标注的Objects-365数据集上对RF-DETR-Seg进行了预训练。

端到端神经架构搜索。 我们的权重共享NAS可评估数千种具有不同输入图像分辨率、块大小、窗口注意力块数量、解码器层数和查询令牌数的模型配置。在每次训练迭代中,我们均匀地随机采样一个模型配置并执行梯度更新。这使得我们的模型能够高效地并行训练数千个子网络,类似于使用丢弃法的集成学习。我们发现这种权重共享NAS方法在训练时还能起到正则化的作用,有效地执行"架构增强"。据我们所知,RF-DETR是首个应用于目标检测和分割的端到端权重共享NAS。下文我们将描述各个组成部分:

  • 块大小。较小的块会提高准确性,但计算成本也更高。我们采用类似FlexiViT的方法,在训练期间于不同块大小之间进行插值。

  • 解码器层数。与近期的DETR类似,我们在训练时对所有解码器层的输出都应用回归损失。因此,在推理时我们可以丢弃任意(或全部)解码器块。有趣的是,在推理时移除整个解码器,实际上将RF-DETR变成了单阶段检测器。值得注意的是,截断解码器同时也会缩小分割分支的规模,从而能更好地控制分割延迟。

  • 查询令牌数。查询令牌学习用于边界框回归和分割的空间先验。我们在测试时丢弃查询令牌(按编码器输出端每个令牌对应类别逻辑值的最大Sigmoid值排序,详见附录B),以改变最大检测数量并减少推理延迟。查询令牌的帕累托最优数量隐含地编码了目标数据集中关于每张图像平均物体数量的统计信息。

  • 图像分辨率。更高的分辨率提升小物体检测性能,而更低的分辨率改善运行时间。我们预分配N个位置嵌入,对应于最大图像分辨率除以最小块大小,并对这些嵌入进行插值以适应更小的分辨率或更大的块大小。

  • 每个窗口注意力块中的窗口数量。窗口注意力将自注意力限制为仅处理固定数量的邻近令牌。我们可以增加或减少每个块中的窗口数量,以在准确性、全局信息混合和计算效率之间取得平衡。

在推理时,我们选择特定的模型配置,以在准确性-延迟帕累托曲线上选取一个工作点。重要的是,不同的模型配置可能具有相似的参数量,但延迟却显著不同。与Cai等人(2019)的研究类似,我们发现对NAS挖掘出的模型在COCO上进行微调几乎没有收益,但在RF100-VL上进行微调则有适度提升。我们推测,RF-DETR在RF100-VL上受益于额外的微调,是因为在小数据集上,"架构增强"这种正则化方法需要超过100个训练周期才能收敛。值得注意的是,先前的权重共享NAS方法采用分阶段训练,并为每个阶段使用不同的学习率调度器。然而,此类调度器对模型收敛做出了严格假设,这些假设可能并不适用于多样化的数据集。

训练调度器与数据增强会带来性能偏差。 最先进的检测器通常需要仔细的超参数调优,才能在标准基准测试中最大化性能。然而,这种定制的训练过程会隐含地将模型偏向于某些数据集特征。与DINOv3的研究同时,我们观察到余弦调度器假设了一个已知的优化周期,这对于像RF100-VL中那样多样化的目标数据集来说是不切实际的。数据增强通过预设对数据集属性的先验知识,引入了类似的偏差。例如,先前工作利用激进的数据增强来增加有效数据集大小。然而,某些增强可能对安全关键领域的模型预测产生负面影响。因此,我们将数据增强限制在水平翻转和随机裁剪。最后,LW-DETR应用了每张图像随机调整大小的增强,每张图像都被填充以匹配批次中最大的图像。这导致大多数图像有大量填充,引入了窗口伪影,并在填充区域浪费了计算资源。相比之下,我们在批次级别调整图像大小,以最小化每批次的填充像素数量,并确保所有位置编码分辨率在训练时被同等概率地看到。

4 实验

我们在COCO和RF100-VL数据集上评估RF-DETR,并证明我们的方法在所有实时方法中达到了最先进的准确性。此外,我们指出了标准基准测试协议中存在的不一致之处,并提出了一种简单的标准化程序以提高可复现性。遵循LW-DETR的做法,我们根据延迟而非参数量,将延迟相似的模型归入同一尺寸类别。

数据集与评估指标。 我们在COCO上评估RF-DETR,以便与先前工作进行公平比较;同时在RF100-VL上评估,以检验其对数据分布显著不同的真实世界数据集的泛化能力。鉴于RF100-VL包含100个多样化数据集,我们认为其整体性能可作为模型向任何目标领域可迁移性的一个衡量指标。我们使用pycocotools报告平均精度均值等标准指标,并提供对AP50、AP75、AP小目标、AP中目标、AP大目标的细分分析。此外,我们通过测量GFLOPs、参数量以及在配备TensorRT 10.4和CUDA 12.4的NVIDIA T4 GPU上的推理延迟来评估效率。

标准化延迟基准测试。 尽管目标检测已发展成熟,但在先前的不同工作中,基准测试仍不一致。例如,基于YOLO的模型在计算延迟时常常忽略非极大值抑制,导致与端到端检测器的比较不公平。此外,基于YOLO的分割模型测量的是生成原型预测而非直接可用的逐物体掩码的延迟,这导致了有偏差的运行时间测量。进一步地,D-FINE报告的LW-DETR延迟评估比Chen等人(2024b)报告的快25%。我们观察到这种差异可归因于可检测的功耗限制事件,尤其是在GPU过热时。相比之下,仅需在连续前向传播之间暂停200毫秒,就能在很大程度上缓解功耗限制,从而获得更稳定的延迟测量。最后,我们发现先前工作经常报告使用FP16量化模型的延迟,却用FP32模型评估准确性。然而,简单的量化可能显著降低性能(在某些情况下性能降至接近0 AP)。为确保公平比较,我们主张使用相同的模型文件报告准确性和延迟。我们在GitHub上发布了我们独立的基准测试工具。

在COCO上评估RF-DETR和RF-DETR-Seg。 COCO是目标检测和实例分割的标志性基准。在表2中,我们将RF-DETR与领先的实时检测器和开放词汇检测器进行比较。RF-DETR(纳米版)以超过5 AP的优势击败了D-FINE(纳米版)和LW-DETR(纳米版)。小尺寸和中尺寸模型也呈现相似趋势。值得注意的是,RF-DETR也显著优于YOLOv8和YOLOv11。RF-DETR(纳米版)的性能与YOLOv8和YOLOv11(中尺寸版)相当。我们使用mmdetection对GroundingDINO的实现,并引用了他们报告的AP,因为他们没有发布在COCO上微调后的GroundingDINO模型文件。我们使用其发布的开放词汇模型来基准测试mmGroundingDINO的参数量、GFLOPs和延迟。在表3中,我们将RF-DETR-Seg与实时实例分割模型进行比较。RF-DETR-Seg(纳米版)在所有尺寸上都优于YOLOv8和YOLOv11。此外,RF-DETR-Seg(纳米版)以快近十倍的速度,性能超出FastInst 5.4%。同样,RF-DETR(超大版)超越了GroundingDINO(微型版),而RF-DETR-Seg(大版)的性能优于MaskDINO(R50),且运行时间仅为后者的一小部分。

在RF100-VL上评估RF-DETR。 RF100-VL是一个由100个不同数据集组成的、具有挑战性的检测基准。我们在表4中报告了在所有100个数据集上平均的延迟、FLOPs和准确性。结果表明,RF-DETR(2倍大版)在仅需其一小部分运行时间的情况下,性能优于GroundingDINO和LLMDet。有趣的是,RT-DETR在mAP50指标上优于基于其构建的D-FINE,这表明D-FINE的超参数可能对COCO过度优化了。我们注意到,RF-DETR受益于扩展到更大的主干网络尺寸。相比之下,基于YOLOv8和YOLOv11的检测器表现持续逊于基于DETR的检测器,并且将这些模型系列扩展到更大尺寸并不能改善它们在RF100-VL上的性能。

神经架构搜索的影响。 我们在表3中分析了权重共享NAS的影响。我们发现,与LW-DETR相比,采用一组更温和的超参数(例如,更大的批大小、更低的学习率、用层归一化替换批归一化)会使性能比LW-DETR低1.0%。值得注意的是,用层归一化替换批归一化会损害性能,但这是在消费级硬件上进行训练所必需的。然而,用DINOv2主干网络替换LW-DETR的CAEv2主干网络能使性能提升2%。特别是较低的学习率有助于保留DINOv2的预训练知识,而在Objects-365数据集上进行额外周期的预训练进一步弥补了优化速度较慢的问题。我们结合权重共享NAS的最终模型在不增加延迟的情况下,性能比LW-DETR提升了2%。

主干网络架构与预训练的影响。 我们研究了RF-DETR中不同主干网络架构的影响。我们发现DINOv2取得了最佳性能,比CAEv2高出2%。有趣的是,尽管SAM2的Hiera-S主干网络参数量少于SigLIPv2,但其速度却明显更慢。这与Hiera-S声称其比性能相当的ViT速度显著更快的说法形成对比。然而,Hiera没有在Flash Attention这类内核的背景下探索延迟,而这些内核在TensorRT等编译器中是高度优化的。此外,现有的基础模型家族通常不发布轻量级ViT变体,这使得很难将此类模型重新用于实时应用。

对标准准确性基准测试实践的再思考。 遵循先前工作,我们所有COCO结果均在验证集上报告。然而,仅依赖验证集进行模型选择和评估可能导致过拟合。例如,D-FINE在COCO验证集上进行了大量的超参数搜索并报告其最佳模型。但是,在RF100-VL上评估此配置表明,D-FINE在测试集上的表现不如RT-DETR。相比之下,我们的方法在RF100-VL和COCO上的所有实时检测器中均达到了最先进的性能,证明了我们权重共享NAS的鲁棒性。除了在COCO上评估,我们主张未来的检测器也应该在像RF100-VL这样具有公开验证集和测试集划分的数据集上进行评估。

局限性。 尽管在推理过程中控制了功耗限制和GPU过热问题,但由于TensorRT在编译过程中的非确定性行为,我们的延迟测量仍存在高达0.1毫秒的方差。具体来说,TensorRT可能引入功耗限制,这反过来会影响生成的引擎并导致延迟的随机波动。虽然给定的TensorRT引擎的测量结果通常是稳定的,但重新编译相同的ONNX文件可能会产生不同的延迟结果。因此,我们仅报告保留一位小数的延迟精度。

5 结论

在本文中,我们介绍了RF-DETR,这是一种基于NAS的最先进方法,用于为目标数据集和硬件平台微调专用的端到端目标检测器。我们的方法在COCO和RF100-VL上超越了先前最先进的实时方法,在COCO上比D-FINE(纳米版)提升了5% AP。此外,我们强调当前架构、学习率调度器和数据增强调度器都是为在COCO上最大化性能而定制的,这表明研究社区应在多样化的大规模数据集上对模型进行基准测试,以防止隐性过拟合。最后,我们指出了由于功耗限制导致的延迟基准测试高方差问题,并提出了一种标准化协议以提高可复现性。

相关推荐
黑客思维者2 小时前
机器学习003:无监督学习(概论)--机器如何学会“自己整理房间”
人工智能·学习·机器学习·无监督学习
子洋2 小时前
AI Agent 介绍
前端·人工智能·后端
黑客思维者2 小时前
阶跃星辰:从技术理想主义到多模态AI独角兽的崛起之路
人工智能·阶跃星辰·行业研究
长空任鸟飞_阿康2 小时前
LangGraph 技术详解:基于图结构的 AI 工作流与多智能体编排框架
人工智能·python·langchain
【建模先锋】2 小时前
故障诊断模型讲解:基于1D-CNN、2D-CNN分类模型的详细教程!
人工智能·深度学习·分类·cnn·卷积神经网络·故障诊断·轴承故障诊断
凯子坚持 c2 小时前
Docker网络架构深度解析:从原理到实战
网络·docker·架构
范桂飓2 小时前
模型训练资源需求计算公式
人工智能
其美杰布-富贵-李2 小时前
tsai 中 Learner 机制深度学习笔记
人工智能·笔记·深度学习
KAI智习2 小时前
大模型榜单周报(2025/12/20)
人工智能·大模型