RF-DETR:最近一个月迭代 5 个版本的实时检测+分割模型

导读

实时目标检测长期由 YOLO 系列主导,Transformer 架构因推理速度劣势一直难以进入实时场景。

Roboflow 推出的 RF-DETR 改变了这个局面:基于 DINOv2 骨干的检测 Transformer,在 COCO 上以 56.5 AP(L 模型,6.8ms) 超越 YOLO11 和 YOLO26 同级别模型,同时原生支持实例分割。项目开源活跃,一个月发了 5 个版本,近期新增了 PyTorch Lightning 迁移、自定义数据增强、GPU 显存监控等实用功能。

论文: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers 作者:** Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri发表: ICLR 2026(arXiv: 2511.09554)代码: github.com/roboflow/rf...** 5.9K(截至 2026.3.15)协议: Apache 2.0(N/S/M/L),PML 1.0(XL/2XL)**


一、为什么是 Transformer 而不是 YOLO?

YOLO 系列在实时检测领域统治多年,核心优势是速度。但 RF-DETR 证明了 Transformer 架构在实时场景下也能做到更好:

图片来源于原论文

模型 COCO AP₅₀:₉₅ COCO AP₅₀ 延迟 (ms) 参数量 分辨率
RF-DETR-N 48.4 67.6 2.3 30.5M 384×384
RF-DETR-S 53.0 72.1 3.5 32.1M 512×512
RF-DETR-M 54.7 73.6 4.4 33.7M 576×576
RF-DETR-L 56.5 75.1 6.8 33.9M 704×704
RF-DETR-XL 58.6 77.4 11.5 126.4M 700×700
RF-DETR-2XL 60.1 78.5 17.2 126.9M 880×880

延迟在 NVIDIA T4 GPU 上用 TensorRT FP16 测量。

作为参照,YOLO11-S 在 COCO 上的 AP₅₀:₉₅ 为 44.4(3.2ms),YOLO11-M 为 48.6(5.1ms)。RF-DETR-N 以 48.4 AP₅₀:₉₅(2.3ms)超越 YOLO11-S,RF-DETR-S 以 53.0(3.5ms)超越 YOLO11-M------在相近延迟下精度更高。

RF-DETR 使用 DINOv2 作为视觉骨干,结合神经架构搜索(NAS)优化检测头设计,在保持实时推理速度的同时获得了更高的检测精度。

图片来源于原论文

二、检测 + 分割,统一 API

自 v1.3.0(2025 年 10 月)起,RF-DETR 新增了实例分割能力,提供统一的 API 接口:

分割模型 COCO AP₅₀:₉₅ COCO AP₅₀ 延迟 (ms) 参数量
RF-DETR-Seg-N 40.3 63.0 3.4 33.6M
RF-DETR-Seg-S 43.1 66.2 4.4 33.7M
RF-DETR-Seg-M 45.3 68.4 5.9 35.7M
RF-DETR-Seg-L 47.1 70.5 8.8 36.2M
RF-DETR-Seg-XL 48.8 72.2 13.5 38.1M
RF-DETR-Seg-2XL 49.9 73.1 21.8 38.6M

用户可以用相同的代码接口切换检测和分割任务,降低了使用门槛。

三、6 种模型规格,覆盖从边缘到云端

RF-DETR 提供从 Nano 到 2XLarge 共 6 个规格:

  • Nano/Small(30-32M 参数,2.3-3.5ms):适合边缘设备和实时流处理
  • Medium/Large(33-34M 参数,4.4-6.8ms):平衡精度和速度
  • XLarge/2XLarge(126M+ 参数,11.5-17.2ms):追求最高精度

N/S/M/L 采用 Apache 2.0 开源协议,可自由商用。XL/2XL 采用 PML 1.0 协议。

四、近期更新:一个月 5 个版本

RF-DETR 的迭代速度很快,2026 年 1-3 月的主要更新:

v1.6.0 rc(3/13)--- PyTorch Lightning 迁移

将训练框架迁移到 PyTorch Lightning,为分布式训练、混合精度等高级训练特性提供更好的支持。

v1.5.2(3/4)--- GPU 显存监控

训练和评估的进度条现在实时显示 GPU 峰值显存占用(max_mem),无需额外的 profiling 工具即可掌握硬件利用情况。

v1.5.1(2/27)--- 嵌套数据增强

支持 Albumentations 的 OneOfSequential 嵌套容器,增强管线的灵活性。

v1.5.0(2/23)--- 自定义数据增强

通过 aug_config 参数完全控制训练增强策略,支持传入 Albumentations 字典、选择内置预设(保守/激进/无增强),或完全禁用增强。边界框和分割掩码会自动跟随变换。

ini 复制代码
from rfdetr import RFDETRSmall
model = RFDETRSmall()
model.train(dataset_dir=".", aug_config=AUG_AGGRESSIVE)

v1.4.2(2/12)--- YOLO 格式支持

支持 YOLO 格式数据集直接训练,支持图片 URL 推理,允许无测试集训练。

v1.4.0(1/22)--- 新预训练检查点

新增 L/XL/2XL 检测检查点和全系列(N-2XL)分割检查点,性能全面提升。同时放弃 Python 3.9 支持。

五、总结与思考

RF-DETR 的核心价值:

  • Transformer 做实时检测的可行性验证:DINOv2 骨干 + NAS 优化的检测头,在 COCO 上超越 YOLO 同级模型
  • 检测+分割统一:一套 API 覆盖两种任务
  • 迭代速度快:一个月 5 个版本,工程质量扎实(显存监控、增强管线、Lightning 迁移等)
  • 对工业场景的适用性:Nano 模型 2.3ms 延迟适合产线实时检测,自定义增强适合特定缺陷场景的微调

值得关注的点:

  • XL/2XL 模型的 PML 1.0 协议限制了部分商用场景
  • 目前 COCO AP₅₀:₉₅ 对比表中的数据来自 RF-DETR 官方,尚未有第三方独立验证
  • 生态还在早期(5.9K stars),相比 Ultralytics YOLO(54K+)的社区规模差距明显
相关推荐
Frostnova丶2 小时前
LeetCode 1878. 矩阵中最大的三个菱形和
算法·leetcode·矩阵
m0_662577972 小时前
C++中的享元模式实战
开发语言·c++·算法
bst@微胖子2 小时前
OpenCV 案例六【道路裂缝检测】
人工智能·opencv·计算机视觉
bst@微胖子2 小时前
OpenCV 案例五【动物识别】
人工智能·opencv·计算机视觉
Storynone2 小时前
【Day】LeetCode:134. 加油站,135. 分发糖果,860. 柠檬水找零,406. 根据身高重建队列
python·算法·leetcode
喵喵蒻葉睦2 小时前
力扣 hot100 和为K的子数组 哈希&前缀和
java·数据结构·算法·leetcode·前缀和·哈希算法
进击ing小白2 小时前
OpenCv之图像缩放翻转和拼接
人工智能·opencv·计算机视觉
jing-ya2 小时前
day52 图论part4
数据结构·算法·图论
tankeven2 小时前
最短路径问题00:dijkstra算法
c++·算法