导读
实时目标检测长期由 YOLO 系列主导,Transformer 架构因推理速度劣势一直难以进入实时场景。
Roboflow 推出的 RF-DETR 改变了这个局面:基于 DINOv2 骨干的检测 Transformer,在 COCO 上以 56.5 AP(L 模型,6.8ms) 超越 YOLO11 和 YOLO26 同级别模型,同时原生支持实例分割。项目开源活跃,一个月发了 5 个版本,近期新增了 PyTorch Lightning 迁移、自定义数据增强、GPU 显存监控等实用功能。
论文: RF-DETR: Neural Architecture Search for Real-Time Detection Transformers 作者:** Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri发表: ICLR 2026(arXiv: 2511.09554)代码: github.com/roboflow/rf...** 5.9K(截至 2026.3.15)协议: Apache 2.0(N/S/M/L),PML 1.0(XL/2XL)**
一、为什么是 Transformer 而不是 YOLO?
YOLO 系列在实时检测领域统治多年,核心优势是速度。但 RF-DETR 证明了 Transformer 架构在实时场景下也能做到更好:

图片来源于原论文
| 模型 | COCO AP₅₀:₉₅ | COCO AP₅₀ | 延迟 (ms) | 参数量 | 分辨率 |
|---|---|---|---|---|---|
| RF-DETR-N | 48.4 | 67.6 | 2.3 | 30.5M | 384×384 |
| RF-DETR-S | 53.0 | 72.1 | 3.5 | 32.1M | 512×512 |
| RF-DETR-M | 54.7 | 73.6 | 4.4 | 33.7M | 576×576 |
| RF-DETR-L | 56.5 | 75.1 | 6.8 | 33.9M | 704×704 |
| RF-DETR-XL | 58.6 | 77.4 | 11.5 | 126.4M | 700×700 |
| RF-DETR-2XL | 60.1 | 78.5 | 17.2 | 126.9M | 880×880 |
延迟在 NVIDIA T4 GPU 上用 TensorRT FP16 测量。
作为参照,YOLO11-S 在 COCO 上的 AP₅₀:₉₅ 为 44.4(3.2ms),YOLO11-M 为 48.6(5.1ms)。RF-DETR-N 以 48.4 AP₅₀:₉₅(2.3ms)超越 YOLO11-S,RF-DETR-S 以 53.0(3.5ms)超越 YOLO11-M------在相近延迟下精度更高。
RF-DETR 使用 DINOv2 作为视觉骨干,结合神经架构搜索(NAS)优化检测头设计,在保持实时推理速度的同时获得了更高的检测精度。

图片来源于原论文
二、检测 + 分割,统一 API
自 v1.3.0(2025 年 10 月)起,RF-DETR 新增了实例分割能力,提供统一的 API 接口:
| 分割模型 | COCO AP₅₀:₉₅ | COCO AP₅₀ | 延迟 (ms) | 参数量 |
|---|---|---|---|---|
| RF-DETR-Seg-N | 40.3 | 63.0 | 3.4 | 33.6M |
| RF-DETR-Seg-S | 43.1 | 66.2 | 4.4 | 33.7M |
| RF-DETR-Seg-M | 45.3 | 68.4 | 5.9 | 35.7M |
| RF-DETR-Seg-L | 47.1 | 70.5 | 8.8 | 36.2M |
| RF-DETR-Seg-XL | 48.8 | 72.2 | 13.5 | 38.1M |
| RF-DETR-Seg-2XL | 49.9 | 73.1 | 21.8 | 38.6M |
用户可以用相同的代码接口切换检测和分割任务,降低了使用门槛。
三、6 种模型规格,覆盖从边缘到云端
RF-DETR 提供从 Nano 到 2XLarge 共 6 个规格:
- Nano/Small(30-32M 参数,2.3-3.5ms):适合边缘设备和实时流处理
- Medium/Large(33-34M 参数,4.4-6.8ms):平衡精度和速度
- XLarge/2XLarge(126M+ 参数,11.5-17.2ms):追求最高精度
N/S/M/L 采用 Apache 2.0 开源协议,可自由商用。XL/2XL 采用 PML 1.0 协议。
四、近期更新:一个月 5 个版本
RF-DETR 的迭代速度很快,2026 年 1-3 月的主要更新:
v1.6.0 rc(3/13)--- PyTorch Lightning 迁移
将训练框架迁移到 PyTorch Lightning,为分布式训练、混合精度等高级训练特性提供更好的支持。
v1.5.2(3/4)--- GPU 显存监控
训练和评估的进度条现在实时显示 GPU 峰值显存占用(max_mem),无需额外的 profiling 工具即可掌握硬件利用情况。
v1.5.1(2/27)--- 嵌套数据增强
支持 Albumentations 的 OneOf 和 Sequential 嵌套容器,增强管线的灵活性。
v1.5.0(2/23)--- 自定义数据增强
通过 aug_config 参数完全控制训练增强策略,支持传入 Albumentations 字典、选择内置预设(保守/激进/无增强),或完全禁用增强。边界框和分割掩码会自动跟随变换。
ini
from rfdetr import RFDETRSmall
model = RFDETRSmall()
model.train(dataset_dir=".", aug_config=AUG_AGGRESSIVE)
v1.4.2(2/12)--- YOLO 格式支持
支持 YOLO 格式数据集直接训练,支持图片 URL 推理,允许无测试集训练。
v1.4.0(1/22)--- 新预训练检查点
新增 L/XL/2XL 检测检查点和全系列(N-2XL)分割检查点,性能全面提升。同时放弃 Python 3.9 支持。
五、总结与思考
RF-DETR 的核心价值:
- Transformer 做实时检测的可行性验证:DINOv2 骨干 + NAS 优化的检测头,在 COCO 上超越 YOLO 同级模型
- 检测+分割统一:一套 API 覆盖两种任务
- 迭代速度快:一个月 5 个版本,工程质量扎实(显存监控、增强管线、Lightning 迁移等)
- 对工业场景的适用性:Nano 模型 2.3ms 延迟适合产线实时检测,自定义增强适合特定缺陷场景的微调
值得关注的点:
- XL/2XL 模型的 PML 1.0 协议限制了部分商用场景
- 目前 COCO AP₅₀:₉₅ 对比表中的数据来自 RF-DETR 官方,尚未有第三方独立验证
- 生态还在早期(5.9K stars),相比 Ultralytics YOLO(54K+)的社区规模差距明显