【导读】
YOLO系列长期统治着实时目标检测,但Transformer能否取而代之一直是悬而未决的问题。百度最新提出的LW-DETR(Light-Weight DETR)给出了答案:它在保持轻量高效的同时,精度全面超越YOLO,速度也实现突破,真正将Transformer带入实时检测新时代。
在目标检测领域,YOLO系列一直被视为实时检测的黄金标准。从YOLOv1到YOLOv10,从YOLOX到YOLO-NAS,卷积神经网络(CNN)架构始终占据着主导地位。
近年来,Transformer架构在检测任务中展现出强大性能,DETR系列模型不断刷新COCO榜单纪录。但一个根本问题始终悬而未决:基于Transformer的检测器能否在实时场景下超越YOLO?
现在,百度研究团队给出了肯定答案!他们提出的LW-DETR(Light-Weight DETR)不仅在精度上全面超越YOLO系列,在速度上也实现了显著提升,成为实时目标检测的新标杆。

架构设计:三大创新打造高效Transformer
LW-DETR的架构设计体现了"简洁而不简单"的哲学思想,通过三大创新实现了计算效率的质的飞跃。
- 多级特征聚合机制

传统ViT编码器通常只使用最后一层的特征,而LW-DETR创新性地聚合了中间层和最终层的特征图,形成了更丰富的特征表示。具体来说:
- 在tiny模型(6层编码器)中,使用第0、2、4层的特征
- 在small/medium/large/xlarge模型(10层编码器)中,使用第2、4、5、9层的特征
- 通过特征融合,获得了0.7mAP的性能提升
这种方法既保留了浅层的细节信息,又融合了深层的语义信息,为检测任务提供了更优质的特征基础。
- 交替注意力机制
LW-DETR采用了窗口注意力和全局注意力交替使用的策略,大幅降低了计算复杂度:
shell
# 6层编码器的注意力模式(W:窗口注意力,G:全局注意力)层数: 0 1 2 3 4 5模式: W G W G W G # tiny模型# 10层编码器的注意力模式层数: 0 1 2 3 4 5 6 7 8 9 模式: W W G W W G W W G W # 其他模型
这种设计将计算复杂度从O(n²)降低到O(n√n),其中n是序列长度。实验表明,这一改变将FLOPs从23.0G降低到16.6G,减少了28%的计算量。
- 窗口优先特征组织
这是LW-DETR在工程实现上的重要创新。传统ViTDet实现使用行优先(row-major)特征组织方式,需要在窗口注意力和全局注意力之间进行昂贵的内存重排操作。
LW-DETR采用窗口优先(window-major)组织方式,彻底避免了这一开销。以一个4×4特征图为例:
行优先组织:

窗口优先组织(2×2窗口):

这一优化带来了显著的延迟降低:从3.9ms降至2.9ms,减少了25.6%的推理时间。
训练策略:两大创新加速收敛提升性能
LW-DETR在训练策略上进行了精心设计,通过两大创新技术解决了DETR系列训练收敛慢的问题。

- 两阶段预训练策略
LW-DETR采用了精心设计的两阶段预训练策略:
第一阶段:自监督预训练
- 使用CAEv2(Context Autoencoder v2)方法在Objects365数据集上进行掩码图像建模
- 学习丰富的视觉表示,为下游检测任务奠定基础
第二阶段:有监督预训练
- 在Objects365上以有监督方式训练编码器-解码器结构
- 使模型适应目标检测任务的特点和要求
这一预训练策略带来了显著的性能提升,平均提高5.5mAP,其中tiny模型提升6.1mAP,xlarge模型提升5.3mAP。
- Group DETR多组监督
LW-DETR引入了Group DETR训练策略,使用13个并行且权重共享的解码器进行训练:
- 每个解码器从投影器输出特征中生成各自的对象查询
- 推理时仅使用主解码器,不增加计算开销
- 通过一对多匹配提供更丰富的监督信号
这一技术将mAP从35.4提升到38.4,提高了3.0个点,极大地加速了训练收敛过程。
- 损失函数优化
LW-DETR采用了IoU感知的分类损失(IA-BCE损失),其数学表达为:

其中目标分数t吸收了IoU信息:t = s^α u^{1-α}(α=0.25),使分类得分与定位质量保持一致。
对于希望复现或进一步探索此类模型的研究者,可以借助如Coovally这样的高效AI开发平台,Coovally不仅提供了丰富的开源数据资源和算法组件,更在开发体验和训练效率上进行了全面优化。 研究者可以在平台上使用自己熟悉的开发工具(如 VS Code、Cursor 等),通过 SSH 协议直连云端算力,享受如同本地一样的实时开发与调试体验,同时调用高性能 GPU 环境,极大地加速了实验迭代与模型训练进程。

!!点击下方链接,立即体验Coovally!!
平台链接: www.coovally.com
实验结果:全面领先的性能表现
LW-DETR在多个数据集和评测基准上展现了令人瞩目的性能优势。
- COCO数据集上的绝对领先
下表展示了LW-DETR与主流实时检测器在COCO val2017上的对比结果:

从结果可以看出,LW-DETR在各个规模模型上都实现了精度和速度的双重优势。
- 跨域泛化能力卓越
LW-DETR在UVO和Roboflow 100等跨域数据集上表现出了卓越的泛化能力:
UVO开放世界检测结果:
- RTMDet-s: 29.7 mAP
- YOLOv8-s: 29.1 mAP
- YOLO-NAS-s: 31.0 mAP
- LW-DETR-small: 32.3 mAP(领先1.3mAP)

Roboflow 100多域检测结果:
LW-DETR在7个不同领域(航空、游戏、显微、水下、文档、电磁、真实世界)上都取得了最优性能,平均mAP达到82.5,显著优于YOLOv8-s(80.1)和RTMDet-s(79.2)。

- 无需NMS的端到端优势
与传统检测器相比,LW-DETR无需NMS后处理,这一优势在小模型上尤为明显:

- YOLOv8n的NMS耗时4.7ms,占总推理时间的76%
- RTMDet-tiny的NMS耗时5.3ms,占总推理时间的72%
- LW-DETR-tiny完全避免NMS开销,实现真正端到端检测
即使对传统方法调优NMS得分阈值,LW-DETR仍保持明显优势,证明了其设计的前瞻性和实用性。
Coovally平台还可以直接查看"实验日志" 。在每一个实验详情页中,用户都可以实时查看训练日志、输出信息或报错内容,无需额外配置、无缝集成于工作流中!

不论是模型调参、错误排查,还是过程复现,这项新功能都将大幅提升你的实验效率。
未来展望:Transformer的时代来临
LW-DETR的成功证明了Transformer架构在实时视觉任务中的巨大潜力。研究人员表示,未来将继续探索:
- 开放世界目标检测应用
- 多人姿态估计任务
- 多视角3D目标检测
- 神经网络架构搜索技术结合
结语:开源贡献,推动行业发展
百度团队已经开源了LW-DETR的代码和预训练模型,这将极大促进实时目标检测领域的发展。研究人员和开发者可以在此基础上进一步探索Transformer在实时视觉任务中的应用潜力。
LW-DETR的出现标志着实时目标检测领域迎来了一个新时代,Transformer架构不仅在大模型上表现出色,在轻量级实时模型上也同样具有压倒性优势。