YOLO26学界首评：四大革新点究竟有多强？

**论文标题：

**

**YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETECTION **

论文链接 **：

**

arxiv.org/abs/2509.25...

摘要

本研究对Ultralytics YOLO26进行了全面分析，重点阐述其关键架构改进及实时边缘物体检测性能基准测试。YOLO26于2025年9月发布，作为YOLO家族最新且最先进的成员，专为在边缘及低功耗设备上实现高效、精准且即用型部署而设计。本文依次详述YOLO26的架构创新：移除分布式焦点损失（DFL）、采用端到端无NMS推理、整合ProgLoss与小目标感知标签分配（STAL）机制，并引入MuSGD优化器实现稳定收敛。除架构革新外，本研究将YOLO26定位为多任务框架，支持目标检测、实例分割、姿态/关键点估计、定向检测及分类任务。我们展示了YOLO26在NVIDIA Jetson Nano和Orin等边缘设备上的性能基准测试，并与YOLOv8、YOLOv11、YOLOv12、YOLOv13及基于Transformer的检测器进行对比。本文进一步探讨了实时部署路径、灵活的导出选项（ONNX、TensorRT、CoreML、TFLite）以及INT8/FP16量化方案。重点展示了YOLO26在机器人、制造和物联网领域的实际应用场景，以证明其跨行业适应性。最后，针对部署提供了深入见解。

四大核心创新点

移除DFL（Distribution Focal Loss）

以往的YOLO模型（如YOLOv8）普遍采用DFL来提升边界框回归的精度，但这无疑增加了计算开销和模型导出的复杂度。YOLO26果断地移除了DFL模块，将边界框预测回归到更直接的回归任务，极大地简化了模型结构。这一改变不仅提升了推理效率，还使得模型能够更轻松地导出到ONNX、TensorRT、CoreML等不同平台。

端到端无NMS（NMS-free）推理

非极大值抑制（NMS）作为目标检测后处理的标配，一直是推理速度的瓶颈之一，并且需要手动调整超参数。YOLO26通过重新设计预测头，实现了真正的端到端无NMS推理。模型可以直接输出无冗余的检测框，彻底告别了后处理的烦恼。这一突破性的改进，使得YOLO26在CPU上的推理速度相比前代模型提升了高达43%（以nano模型为例），对于延迟敏感的移动设备、无人机和嵌入式平台而言，这无疑是巨大的福音。

引入ProgLoss与STAL

为了解决训练稳定性和小目标检测这两大难题，YOLO26引入了两种新策略。ProgLoss（Progressive Loss Balancing）能够在训练过程中动态调整不同损失成分的权重，防止模型在训练后期对某些类别过拟合，从而提升了泛化能力。而 STAL（Small-Target-Aware Label Assignment）则是一种专门针对小目标的标签分配策略，它在训练时会优先考虑那些像素占比小、易被忽略的目标，显著增强了模型在拥挤场景或远距离视角下对小目标的识别准度。

采用MuSGD优化器

借鉴近年来大语言模型（LLM）训练中的优化技术突破，YOLO26引入了一种名为MuSGD的混合优化器。它结合了传统随机梯度下降（SGD）的鲁棒性和Muon优化器的自适应特性，能够在多样化的数据集上实现更快、更稳定的收敛。这意味着开发者可以用更少的训练周期和计算资源，达到理想的模型精度。

基准测试与对比分析

在YOLO26的案例中，我们进行了一系列严格的基准测试，以评估其相对于YOLO系列前代模型以及其他先进架构的性能。图4综合展示了此次评估的结果，该图在NVIDIA T4 GPU并使用TensorRT FP16优化的环境下，绘制了COCO mAP(50--95)与延迟（每图像毫秒数）的关系图。纳入YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3和DEIM等竞争架构，全面呈现了实时检测领域的最新进展。从图中可以看出，YOLO26展现出了独特的定位：它在保持与RT-DETRv3等基于Transformer的模型相媲美的高精度水平的同时，在推理速度方面显著优于它们。例如，YOLO26-m和YOLO26-l分别实现了超过51%和53%的竞争性mAP分数，但延迟却大幅降低，这凸显了其无NMS架构和轻量级回归头的优势。

结论

YOLO26 的一个主要贡献在于其对部署优势的强调。该模型的架构经过精心优化，以适应实际应用：通过省略 DFL 和 NMS，YOLO26 避免了在专用硬件加速器上难以实现的操作，从而提高了跨设备的兼容性。该网络可导出为多种格式，包括 ONNX、TensorRT、CoreML、TFLite 和 OpenVINO，确保开发人员能够同样轻松地将其集成到移动应用、嵌入式系统或云服务中。关键的是，YOLO26 还支持鲁棒的量化：得益于其简化架构对低比特宽度推理的耐受性，它可以采用 INT8 量化或半精度 FP16 进行部署，且对精度影响最小。这意味着模型可以在压缩和加速的同时，仍能提供可靠的检测性能。这些特性转化为真实的边缘性能提升------从无人机到智能摄像头，YOLO26 可以在 CPU 和小型设备上实时运行，而以前的 YOLO 模型在这些设备上运行困难。所有这些改进都证明了一个总体主题：YOLO26 弥合了前沿研究思想与可部署 AI 解决方案之间的差距。这种方法凸显了 YOLO26 作为学术创新与行业应用之间桥梁的角色，将最新的视觉进展直接交到实践者手中。

未来方向

部署仍然是一个首要关注点，未来的研究可能会强调边缘感知的训练和优化。这意味着模型开发将越来越多地从训练阶段就开始考虑硬件约束，而不仅仅是事后补救。诸如量化感知训练（在训练期间模拟低精度算术）等技术可以确保网络在被量化为 INT8 以进行快速推理后仍能保持准确。我们可能还会看到神经架构搜索和自动化模型压缩在打造 YOLO 模型时成为标准做法，从而使每个新版本在构思时都共同考虑到特定的目标平台。此外，将来自部署的反馈（例如设备上的延迟测量或能耗）纳入训练循环是一个新兴的想法。例如，一个针对边缘优化的 YOLO 可以学会根据运行时约束动态调整其深度或分辨率，或者从一个更大的模型蒸馏到更小的模型，且性能损失最小。通过在训练时考虑这些因素，所产生的检测器将在实践中实现精度与效率之间的更优权衡。随着目标检测器进入物联网、AR/VR 和自主系统等领域，在这些领域，有限硬件上的实时性能是不可妥协的，这种对高效 AI 的关注至关重要。