深度学习论文翻译解析（二十五）：YOLO26:Key Architectural Enhancements And Performance Benchmarking for Real-time Object Detection

论文标题：YOLO26:Key Architectural Enhancements And Performance Benchmarking for Real-time Object Detection

论文作者： Ranjian Sopkota Rahul Harsha Cheppally Ajay Sharda Manoj Karkee

声明：小编翻译论文仅为学习，如有侵权请联系小编删除博文，谢谢！

小编是一个机器学习初学者，打算认真研究论文，但是英文水*有限，所以论文翻译中用到了Google，并自己逐句检查过，但还是会有显得晦涩的地方，如有语法/专业名词翻译错误，还请见谅，并欢迎及时指出。

YOLO的迭代更新实在是太快了。真的跟不上节奏了都。这篇文档主要讲了 2025 年 9 月刚发布的 YOLO26------ 它是 YOLO 系列最新的目标检测模型，核心就是让 "实时识别物体" 在手机、机器人、无人机这类算力有限的 "边缘设备" 上更好用、更高效。

如果需要小编其他论文翻译，请移步小编的GitHub地址

传送门：请点击我

如果点击有误：https://github.com/LeBron-Jian/DeepLearningNote

YOLO26的核心改进：解决了老版本的痛点。它做了四个关键优化，全是为了"边缘设备可以使用"

删掉了 "复杂的定位 损失 **"（DFL）**老 YOLO 用 DFL 让物体位置更准，但这一步又费算力又难适配不同硬件（比如苹果手机的 CoreML、安卓的 TFLite）。YOLO26 删掉它后，定位没变差，反而推理速度变快，还能轻松导出到各种设备。
不用 "去重步骤"（NMS）了，一步出结果以前识别会出一堆重复框（比如一个人被框了 3 次），得用 NMS 删重复，还得手动调参数。YOLO26 直接让模型输出 "不重复的框"，省了这一步， latency（延迟）降了很多，CPU 推理速度比老版本快了 43%------ 对机器人、无人机来说，延迟少一点可能就避免碰撞了。
专门优化 "小物体识别" 和 "训练稳定性"
1. 加了 "ProgLoss"：训练时不会只顾着识别大物体（比如汽车），忽略小物体（比如路边的石头），让模型对 "少见 / 小的物体" 也更敏感。
2. 加了 "STAL"：给小物体 "优先标注"，比如画面里有个小零件被挡住了，模型也能优先认出它。这俩组合让 YOLO26 在航拍图、工厂零件检测这类场景里，小物体识别准确率提升明显。
新的优化器 "MuSGD"，训练又快又稳老 YOLO 用的优化器要么训练慢，要么容易 "学偏"（比如训到一半 accuracy 突然掉了）。MuSGD 结合了两种优化器的优点，训练时收敛更快，还不用反复调参数，开发者不用总重启训练，省时间。

所以说，YOLO26 不是 "只堆参数的花架子"，而是实实在在为 "边缘设备" 设计的 ------ 删了没用的复杂模块，优化了关键步骤，做到了 "又快、又准、又好部署"，不管是开发者做项目，还是工厂、机器人公司落地应用，都更方便。

摘要

本研究对 Ultralytics YOLO26 进行了全面分析，重点介绍了其关键架构增强功能和实时边缘对象检测的性能基准测试。 YOLO26 于 2025 年 9 月发布，是 YOLO 系列中最新、最先进的成员，专为在边缘和低功耗设备上提供效率、准确性和部署就绪性而构建。论文依次详细介绍了 YOLO26 的架构创新，包括去除分布焦点损失（DFL）、采用端到端无 NMS 推理、ProgLoss 和小目标感知标签分配（STAL）的集成，以及引入 MuSGD 优化器以实现稳定收敛。除了架构之外，该研究还将 YOLO26 定位为一个多任务框架，支持对象检测、实例分割、姿态/关键点估计、定向检测和分类。我们展示了 YOLO26 在 NVIDIA Jetson Nano 和 Orin 等边缘设备上的性能基准，并将其结果与 YOLOv8、YOLOv11、YOLOv12、YOLOv13 和基于 Transformer 的检测器进行比较。本文进一步探讨了实时部署路径、灵活的导出选项（ONNX、TensorRT、CoreML、TFLite）以及 INT8/FP16 的量化。重点介绍了 YOLO26 在机器人、制造和物联网领域的实际用例，以展示跨行业的适应性。最后，讨论了对部署效率和更广泛影响的见解，并概述了 YOLO26 和 YOLO 谱系的未来方向。

1，简介

物体检测已成为计算机视觉中最关键的任务之一，使机器能够定位和分类图像或视频流中的多个物体[1， 2]。从自动驾驶和机器人技术到监控、医学成像、农业和智能制造，实时物体检测算法是人工智能（AI）应用的骨干[3， 4]。在这些算法中，You Only Look Once（YOLO）系列已成为实时物体检测最具影响力的模型系列，结合了准确性和前所未有的推理速度[5， 6， 7， 7]。自2016年推出以来，YOLO经历了多次架构修订，每次都解决了前代的局限性，同时集成了神经网络设计、损耗函数和部署效率的前沿进步[5]。YOLO26于2025年9月发布，标志着这一进化进程的最新里程碑，带来了架构简化、新颖优化器和为低功耗设备设计的增强边缘部署能力。

表1详细比较了从YOLOv1到YOLOv13和YOLO26的YOLO模型，重点介绍了其发布年份、关键架构创新、性能提升及开发框架。

YOLO框架由Joseph Redmon及其同事于2016年首次提出，为目标检测领域带来了范式转变[8]。与传统的两阶段检测器（例如R-CNN[18]和Faster R-CNN[19]，它们将区域提议和分类分离）不同，YOLO将检测问题建模为一个单一的回归问题[20]。YOLO通过卷积神经网络（CNN）的一次前向传播直接预测边界框和类别概率，在保持高准确率的同时实现了实时速度[21, 20]。这种高效性使得YOLOv1在延迟至关重要的应用中极具吸引力，例如机器人、自主导航和实时视频分析。后续版本YOLOv2（2017）[9]和YOLOv3（2018）[10]在保持实时性能的同时显著提高了准确率。YOLOv2引入了批量归一化、锚框和多尺度训练，从而增强了对不同尺寸目标的鲁棒性。 YOLOv3 利用了基于 Darknet-53 的更深层次的架构，以及多尺度特征图，从而更好地检测小目标。这些改进使得 YOLOv3 在几年内成为学术界和工业界应用的实际标准 [22, 5, 23]。

随着对更高精度需求的增长，尤其是在航空影像、农业和医学分析等具有挑战性的领域，YOLO模型也逐渐多样化，发展到更先进的架构中。YOLOv4（2020）[11]引入了跨阶段部分网络（CSPNet）、改进的激活功能如Mish，以及包括马赛克数据增强和CIoU丢失在内的先进训练策略。YOLOv5（Ultralytics，2020年）虽然非官方，但因其PyTorch实现、广泛的社区支持以及简化的跨平台部署而获得了极大人气。YOLOv5还带来了模块化，使其更容易适应分割、分类和边缘应用。进一步开发包括YOLOv6[12]和YOLOv7[13]（2022年），集成了先进优化技术、参数高效模块和受变压器启发的模块。这些迭代使YOLO更接近最先进的（SoTA）准确基准，同时保持对实时推理的关注。此时，YOLO生态系统已稳固地确立了其作为物体检测研究和部署领先模型家族的地位。

Ultralytics，现代YOLO版本的主要维护者，用YOLOv8(2023)[24]重新定义了框架。YOLOv8的特点是分离的检测头、无锚点预测和改进的训练策略，从而大大提高了准确性和部署的通用性。由于其干净的Python API，与TensorRT、CoreML和ONNX的兼容性，以及针对速度与精度权衡（纳米、小型、中型、大型和超大）而优化的变量的可用性，它在工业中被广泛采用。YOLOv9[14]、YOLOv10[15]和YOLO11紧随其后，

继YOLO11之后，替代版本YOLOv12[16]和YOLOv13[17]引入了以注意力为中心的设计和先进的架构组件，旨在最大化多样化数据集的准确性。这些模型探索了多头自我关注、改进的多尺度融合以及更强的训练正则化策略。虽然它们提供了强有力的基准，但仍依赖非最大抑制（NMS）和分布焦点损失（DFL），这带来了延迟开销和出口挑战，尤其对低功耗设备造成了挑战。基于NMS的后处理和复杂损耗配方的局限性促使了YOLO26的开发（Ultralytics YOLO26官方来源）。2025年9月，在伦敦举办的YOLO Vision 2025活动上，Ultralytics发布了YOLO26作为一款针对边缘计算、机器人和移动人工智能优化的下一代模型。

YOLO26 的设计围绕着三大指导原则：简洁性、高效性和创新性。图 1 概述了这些原则与其支持的五项任务：目标检测、实例分割、姿态/关键点检测、方向检测和分类。在推理路径上，YOLO26 消除了非极大值抑制 (NMS)，从而生成原生端到端预测，消除了主要的后处理瓶颈，降低了延迟差异，并简化了跨部署的阈值调整。在回归方面，它移除了分布式框架解码 (DFL)，将分布式框解码转换为更轻量级、硬件友好的公式，并可干净地导出为 ONNX、TensorRT、CoreML 和 TFLite 格式，这对于边缘和移动流水线来说是一项实际优势。这些改进共同带来了更精简的计算图、更快的冷启动速度和更少的运行时依赖，这对于 CPU 密集型和嵌入式场景尤为有利。训练稳定性和小目标保真度通过 ProgLoss（渐进式损失平衡）和 STAL（小目标感知标签分配）得到解决。 ProgLoss 自适应地重新加权目标函数，以防止训练后期简单样本占据主导地位；而 STAL 则优先处理微小或被遮挡的样本，从而提高在杂乱、植被或运动模糊等常见于航拍、机器人和智能相机视频流中的召回率。优化过程由 MuSGD 驱动，这是一种混合算法，它融合了 SGD 的泛化能力和受 Muon 类方法启发的动量/曲率特性，从而实现更快、更平滑的收敛，并在不同尺度上获得更可靠的平台期。
如图 1 所示，YOLO26 的五项功能共享一个统一的主干/颈部和精简的头部：
• 目标检测：无锚点、无 NMS 的框和分数
• 实例分割：耦合到共享特征的轻量级掩码分支
• 姿态/关键点检测：用于人体或部位地标的紧凑型关键点头部
• 方向检测：用于倾斜物体和细长目标的旋转框
• 分类：用于纯识别任务的单标签逻辑值

这种整合式设计无需架构重构即可实现多任务训练或特定任务的微调，而简化的导出功能则保证了跨加速器的可移植性。总之，YOLO26 通过将端到端推理和无 DFL 回归与 ProgLoss、STAL 和 MuSGD 相结合，推进了 YOLO 系列的发展，从而构建出部署速度更快、训练更稳定、功能更强大的模型，如图 1 所示。

2，yolo26的架构优化

YOLO26 的架构遵循精简且高效的管道，专为跨边缘和服务器平台的实时对象检测而构建。如图 2 所示，该过程从摄取图像或视频流形式的输入数据开始，这些数据首先经过预处理操作，包括调整大小和标准化为适合模型推理的标准维度。然后，数据被输入主干特征提取阶段，其中紧凑而强大的卷积网络捕获视觉模式的分层表示。为了增强跨尺度的鲁棒性，该架构生成多尺度特征图（图 2），保留大型和小型对象的语义丰富性。然后将这些特征图合并到轻量级特征融合颈中，其中信息以计算有效的方式集成。特定于检测的处理发生在直接回归头中，与之前的 YOLO 版本不同，直接回归头输出边界框和类概率，而不依赖于非极大值抑制 (NMS)。这种端到端的无 NMS 推理（图 2）消除了后处理开销并加速了部署。 ProgLoss 平衡和 STAL 分配模块增强了训练的稳定性和准确性，确保损失项的公平加权并改进小目标的检测。模型优化由 MuSGD 优化器指导，结合了 SGD 和 Muon 的优势，实现更快、更可靠的收敛。通过量化进一步提高部署效率，并支持 FP16 和 INT8 精度，从而能够在 CPU、NPU 和 GPU 上加速，同时将精度下降降至最低。最后，管道最终生成输出预测，包括可以可视化覆盖在输入图像上的边界框和类分配。总体而言，YOLO26 的架构展示了一种精心平衡的设计理念，同时提高了准确性、稳定性和部署简单性。

YOLO26引入了多项关键架构创新，使其区别于之前几代YOLO模型。这些改进不仅提升了训练稳定性和推理效率，也从根本上重塑了实时边缘设备的部署流程。本节介绍了YOLO26的四项主要贡献：（i）消除分布焦点损失（DFL），（ii）引入端到端非最大抑制（NMS）推断，（iii）包括渐进损失平衡（ProgLoss）和小目标感知标签分配（STAL）在内的新型损失函数策略，以及（iv）开发MuSGD优化器以实现稳定高效收敛。书中详细讨论了这些架构改进，并对比它们相较于早期的YOLO版本（如YOLOv8、YOLOv11、YOLOv12和YOLOv13）的优势。

2.1 移除DFL

YOLO26 中最重要的架构简化之一是移除了分布焦点损失（DFL）模块（见图 3a），该模块此前存在于 YOLOv8 和 YOLOv11 等版本中。DFL最初设计目的是通过预测盒坐标的概率分布来改进边界盒回归，从而实现更精确的物体定位。虽然这一策略在早期模型中展示了准确率的提升，但也带来了非平凡的计算开销和导出困难。实际上，DFL在推理和模型导出过程中需要专门处理，这使得针对ONNX、CoreML、TensorRT或TFLite等硬件加速器的部署流程变得复杂。
通过消除DFL，YOLO26简化了模型架构，使边界框预测成为更简单的回归任务，同时不牺牲性能。比较分析表明，YOLO26在与基于DFL的YOLO模型相比，尤其是在与ProgLoss和STAL等其他创新技术结合时，实现了与基于DFL的YOLO模型相当甚至更优的准确性。此外，移除DFL显著降低了推理延迟，提升了跨平台兼容性。这使得YOLO26更适合边缘AI场景，在这些场景中，轻量化且硬件友好的模型至关重要。
相比之下，YOLOv12和YOLOv13等型号在架构中保留了DFL，尽管在GPU丰富的环境中有强的准确基准，但其在受限设备上的适用性受限。因此，YOLO26标志着将最先进的物体检测性能与移动、嵌入式及工业应用现实相结合迈出了决定性一步。

2.2 端到端的无NMS推理

YOLO26的另一个突破性特点是其原生支持无非最大抑制（NMS）的端到端推理（见图3b）。传统的YOLO模型，包括YOLOv8到YOLOv13，大量依赖NMS作为后处理步骤，通过保留置信度最高的边界框来过滤重复预测。虽然有效，NMS会增加流水线的额外延迟，并需要手动调整超参数，如交叉点与并集（IoU）阈值。这种对手工后处理步骤的依赖，带来了部署流程的脆弱性，尤其是对于边缘设备和延迟敏感的应用
YOLO26从根本上重新设计了预测头，能够直接生成非冗余的边界框预测，无需NMS。这种端到端设计不仅降低了推理复杂度，还消除了对手工调优阈值的依赖，从而简化了与生产系统的集成。比较基准测试显示，YOLO26的推理速度优于YOLOv11和YOLOv12，nano模型的CPU推理时间缩短了最多43%。这使得YOLO26在移动设备、无人机和嵌入式机器人平台上尤为有利，因为毫秒的延迟可能对运营产生重大影响。
除了速度，无NMS方法还提升了可重复性和部署可移植性，因为模型不再需要大量后处理代码。虽然其他先进探测器如RT-DETR和Sparse R-CNN也尝试过无NMS推断，但YOLO26是首个采用该范式的YOLO版本，同时保持了YOLO在速度与准确性之间标志性的平衡。与仍依赖《无人深空》的YOLOv13相比，YOLO26的端到端流水线作为一种前瞻性的实时检测架构脱颖而出。

2.3 ProgLoss 和 STAL ：增强训练稳定性和小物体检测

训练稳定性和小物体识别仍然是物体检测中持续存在的挑战。YOLO26通过集成两种新颖策略解决这些问题：渐进损耗平衡（ProgLoss）和小目标感知标签分配（STAL），如图（图3c）所示

ProgLoss 在训练过程中动态调整不同损失分量的权重，确保模型在稀有或小类中表现不佳时，不会过度拟合到主导对象类别。这种渐进式的重新平衡提升了泛化能力，并防止了训练后期的不稳定性。而 STAL 则明确优先分配小物体的标签，因为小对象因像素表示有限且易被遮挡而特别难以检测。ProgLoss和STAL共同为YOLO26在包含小型或屏蔽物体的数据集（如COCO和无人机影像基准测试）上提供了显着的准确性提升。

相比之下，早期模型如YOLOv8和YOLOv11并未包含此类定向机制，通常需要数据集特定的增强或外部训练技巧才能实现可接受的小对象性能。YOLOv12和YOLOv13试图通过基于注意力的模块和增强的多尺度特征融合来弥补这一差距;然而，这些解决方案增加了架构复杂度和推理成本。YOLO26通过更轻量化的方式实现了类似甚至更优的改进，进一步巩固了其在边缘AI应用中的适用性。通过集成ProgLoss和STAL，YOLO26确立了自己作为一个稳健的小物体探测器的地位，同时保持了YOLO家族的高效性和便携性

2.4 MuSGD 稳定收敛优化器

YOLO26的最后一项创新是引入了MuSGD优化器（见图3d），它结合了随机梯度下降（SGD）的优势与最近提出的μ子优化器，后者是受大型语言模型（LLM）训练优化策略启发的技术。MuSGD利用SGD的鲁棒性和泛化能力，同时融合了Muon的自适应特性，实现了更快的收敛和更稳定的优化，跨越多样数据集。

这款混合优化器反映了现代深度学习中的一个重要趋势：自然语言处理（NLP）与计算机视觉技术进步的交叉融合。通过借鉴LLM训练实践（例如Moonshot AI的Kimi K2），YOLO26受益于此前YOLO谱系中未曾探索的稳定性增强。实证结果表明，MuSGD使YOLO26能够以更少的训练周期实现竞争精度，从而降低训练时间和计算成本。

之前的 YOLO 版本，包括 YOLOv8 到 YOLOv13，依赖于标准的 SGD 或 AdamW 变体。虽然这些优化器有效，但需要大量超参数调优，且有时在高变异数据集上表现不稳定收敛。相比之下，MuSGD在保持YOLO轻量化训练理念的同时，提升了可靠性。对从业者来说，这意味着开发周期更短，培训重启次数更少，且在不同部署场景下性能更可预测。通过集成MuSGD，YOLO26不仅定位为一个推理优化模型，也是一个适合研究人员和行业从业者的培训友好架构。

3，基准测试与比较分析

以YOLO26为例，进行了一系列严格的基准测试，以评估其性能与YOLO前身及其他最先进架构的比较。图4对该评估进行了综合视图，绘制了COCO mAP（50--95）与延迟（每张图像毫秒）的关系，该数据在采用TensorRT FP16优化的NVIDIA T4 GPU上。包含了YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3和DEIM等竞争架构，为实时检测的最新进展提供了全面的景观。从图中，YOLO26展现出独特的定位：它保持了与基于变压器的模型如RT-DETRv3相媲美的高准确性，同时在推理速度上显着优于它们。例如，YOLO26-m 和 YOLO26-l 分别在 51% 和 53% 以上的竞争性 mAP 得分中脱颖而出，但延迟显着降低，凸显了其无 NMS 架构和轻量化回归头的优势。

这种在准确性和速度之间的平衡对于边缘部署尤为重要，因为在边缘部署中，保持实时吞吐量与确保可靠的检测质量同等重要。与 YOLOv10 相比，YOLO26 在所有模型规模下均能持续实现更低的延迟，在 CPU 密集型推理中速度提升高达 43%，同时通过其 ProgLoss 和 STAL 机制保持甚至提升了准确性。与严重依赖 Transformer 编码器和解码器的 DEIM 和 RT-DETR 系列相比，YOLO26 简化的骨干网络和 MuSGD 驱动的训练流水线能够实现更快的收敛速度和更精简的推理，且不会影响小目标识别。图 4 中的图表清晰地展示了这些区别：尽管 RT-DETRv3 在大规模准确性基准测试中表现出色，但其延迟性能仍然不如 YOLO26，这进一步印证了 YOLO26 以边缘为中心的设计理念。此外，基准测试分析突显了YOLO26在平衡准确率-延迟曲线方面的稳健性，使其成为一款适用于高吞吐量服务器应用和资源受限设备的通用检测器。这一对比结果证实了YOLO26并非仅仅是YOLO系列的一次渐进式更新，而是一次范式转变，成功弥合了早期YOLO模型以效率为先的理念与基于Transformer的检测器以准确率为导向的理念之间的差距。最终，基准测试结果表明，YOLO26具有显著的部署优势，尤其是在需要在严格延迟约束下实现可靠性能的实际环境中。

4，使用 Ultralytics YOLO26的实施部署

在过去十年中，物体检测模型的发展不仅体现在准确性提升上，也体现了部署的复杂性不断增加[26， 27， 28]。早期探测器如R-CNN及其更快变体（Fast R-CNN、Faster R-CNN）实现了令人印象深刻的检测质量，但计算成本高，需要多个阶段进行区域提案和分类[29， 30， 31]。这限制了它们在实时和嵌入式应用中的应用。YOLO系列的出现改变了这一格局，将检测重新定义为单一回归问题，实现了在普通GPU上的实时性能[32]。然而，随着YOLOv1到YOLOv13的推进，精度提升往往以牺牲更多架构组件（如分布焦点损失（DFL）、复杂的后处理步骤（如非最大抑制NMS）以及在部署过程中引入摩擦的日益重型骨干为代价。YOLO26通过简化架构和出口路径，直接解决这一长期存在的挑战，从而降低了跨多样硬件和软件生态系统的部署壁垒。

4.1 灵活的导出和集成途径

YOLO26 的一个关键优势在于其与现有生产流程的无缝集成。Ultralytics 维护着一个积极开发的 Python 包，该包为训练、验证和导出提供统一支持，从而降低了希望采用 YOLO26 的从业人员的技术门槛。与早期 YOLO 模型需要大量自定义转换脚本才能实现硬件加速不同 [33, 34, 35]，YOLO26 原生支持多种导出格式。这些格式包括：用于最大程度利用 GPU 加速的 TensorRT、用于广泛跨平台兼容性的 ONNX、用于原生 iOS 集成的 CoreML、用于 Android 和边缘设备的 TFLite，以及用于在 Intel 硬件上优化性能的 OpenVINO。这些丰富的导出选项使研究人员、工程师和开发人员能够将模型从原型阶段推进到生产阶段，而无需遇到早期版本中常见的兼容性瓶颈。

历史上，YOLOv3 到 YOLOv7 在导出过程中通常需要手动干预，尤其是在针对 NVIDIA TensorRT 或 Apple CoreML 等专用推理引擎时 [36, 37]。类似地，基于Transformer的检测器（例如DETR及其后续版本）由于依赖动态注意力机制，在PyTorch环境之外部署时也面临挑战。相比之下，YOLO26的架构通过移除DFL并采用无NMS的预测头而得到简化，从而确保了跨平台兼容性，同时又不牺牲准确性。这使得YOLO26成为迄今为止最易于部署的检测器之一，进一步巩固了其作为边缘优先模型的地位。

4.2 量化与资源限制装置

除了导出灵活性之外，实际部署的真正挑战在于确保计算资源有限设备上的高效性[27， 38]。智能手机、无人机和嵌入式视觉系统等边缘设备通常缺乏独立GPU，必须在内存、功耗和延迟之间取得平衡[39， 40]。量子化是一种广泛采用的策略，旨在减少模型规模和计算负载，但许多复杂探测器在激进量子化下会显着降低准确性。YOLO26 的设计时就考虑到了这一限制。

由于其简化的架构和简化的包围盒回归流水线，YOLO26在半精度（FP16）和整数（INT8）量化方案下都展现出稳定的准确性。FP16量化利用GPU原生支持混合精度算术，实现更快的推理并减少内存占用。INT8量化将模型权重压缩为8位整数，显着减少模型规模和能耗，同时保持竞争精度。基准实验证实，YOLO26在这些量子化能级之间保持稳定，在相同条件下优于YOLOv11和YOLOv12。这使得YOLO26特别适合部署在紧凑型硬件上，如NVIDIA Jetson Orin、高通骁龙AI加速器，甚至基于ARM的智能摄像头CPU。

相比之下，基于变压器的探测器如RT-DETRv3在INT8量化下表现明显下降[41]，主要原因是注意力机制对精度降低的敏感性。同样，YOLOv12和YOLOv13虽然在GPU服务器上表现出色，但在量化后难以在低功耗设备上保持竞争力。因此，YOLO26为量化感知设计在对象检测中树立了新的基准，证明了架构的简洁性可以直接转化为部署的稳健性。

4.3 跨行业应用：从机器人到制造

这些部署增强的实际影响通过跨行业应用得到了最佳体现。在机器人领域，实时感知对于导航、作和安全的人机协作至关重要[42， 43]。通过提供无NMS的预测和持续的低延迟推断，YOLO26使机器人系统能够更快、更可靠地解读其环境。例如，配备YOLO26的机械臂在动态条件下能够更精确地识别和抓取物体，而移动机器人则在杂乱空间中获得更好的障碍识别能力。与YOLOv8或YOLOv11相比，YOLO26提供了更小的推理延迟，这在高速场景中可能是安全作与碰撞的关键。

在制造业中，YOLO26 对自动缺陷检测和质量保证具有重要意义。传统的人工检查不仅劳动密集，而且容易出现人为错误。之前的 YOLO 版本，尤其是 YOLOv8，已经部署在智能工厂中;然而，NMS的出口复杂性和延迟开销有时限制了大规模推广。YOLO26通过OpenVINO或TensorRT提供轻量化部署选项，缓解了这些障碍，使制造商能够直接在生产线上集成实时缺陷检测系统。早期基准测试显示，基于YOLO26的缺陷检测流水线相比YOLOv12和基于变压器的替代方案如DEIM，能够实现更高的吞吐量和更低的运营成本。

4.4 YOLO26部署带来的更广泛见解

综合来看，YOLO26的部署功能凸显了物体检测演进中的一个核心主题：架构效率与准确性同样重要。过去五年，从卷积基的YOLO变体到基于变压器的探测器如DETR和RT-DETR，越来越复杂的模型不断涌现，但实验室性能与生产准备度之间的差距往往限制了它们的影响力。YOLO26通过简化架构、扩展导出兼容性以及确保量化下的韧性，弥合了这一差距，从而使尖端精度与实际部署需求保持一致。

对于开发移动应用的开发者来说，YOLO26 支持通过 CoreML 和 TFLite 无缝集成，确保模型能在 iOS 和 Android 平台上原生运行。对于在云端或本地服务器部署视觉人工智能的企业，TensorRT 和 ONNX 导出提供了可扩展的加速选项。对于工业和边缘用户，OpenVINO 和 INT8 量化确保即使在资源极限下性能保持稳定。从这个意义上说，YOLO26不仅是物体探测研究的进步，也是部署民主化的重要里程碑。

5，结论与未来方向

总之，YOLO26代表了YOLO物体检测系列中的一大飞跃，融合了架构创新与务实部署的关注。该模型通过移除分布焦点损失（DFL）模块，消除了非最大抑制的需求，简化了其设计。通过移除 DFL ，YOLO26 简化了边界盒回归，避免了导出复杂性，从而拓宽了与各种硬件的兼容性。同样，其端到端、无NMS的推理使网络能够直接输出最终检测结果，无需后处理步骤。这不仅降低了延迟，还简化了部署流程，使 YOLO26 成为早期 YOLO 概念的自然演进。在培训中，YOLO26引入了渐进损失平衡（ProgLoss）和小目标感知标签分配（STAL），这些方法共同稳定学习并提升对小物体的准确性。此外，一种结合SGD和μ子特性的新型MuSGD优化器加速了收敛进程，提高了训练稳定性。这些改进协同作用，使探测器不仅更准确、更稳健，而且在实际作中速度更快、重量更轻。

基准测试结果凸显了 YOLO26 相对于其前代 YOLO 版本和同类模型的强劲性能。之前的 YOLO 版本，例如 YOLO11，在效率方面超越了早期版本；YOLO12 通过集成注意力机制进一步提升了准确率；YOLO13 则增加了基于超图的改进，实现了性能的进一步提升。与基于 Transformer 的竞争对手相比，YOLO26 缩小了差距。其原生无 NMS 设计借鉴了 Transformer 型检测器的端到端方法，同时又保持了 YOLO 一贯的高效性。YOLO26 在提供极具竞争力的准确率的同时，显著提升了常用硬件的吞吐量，并最大限度地降低了复杂性。事实上，YOLO26 的设计使其在 CPU 上的推理速度比之前的 YOLO 版本提升了高达 43%，使其成为资源受限环境下最实用的实时检测器之一。 YOLO26 在性能和效率方面实现了和谐的平衡，不仅在基准测试排行榜上表现出色，而且在速度、内存和能源都非常宝贵的实际部署中也表现出色。

YOLO26 的一项主要贡献在于其对部署优势的重视。该模型的架构经过精心优化，以适应实际应用：通过省略 DFL 和 NMS，YOLO26 避免了在专用硬件加速器上难以实现的操作，从而提高了跨设备的兼容性。该网络可导出为多种格式，包括 ONNX、TensorRT、CoreML、TFLite 和 OpenVINO，确保开发人员能够轻松地将其集成到移动应用、嵌入式系统或云服务中。至关重要的是，YOLO26 还支持强大的量化功能：由于其简化的架构能够容忍低位宽推理，因此即使使用 INT8 量化或半精度 FP16，对精度的影响也极小。这意味着模型可以在压缩和加速的同时，仍然提供可靠的检测性能。这些特性转化为从无人机到智能相机等各种应用场景的显著性能提升，YOLO26 能够在 CPU 和小型设备上实时运行，而之前的 YOLO 模型在这些设备上则难以胜任。所有这些改进都体现了一个核心主题：YOLO26 弥合了前沿研究理念与可部署的 AI 解决方案之间的鸿沟。这种方法凸显了 YOLO26 作为学术创新与产业应用桥梁的作用，将最新的视觉技术成果直接带给实践者。

5.1 未来方向

展望未来，YOLO 和目标检测研究的发展轨迹展现出几个极具前景的方向。其中一个清晰的途径是将多种视觉任务整合到更加全面的模型中。YOLO26 已经支持在一个框架内完成目标检测、实例分割、姿态估计、定向边界框和分类，这体现了多任务通用性的发展趋势。未来的 YOLO 版本可能会通过整合开放词汇表和基础模型功能进一步推进这一趋势。这意味着可以利用强大的视觉语言模型，使检测器能够以零样本的方式识别任意目标类别，而无需局限于固定的标签集。通过构建基础模型和大规模预训练，下一代 YOLO 有望成为一种通用的视觉 AI，能够无缝地处理新目标的检测、分割，甚至描述其上下文信息。

另一个关键的发展方向可能是目标检测的半监督和自监督学习[44, 45, 46, 47]。目前最先进的检测器仍然严重依赖大型标注数据集，但利用未标注或部分标注数据进行训练的方法正在迅速发展。诸如师生训练[48, 49, 50]、伪标注[51, 52]和自监督特征学习[53]等技术可以集成到YOLO训练流程中，以减少对大量人工标注的需求。未来的YOLO模型或许能够自动利用大量未标注的图像或视频来提高识别的鲁棒性。通过这种方式，模型可以在不增加标注数据量的情况下持续提升检测能力，使其更能适应新的领域或罕见的目标类别。

在架构方面，我们预计目标检测器将继续融合Transformer和CNN的设计原则。近期YOLO模型的成功表明，将注意力机制和全局推理融入YOLO类架构可以显著提升准确率[54, 55]。未来的YOLO架构可能会采用混合设计，将卷积骨干网络（用于高效提取局部特征）与基于Transformer的模块或解码器（用于捕捉长程依赖关系和上下文信息）相结合。这种混合方法能够更好地理解复杂场景，例如在拥挤或高度上下文相关的环境中，通过建模纯CNN或简单的自注意力机制可能遗漏的关系。我们预期下一代检测器将智能地融合这些技术，从而实现丰富的特征表示和低延迟。简而言之，"基于CNN"和"基于Transformer"的检测器之间的界限将继续模糊，融合两者的优势来应对各种检测挑战。

最后，由于部署仍然是首要考虑因素，未来的研究可能会侧重于边缘感知训练和优化。这意味着模型开发将从训练阶段开始就越来越重视硬件限制，而不仅仅是事后考虑。例如，量化感知训练（使用模拟的低精度运算训练模型）等技术可以确保网络即使在量化为 INT8 以实现快速推理后仍然保持准确性。我们还可能看到神经架构搜索和自动模型压缩成为构建 YOLO 模型的标准，从而使每个新版本都能针对特定的目标平台进行协同设计。此外，将部署反馈（例如设备上的延迟测量或能耗）纳入训练循环也是一个新兴的想法。例如，边缘优化的 YOLO 可以学习根据运行时限制动态调整其深度或分辨率，或者以最小的性能损失从较大的模型精简为较小的模型。通过考虑这些因素进行训练，最终得到的检测器将在实践中实现准确性和效率之间的更佳平衡。随着目标检测器进入物联网、AR/VR 和自主系统等领域，对高效人工智能的关注至关重要，因为在这些领域，在硬件资源有限的情况下实现实时性能是不可妥协的。

注：本研究将在近期通过实验评估 YOLO26 的性能，并将其与 YOLOv13、YOLOv12 和 YOLOv11 进行基准测试。我们将使用机器视觉相机在农业环境中采集一个包含 10,000 多个手动标注目标对象的自定义数据集。所有模型将在相同的条件下进行训练，并将从精确率、召回率、准确率、F1 分数、mAP、推理速度以及预处理/后处理时间等方面报告结果。此外，我们还将在 NVIDIA Jetson 上进行边缘计算实验，以评估 YOLO26 的实时检测能力，从而深入了解其在资源受限的农业应用中的实际部署情况