Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models——统一的实时端到端视觉模型

《Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models》的核心内容是提出了新一代YOLO系列模型------YOLO26，旨在解决现有实时目标检测模型在推理效率、训练成本、小物体检测 和开放词汇扩展等方面的关键局限性。

以下是该研究的主要贡献和内容总结：

一、核心问题与动机

现有YOLO模型存在四个主要缺陷：

依赖NMS：大多数模型推理时仍需要非极大值抑制，影响端到端部署效率。
DFL导致头部臃肿：分布焦距损失虽提升精度，但增加了参数量、计算量，且限制了回归范围。
训练周期长：标准SGD优化器需要约600轮训练才能达到较好精度。
小物体漏检：任务对齐学习的标签分配策略会导致极小物体无法获得正样本，从而无法学习。

二、主要技术贡献 (方法论)

1. 架构设计改进

无NMS的双头检测架构：同时包含一对一头（推理使用，无需NMS）和一对多头（训练辅助，精度更高），用户可根据部署需求灵活选择。
移除DFL模块：使用直接回归 + L1损失替代，大幅减少参数量和FLOPs（例如YOLO11n减少12%参数、20% FLOPs），且解除了回归范围限制，对高分辨率和大物体更友好。

2. 训练方法论创新 (三大核心组件)

MuSGD优化器：混合Muon和SGD动量，加速收敛（从600轮降至500轮）并提升精度（+0.4 mAP）。
渐进式损失：训练初期侧重一对多分支（稳定学习），后期逐步转移权重到一对一头（优化端到端推理），使最终模型更好地匹配部署路径。
STAL：针对极小物体，在候选筛选阶段动态扩大其有效范围，确保每个物体至少有一个正样本锚点，显著提升小物体AP（+0.6 APS）。

3. 多任务特定扩展

实例分割：引入多尺度原型融合 + 辅助语义监督损失，提升掩码质量且不增加推理成本。
姿态估计：采用基于残差对数似然估计的不确定性建模，自动降权遮挡/模糊关键点，提升定位精度。
旋转目标检测：改用长边角度定义（-45°~135°）并设计宽高比感知的角度损失，解决方形物体的角度模糊问题。

4. 开放词汇扩展 (YOLOE-26)

在YOLO26骨架上实现文本、视觉、无提示三种开放词汇推理模式。
关键升级：更强的骨干、MobileCLIP2文本编码器、伪标签数据引擎（弥补未标注物体）、解耦分割训练。

三、实验结果与性能

1. 目标检测 (COCO)

精度-延迟帕累托最优：在T4 GPU上达到40.9-57.5 mAP，延迟1.7-11.8 ms。
相比YOLO11：各尺度AP提升1.6-2.8点，尤其在中大模型上优势明显。
端到端vs NMS：无NMS的一对一头精度仅比带NMS的版本低0.6-0.8 AP，提供了高效部署选择。

2. 多任务性能提升 (相比YOLO11)

实例分割 ：Mask AP 最高提升 +3.7。
姿态估计 ：Pose AP 最高提升 +7.2。
旋转检测 (DOTA-v1.0) ：mAP 最高提升 +3.4，AP75提升更大（+6.0），证明角度预测更准。

3. 开放词汇 (YOLOE-26)

文本提示：在LVIS minimal上达到40.6 AP，超越DetCLIP-T 6.2点。
视觉提示：38.5 AP。
无提示：31.1 AP，参数效率远高于同类方法（如GenerateU-L）。

四、附加贡献

统一框架：一个模型同时支持检测、分割、姿态、分类、旋转检测五大任务。
广泛部署兼容：支持导出到19种非PyTorch推理后端（TensorRT, ONNX, TFLite, CoreML等）。
CPU提速：相比YOLO11，在CPU上推理速度提升高达43%。

YOLO26并非简单的增量更新，而是通过架构精简（去DFL）、训练优化（MuSGD + 渐进损失 + STAL）、多任务增强和开放词汇扩展 ，在精度、速度、训练效率、小物体检测和部署灵活性 上全面超越前代及同期实时检测器，为工业级实时视觉应用提供了一个更强大、更简洁、更通用的基础模型系列。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

实时视觉需要在不同硬件上都能做到准确、高效且易于部署的模型。YOLO系列因其在此方面的优势而被广泛部署。然而，大多数YOLO检测器在推理时仍然依赖非极大值抑制，由于使用分布焦距损失而导致检测头臃肿，需要较长的训练周期，并且可能使最小的物体无法获得正标签分配。我们提出了Ultralytics YOLO26，一个统一的实时视觉模型系列，通过协调的架构和训练进展解决了上述局限。在架构上，YOLO26采用双头设计以实现原生的无NMS端到端推理，并完全移除了DFL，从而产生了一个更轻量、回归范围不受约束的检测头。在训练方面，三种技术的结合在降低训练成本的同时提高了精度：MuSGD（一种从大语言模型训练中改编的Muon-SGD混合优化器）、渐进式损失（将监督信号逐步转移到推理时使用的检测头）以及STAL（一种确保小物体获得正标签分配的标签分配策略）。除了检测之外，YOLO26还为实例分割、姿态估计和旋转目标检测引入了特定任务的头部和损失设计，在不同任务和模型规模上产生了一致的性能提升。该系列涵盖五种规模（n/s/m/l/x），并在单一流程中支持检测、实例分割、姿态估计、分类和旋转目标检测，并提供了一个开放词汇扩展版本YOLOE-26，用于文本、视觉和无提示推理。在所有规模上，YOLO26在COCO数据集上实现了40.9-57.5 mAP，T4 TensorRT延迟为1.7-11.8毫秒，在精度-延迟帕累托前沿上超越了先前的实时检测器。

1. 引言

实时目标检测是计算机视觉的基石，为自动驾驶、机器人、监控和增强现实等应用提供动力，通常运行在延迟和功耗预算紧张的边缘设备上。该领域经历了几次架构变革，但核心挑战始终未变：在不牺牲部署简单性和运行时效率的情况下提高精度。

两阶段流程（如Faster R-CNN）设定了强大的精度基线，但推理成本相当高。单阶段检测器（SSD, RetinaNet, YOLOv3, Ultralytics YOLOv5）放弃了提议生成，采用密集预测，大大降低了延迟。无锚框设计（如FCOS和Ultralytics YOLOv8）进一步简化了检测头，而YOLOv10引入了一致的双重分配以实现无NMS推理。与此同时，DETR将检测视为端到端的集合预测，其实时继任者（RT-DETR, D-FINE, DEIM, RF-DETR）在标准基准测试中缩小了与基于CNN的检测器的精度差距。然而，这些基于Transformer的模型通常依赖于大规模的预训练视觉骨干网络、可变形注意力或其他自定义算子，或者固定的输入分辨率，这可能会使跨异构硬件目标的部署复杂化，并降低跨边缘推理后端的可移植性。在这些变革中，YOLO系列一直是工业界部署最广泛的实时检测器。

两个结构性属性支撑了这种持久性。第一，部署的通用性：YOLO模型依赖标准的卷积算子，能够原生导出到TensorRT、ONNX、CoreML、TFLite、OpenVINO、NCNN和ExecuTorch等平台，覆盖云端、移动和嵌入式平台。第二，多任务统一：一个共同的骨干网络和颈部支持目标检测、实例分割、图像分类、姿态估计和旋转边界框检测，位于同一训练和部署栈中。这些特性使YOLO范式成为持续进步的坚实基础，前提是其剩余的局限性得到直接解决。

尽管有这些优势，当前YOLO系列检测器仍存在几个具体的局限性。(a) NMS依赖性和次优的双头训练 。大多数基于CNN的检测器在推理时仍然依赖NMS。YOLOv10引入了双头设计以移除NMS，但在整个训练过程中对两个头部应用相同的损失权重：仅在推理时使用的一对一头部分支，与密集的一对多分支接收相同的优化压力，导致其相对于有针对性的监督而言训练不足。(b) DFL参数膨胀和范围限制 。自YOLOv8以来采用的分布焦距损失模块将边界框回归从4个标量扩展到每个空间位置的4K个逻辑值（通常K=16），导致头部参数膨胀，这对于头部可能占据总参数计数主导地位的纳米级模型尤其不利。例如，带有DFL的YOLO11n有260万参数和6.5 GFLOPs，而移除DFL后这些数字降至仅230万参数和5.2 GFLOPs，单此模块就减少了12%的参数和20%的FLOPs。DFL还施加了有限的回归范围，即每边最多 (K-1) × 步长像素，这对于高分辨率下的大物体来说可能具有限制性。D-FINE通过增加K来解决这个问题，但额外的箱位进一步增加了头部成本。(c) 长训练周期 。标准SGD方案仍然需要大约600个epoch才能达到有竞争力的COCO精度，使得快速迭代成本高昂。最近关于Muon优化器的工作表明，在大语言模型训练中，其计算效率大约是AdamW的两倍，然而，之前没有工作将Muon应用于目标检测。(d) 针对小物体的TAL零分配。任务对齐学习的标签分配策略基于几何包含性在真实框内选择候选锚点。下采样后，空间范围小于最小步长的物体在其框内没有锚点，因此接收零个正分配和零个梯度信号。在这种机制下，最小的物体可能无法获得任何正候选者，并且在训练期间不贡献定位或分类信号。

我们提出了Ultralytics YOLO26，一个建立在YOLO11基础上的统一实时视觉模型系列。在检测器层面，YOLO26采用双头设计以实现原生的无NMS推理，并完全移除了DFL，从而产生了一个更轻量、范围不受约束的回归头。为了恢复定位质量并改进优化，YOLO26结合了三个互补的训练组件：MuSGD，一种混合Muon-SGD优化器；渐进式损失，逐渐将监督转移到推理时的一对一头；以及STAL（小目标感知标签分配），它保证了在TAL下微小物体的正候选覆盖。

由此产生的系列涵盖五种尺寸变体（n/s/m/l/x），并支持检测、实例分割、分类、姿态估计和旋转目标检测。除了共享的检测器，YOLO26还通过多尺度原型路径及辅助语义监督、基于RLE的不确定性感知关键点目标以及修订后的长边角度公式及专用角度监督，为实例分割、姿态估计和旋转检测引入了特定任务的扩展。在各个尺度上，YOLO26系列将这些扩展与共享检测器的改进相结合，与YOLO11相比，在COCO实例分割上mask AP提高了+3.7，在COCO关键点检测上pose AP提高了+7.2，在DOTA-v1.0旋转检测上mAP提高了+3.4。

除了封闭集检测，我们通过在YOLO26检测器上实例化YOLOE的开放词汇公式，将YOLO26系列扩展到开放词汇场景。YOLOE-26保留了YOLOE的三种推理模式（文本提示、视觉提示和无提示），同时引入了更强的检测骨干网络、升级的文本编码器、伪标签数据引擎和解耦的分割训练。在LVIS minimal上，YOLOE-26x在文本提示下达到40.6 AP，超过DetCLIP-T 6.2 AP。

图1总结了COCO val2017上的精度-延迟权衡。在所有模型规模上，YOLO26都位于或改进了帕累托前沿，在中型、大型和超大型模型规模上具有最强的AP-延迟权衡。在相同的模型规模下，YOLO26的COCO AP比YOLO11提高了1.6-2.8个百分点，同时在精度-延迟前沿上也优于其他最近的实时检测器。

总之，这项工作的主要贡献是：

一个无DFL的双头架构，提供原生的无NMS端到端推理，具有更轻量的回归头和不受约束的边界框范围，同时为精度关键型部署保留了可选的密集分支。
一个由三个互补组件组成的协调训练流程（MuSGD，渐进式损失和STAL），它们共同加速收敛，使优化与端到端推理路径对齐，并确保对最小物体的监督。
针对实例分割、姿态估计和旋转检测的特定任务头和损失设计，每个都在统一的系列中比YOLO11产生一致的性能提升。
YOLOE-26，一个开放词汇扩展，将YOLOE公式应用于YOLO26检测器，并配有升级的文本编码器、伪标签数据引擎和解耦的分割训练，在LVIS minimal的文本提示下达到40.6 AP。

2. 相关工作

2.1. 基于CNN的目标检测：从两阶段到无NMS

基于CNN的目标检测经历了平衡精度和效率的设计转变。早期方法以两阶段流程为主，首先生成候选区域，然后进行分类和细化。R-CNN引入了这一范式，将区域提议与CNN特征相结合；Fast R-CNN通过RoI池化在提议之间共享计算来提高效率；Faster R-CNN通过RPN将提议生成集成到网络中，实现了端到端训练和良好的速度-精度权衡。

为了降低延迟，单阶段检测器移除了提议阶段，并在特征图上密集地预测类别和边界框。SSD展示了使用默认框的高效多尺度密集预测，而RetinaNet通过Focal Loss解决前景-背景不平衡问题，以提高密集检测的精度。YOLO系列以实时操作为目标，YOLOv3加强了多尺度预测和骨干网络设计，Ultralytics YOLOv5提供了一个广泛采用的、面向部署的实现，并配有精炼的训练方案。

无锚框检测器通过移除手工设计的锚框并提高跨数据集的可移植性，进一步简化了密集预测。FCOS将检测表述为特征图上的逐像素分类和边界框回归，而CenterNet通过关键点及其几何关系表示对象。最近的实时系统也在实践中采用了无锚框头部；Ultralytics YOLOv8遵循这一方向，采用了无锚框的分头设计和面向部署的精度和效率改进。

除了锚框，最近的工作还致力于通过减少对后处理（尤其是非极大值抑制）的依赖来实现端到端检测。YOLOv10通过一致的双重分配实现了无NMS推理，该分配使用两个训练分支：一个用于密集监督的一对多分支，以及一个学习每个真实实例的单个匹配预测，用于推理时直接解码的一对一分支。

2.2. 基于Transformer的目标检测

基于Transformer的检测器将检测视为端到端的集合预测，采用一对一的匈牙利匹配，从而移除了锚框和NMS。DETR引入了这种公式，使用了Transformer编码器-解码器和一组固定的目标查询。Deformable DETR通过稀疏的可变形注意力提高了效率和收敛性，并引入了迭代框细化和两阶段top-K提议初始化变体。后续工作改进了查询设计和训练：DAB-DETR将查询参数化为可学习的锚框，在解码器层中逐步细化；DN-DETR通过从噪声真实目标构建的去噪查询加速收敛；DINO使用混合查询选择、对比去噪和前瞻两次细化方案进一步改进了初始化和优化。除了纯粹的一对一训练之外，混合匹配方法通过结合一对一和辅助的一对多分配来增加训练期间的正监督，同时保留一对一的推理。

Transformer检测器也通过改进多尺度特征处理和减少计算开销来适应实时使用。RT-DETR通过高效的编码器设计和面向部署的选择来实现实用的速度-精度权衡，后续的改进如RT-DETRv4探索了针对紧凑模型的更强蒸馏策略。同时，诸如D-FINE和DEIM等方法通过精炼的回归/优化和匹配感知目标来改进定位和训练效能。轻量级设计如LW-DETR进一步简化了架构以实现低延迟部署，RF-DETR代表了构建具有实用精度-延迟权衡的强实时检测Transformer系列的补充努力。

2.3. 实例分割

实例分割通过为每个实例预测像素精度的掩码来扩展目标检测，在精度和实时效率之间存在持续的权衡。Mask R-CNN通过RoI对齐的掩码分支增强了两阶段检测器，以产生高质量的掩码。为了避免逐RoI计算，无提议方法完全卷积地预测掩码：CondInst通过对共享掩码特征应用动态预测的卷积参数来生成实例条件的掩码头，而SOLOv2将实例分配到位置，并为每个位置预测动态掩码核，以从共享掩码特征中生成掩码。

对于实时设置，基于原型的方法从一小组共享基构建实例掩码。YOLACT预测全局原型掩码和每个实例的系数，通过线性组合后进行裁剪来形成每个掩码，从而实现了快速的掩码生成和具有竞争力的精度。Ultralytics YOLO分割头采用了密切相关的原型-系数公式，从检测特征中预测共享原型以及每个实例的掩码系数，以最小的每实例开销构建掩码。

最近，基于Transformer的实例分割通过具有更强全局上下文的基于集合的解码来预测掩码。Mask2Former使用掩码注意力解码输出一组实例掩码和相应的类别。MaskDINO通过在统一的Transformer框架内整合基于去噪的训练和增强的掩码解码，进一步改进了收敛性和掩码质量。

2.4. 姿态估计

人体姿态估计从直接坐标回归发展到通过编码器-解码器网络的热图预测和反卷积基线。HRNet通过并行子网络融合保持高分辨率表示，而OpenPose通过联合预测关键点和部分亲和场采用自底向上的方法。ViTPose展示了可扩展的Transformer骨干网络，RTMPose通过使用带有坐标分类头的CSPNeXt实现了实时性能。

在基于YOLO的姿态估计中，YOLO-Pose引入了一种无热图的单阶段公式，使用尺度感知的OKS训练目标，联合检测人物并回归关键点。后来的YOLOv7将关键点头集成到更广泛的YOLO家族中，YOLOv8和YOLO11继续了这一方向，采用了无锚点的姿态头。YOLO26建立在这个直接回归的谱系上，并通过RLE进一步增强了它，用基于归一化流的概率目标取代了传统的回归，以实现更准确和校准的关键点定位。

2.5. 旋转边界框检测

旋转目标检测将轴对齐检测扩展到任意旋转角度的边界框，其动机是在航空图像和场景文本中，直立框会产生过多的重叠。早期方法采用带有旋转锚点的区域提议网络，而两阶段检测器如RoI Transformer和Oriented R-CNN应用旋转感知头部以实现高精度。一个核心困难是角度表示：朴素回归在周期性边界处会遇到边界不连续问题，其中小的几何变化会导致大的损失峰值。圆形平滑标签通过将角度预测重构为圆形分类来解决此问题。基于高斯的方法通过将旋转框建模为2D高斯分布，并通过Wasserstein距离或卡尔曼滤波启发的IoU代理来测量相似性，从而绕过了该问题。然而，高斯建模方法会导致方形旋转物体的角度模糊，并提出了额外的角度损失来惩罚角度偏差。PSC和PSCD引入了基于相位的方向角编码器，其中PSC解决了边界不连续问题，PSCD通过引入双频相位表示进一步减少了类方形物体的模糊性。无锚框设计如S2ANet将对齐特征与定向提议对齐以实现更精细的定位，现代骨干网络如LSKNet利用适合航空场景中常见细长结构的大选择性核。

在YOLO家族中，YOLOv8和YOLO11引入了带有专用角度分支的OBB头，通过ProbIoU进行训练。YOLO26扩展了这一谱系，采用了专用的宽高比感知角度损失和优化的解码器，解决了旋转框表示中的角度模糊和边界不连续问题。

2.6. 开放词汇检测与分割

开放词汇检测方法可以根据它们在推理时指定目标类别的方式大致分类：通过文本提示、视觉提示或无提示。文本提示检测通过视觉-语言预训练将自然语言查询与视觉区域关联起来。GLIP将检测重新定义为短语定位，通过对比目标将区域特征与词元级文本嵌入对齐。Grounding DINO将此想法扩展到具有紧密跨模态融合的Transformer检测器，实现了强大的零样本定位。YOLO-World通过可重参数化的交叉注意力将CLIP文本嵌入注入到YOLO颈部，将文本条件检测带入实时领域。尽管具有通用性，但对于难以简洁语言描述的对象（如新颖的工业缺陷或细粒度生物样本），文本提示并不适用。视觉提示检测通过提供参考图像或区域来代替文本来解决这一差距。OWL-ViT和OV-DETR通过共享的CLIP编码器将图像示例与文本查询一起处理，在统一架构下支持两种模态。DINOv探索参考区域作为通用和指代视觉任务的上下文示例。对于分割，SEEM和Semantic-SAM处理多种提示类型，包括点、框和参考掩码，跨越全景和部分粒度。无提示检测通过将检测器与生成式语言模型耦合，完全摆脱了对显式查询的依赖。GRiT将一个自回归文本解码器附加到区域提议骨干网络上，用于联合密集字幕和检测。DetCLIPv3在网络规模数据上训练一个目标字幕器，为任意区域生成丰富的标签信息。YOLOE通过其RepRTA、SAVPE和LRPCHead组件，在单个实时模型中统一了所有三种范式------文本提示、视觉提示和无提示推理。我们的YOLOE-26继承了这种统一的公式，并通过更强的骨干网络、升级的文本编码器、伪标签数据引擎和解耦的分割训练来推进它。

3. 方法论

YOLO26建立在YOLO11系列之上，作为一个统一的实时视觉框架，同时修订了共享检测器设计和特定任务头部。在检测层面，该方法结合了双头端到端公式、无DFL的边界框回归、MuSGD、渐进式损失和小目标感知标签分配。本节首先介绍共享架构和训练流程，然后描述针对分割、姿态估计、旋转边界框以及开放词汇变体YOLOE26的特定任务扩展。

3.1. 概述

相对于YOLO11，YOLO26围绕三个设计目标组织：端到端简洁性、部署效率和更强的优化。这些目标通过原生的无NMS一对一推理路径、轻量级的无DFL回归头，以及结合MuSGD、渐进式损失和STAL的训练流程来实现。

图2总结了这些组件在训练期间的交互方式：共享的骨干网络和颈部馈送给一对多和一对一头，STAL保留了微小物体的分配，渐进式损失随时间重新加权分支目标，MuSGD更新模型参数。

3.2. 架构设计

主论文侧重于与检测目标最直接相关的架构思想，而完整的模型示意图和组成模块将在补充材料中提供。

3.2.1. 端到端无NMS检测

大多数基于CNN的检测器依赖NMS在推理时移除重复预测。YOLO26则采用双头设计，同时支持端到端的无NMS解码和传统的密集预测，从而实现部署特定的权衡。

一对一头部 (默认)：一对一头部产生一个固定大小的预测集，无需NMS，每张图像最多输出300个检测结果。遵循YOLOv10的方法，我们使用基于任务对齐学习的一致双重路径标签分配来训练双头：两个头部使用相同的TAL公式，但具有不同的匹配基数。在当前实现中，一对一路径首先形成一个topk=7的TAL候选集，然后应用二级topk=1过滤器，为每个真实实例产生唯一的端到端分配，并实现直接解码。
一对多头部：一对多头部保留了标准的密集YOLO风格预测，并使用topk=10的TAL来提供更丰富的训练正监督。该头部在推理时使用NMS，通常会以额外的后处理开销为代价产生略高的精度。

总体而言，双头设计提供了一个实用的精度-延迟调节旋钮：一对一头优先考虑简洁性和速度，而一对多头部则在NMS开销可接受的情况下以最大精度为目标。

3.2.2. 移除分布焦距损失

YOLO26从检测头中移除了DFL模块。DFL在GFL中被引入作为一种基于分布的边界框回归公式，现在广泛应用于最近的YOLO风格检测器中。在DFL中，每条边被预测为K个箱上的离散分布，并通过期望解码。这会将回归从4个标量扩展到每个位置的4K个逻辑值，相应地增加了头部参数/计算量------这对于纳米级模型来说尤其不利。

DFL还施加了有限的离散支持范围。由于在乘以步长之前d的范围是 $0, K-1$ ，每边的最大距离是(K-1)s像素。当K=16时，这大约是30s，这可能会对高分辨率下的大物体造成限制。增加K可以缓解此问题，但会进一步增加头部成本。YOLO26采用更简单的回归头，并通过互补的训练目标（即渐进式损失和STAL）来恢复定位质量。关于这一设计选择的定量和定性证据在第4.3.1节的DFL移除消融研究中提供。特别是，图4使用了1280分辨率的训练设置来揭示在640分辨率下不太明显的失败模式，表明无DFL的头部能更可靠地保留大物体的完整范围。

3.3. 训练方法论

从共享的骨干网络和颈部特征开始，YOLO26联合优化一对多和一对一头，在标签分配期间应用STAL以保留对微小目标的监督，并在通过MuSGD更新模型参数之前通过渐进式损失组合两个分支的损失。这个观点强调了所提出的训练组件是如何作为一个单一流程相互作用，而不是孤立的修改。

3.3.1. MuSGD优化器

YOLO26采用MuSGD，一个结合了Muon和标准SGD动量的混合优化器，其动机来自最近的大规模训练实践。Muon应用动量更新，然后对由动量导出的更新进行轻量级正交化，这可以改善更新的条件并稳定优化。我们利用此特性进行检测器训练，同时保留SGD作为稳健的基线组件。

具体来说，MuSGD对多维参数应用Muon更新和SGD更新的加权混合，并对一维参数（如偏置和归一化尺度）使用纯SGD。这种参数类型拆分保持了尺度/偏移参数的稳定，同时受益于高维权重张量上的正交化更新，在实践中提高了训练稳定性并加速了收敛。

3.3.2. 渐进式损失

双头端到端检测器在训练期间存在固有的优化不对称性。密集的一对多分支接收更广泛的正监督，因此更容易在早期优化，而一对一分支则更受约束，但最终决定了模型的端到端推理行为。在整个训练过程中对两个分支应用固定的、相同的损失权重，未能充分利用这种不对称性，可能导致推理分支优化不足。

为了解决这个问题，YOLO26引入了渐进式损失，一种课程式的重新加权策略，在训练过程中逐渐将优化重点从密集分支转移到一对一分支。在优化初期，强调密集分支以稳定特征学习并提供可靠的监督。随着训练的进行，一对一分支受到越来越多的重视，使得优化目标与部署时使用的无NMS推理路径更好地对齐。

形式上，总检测损失写为：

渐进式损失补充了两个分支使用的不对称分配：一对多分支受益于更丰富的候选监督，而一对一分支使用为端到端预测量身定制的更严格的分配。通过将损失重点与这些不同的角色相匹配，渐进式损失提高了早期优化稳定性，同时使最终模型与部署时的行为更好地对齐。

3.3.3. 小目标感知标签分配 (STAL)

任务对齐分配首先将监督限制在落在每个真实框内部的锚点中心。虽然这种几何过滤对正常尺度的物体有效，但对于非常小的实例来说会变得脆弱：在特征图离散化之后，一个微小的框可能根本不包含任何有效的锚点中心。在这种情况下，该物体将获得零个正候选者，并且在训练期间不贡献任何定位或分类信号。

YOLO26通过小目标感知标签分配解决了这个失败模式，该分配将用于候选选择的几何结构与用于回归的几何结构解耦。设一个真实框参数化为gi = (xi, yi, wi, hi)，并设s_min为最小的特征金字塔步长。在候选过滤期间，STAL构建一个分配代理：

其中每个空间维度独立调整。对于每个真实物体i和锚点中心aj，我们定义一个二值候选掩码。重要的是，STAL只修改候选选择掩码。原始的框gi被保留用于任务对齐评分、最终目标分配和边界框回归，因此检测器仍然针对真实的物体范围进行优化。这使得STAL故意保守：它不会改变定位目标或夸大对普通物体的监督，但它可以防止微小物体出现病态的零正例情况，否则这些情况将被分配流程丢弃。

3.4. 特定任务扩展

除了共享的检测架构和训练方法，YOLO26还为实例分割、姿态估计和旋转边界框检测引入了特定任务的扩展。

图像分类：YOLO26的分类变体在共享骨干网络上重用了标准的Ultralytics Classify头。由于分类分支没有引入新的特定任务解码规则，它被视为一个受支持的模型系列任务，而不是单独的方法论贡献。

3.4.1. 实例分割

YOLO风格的实例分割采用基于原型的表示，其中每个图像预测一次共享的原型张量，每个正实例预测一个系数向量来重建其掩码。YOLO26保留了这种轻量级的重建规则，同时引入了两个分割特定的集成：一个用于原型生成的多尺度原型路径和一个仅训练时的辅助语义监督分支。

多尺度原型模块：YOLO26不是仅从最高分辨率的特征生成原型，而是构建一个融合的原型特征，然后将共享原型张量生成为应用于融合特征的原型生成栈。这种修改保留了原型-系数公式，同时丰富了具有更高级语义上下文和更广泛尺度覆盖的原型。
辅助语义分割损失：YOLO26进一步将一个仅训练时的语义分割分支附加到共享的融合特征上，在原型生成之前预测密集的每类逻辑值。监督目标是从实例标注中通过按类别标签合并掩码像素派生的语义掩码。我们使用平衡的BCE+Dice目标来监督这个分支，除了实例掩码损失之外，它还提供了密集的类别感知梯度。重要的是，这个分支是辅助性的：在评估时处于非活动状态，并在模型融合期间被明确移除，因此它不引入任何额外的推理成本。

3.4.2. 姿态估计

在之前的YOLO姿态模型中，姿态头被附加到直接回归关键点坐标和可见性分数上，训练使用基于OKS的损失。YOLO26通过RLE扩展了这一方案，以实现原则性的每关节不确定性建模。除了坐标输出，一个并行的sigma分支预测每个关节的每轴不确定性。坐标残差被相应地归一化。共享的RealNVP归一化流估计归一化残差在对数密度。训练目标结合了显式基线的负对数似然项和学习到的残差项。具有较高预测sigma的关节会被有效地降低权重，从而在不丢弃任何预测的情况下实现改进的定位。解码路径进一步简化以加快推理速度。

3.4.3. 旋转边界框检测

YOLO26 OBB参数化：在YOLO OBB模型中，采用一个单独的分支来预测方向角。在以前的版本中，旋转边界框遵循OpenCV约定，其中角度定义为框宽度与正x轴之间的锐角，范围为(0, 90°]。在这个定义下，宽度和高度不是严格固定的，这在物体的方向接近0或90°时引入了模糊性。在YOLO26中，角度定义改为遵循MMRotate的长边定义，角度范围为[-45°, 135°)，并且宽度被约束为大于高度。这种公式减轻了接近0或90°的边界模糊性，并减少了由边交换引起的不稳定性。此外，以前的OBB模型预测一个定向角度逻辑值，然后通过sigmoid变换映射，将预测压缩到一个固定的区间中。YOLO26改为直接预测角度，移除了额外的压缩非线性。
方形物体的角度损失：对于方形或近方形物体，YOLO11模型中使用的ProbIoU损失对角度变化变得不敏感，因为当宽度≈高度时，高斯表示几乎对旋转不变，使得角度预测模糊且不稳定。为了解决这个问题，YOLO26专门为方形物体设计了一个角度损失。我们首先回顾旋转框公式中使用的角度监督。由于定向矩形在180°旋转下保持不变，角度残差应以π为模测量，而不是在实线上。角度损失随后被定义为双角度惩罚。对于方形和近方形框，使用双角度惩罚作为辅助监督，因为旋转90°在几何上变得模糊。细长框接收较小的权重，并主要受旋转IoU损失约束。

3.5. 模型变体与部署

YOLO26提供了一个统一的模型系列，涵盖五种尺寸变体（n, s, m, l, x），并支持多个计算机视觉任务：目标检测、实例分割、图像分类、姿态估计和旋转目标检测。每个变体都支持训练、验证、推理和原生PyTorch检查点。对于部署，Ultralytics支持PyTorch之外的19种导出目标。

图3展示了框架的部署侧。训练后，同一个YOLO26模型可以通过默认的一对一（无NMS）路径或可选的一对多（带NMS）路径执行，同时保持与标准导出目标的兼容性。一些不支持端到端解码所需top-K操作的运行时会在导出期间自动回退到非端到端分支。训练和部署之间的这种分离强调了YOLO26不仅是为强大的优化行为而设计，也是为跨异构运行时的实际推理集成而设计。

与之前的YOLO版本相比，该架构实现了高达43%的CPU推理加速，并减小了模型大小和内存占用，使其特别适用于GPU加速不可用或不切实际的边缘部署场景。

3.6. YOLOE-26：开放词汇检测与分割

YOLOE将YOLO框架扩展到基于嵌入的分类，以在单个模型中支持文本提示、视觉提示和无提示推理。对于文本提示，可重参数化的区域-文本对齐策略使用MobileCLIP文本编码器和一个轻量级辅助网络来对齐区域特征与文本嵌入。对于视觉提示，空间感知视觉提示嵌入模块通过解耦的语义和激活分支产生视觉嵌入。对于无提示推理，轻量级区域提议和分类头利用内置词汇表和专用特征嵌入来检测通用物体，而无需在推理时使用语言模型。

在当前实现中，YOLOE和YOLOE-26实例化BNContrastiveHead。设F_l表示金字塔级别l的检测特征图。YOLOE-26通过独立的头部预测框分支输出和提示条件分类分数。给定归一化的提示嵌入，分数图被定义为S_l，它充当标准YOLO检测器中分类逻辑值的开放词汇等价物，随后通过sigmoid函数产生最终的每类置信度分数。框和分类分支通过共享的空间索引保持一致，因此级别l上的每个位置产生一对框预测和类别得分向量。YOLOE分三个阶段进行训练：文本提示阶段、视觉提示阶段和无提示阶段。TP阶段作为共享的初始化阶段，VP和PF模型各自从TP检查点独立微调。

YOLOE-26在YOLO26检测器家族之上实例化了YOLOE的开放词汇公式。它保留了相同的三种推理模式，同时引入了：(1) 更强的骨干网络，(2) 升级的文本编码器，(3) 数据引擎，(4) 解耦的分割训练。

4. 实验

YOLO26在标准目标检测、实例分割、姿态估计、旋转边界框检测和开放词汇检测上进行了评估。

4.1. 实现细节

除非另有说明，YOLO26检测模型采用端到端模式训练，使用直接回归头。对于报告的COCO检测基准，我们使用两阶段训练方案：所有模型尺寸首先在Objects365-v1上预训练150个epoch，然后在COCO上微调。COCO微调的周期数取决于模型尺寸。全局批量大小为128。两阶段的确切优化器、调度、损失、增强和检查点记录的内置设置总结在补充材料中。

在Objects365-v1预训练和COCO微调中，我们都采用了模型尺寸感知的增强策略。在两个阶段中，较大的模型总体上使用更强的尺度、混合和复制-粘贴增强，而YOLO26n使用最温和的方案。

渐进式损失权重初始化为强调早期的一对多分支，然后在训练过程中转向一对一分支。在当前实现中，一对多和一对一的权重分别从(0.8, 0.2)线性更新到(0.1, 0.9)。更新每训练周期应用一次。

对于STAL，当前实现使用步长为 $8, 16, 32$ 的默认三级检测金字塔。因此，最小步长s_min=8，参考尺寸设置为下一个步长级别s_ref=16。在实践中，这意味着在候选过滤期间，任何低于8像素的真实宽度或高度都被限制到16像素，而原始的框在随后的匹配和回归中保持不变。

4.2. 组件级消融研究

表2总结了从YOLO11s基线到最终YOLO26s配置的增量演变。移除DFL并用直接框回归加L1损失替换，在降低模型复杂度的同时基本保持了精度。STAL通过改进的小物体分配恢复了额外的性能。我们通过在检测颈部插入一个额外的注意力层进行轻量级的骨干/颈部精炼，在保持延迟基本不变的同时提高了精度。启用带有渐进式损失的端到端训练改进了对一头，而MuSGD、Objects365预训练和超参数搜索提供了进一步的提升，达到了最终结果。

4.3. 核心设计消融研究

4.3.1. DFL移除

表2显示，单独移除DFL在YOLO11s基线上造成0.6 AP的损失，但这个差距通过L1监督、STAL和骨干/颈部精炼完全恢复，产生了一个更轻、更快、精度相同的头部。为了更直接地验证效果，我们在YOLO26s配置下，使用匹配的COCO训练协议，在640和1280分辨率下进行了有和没有DFL的独立从头训练。表3证实，在YOLO26s配置中，无DFL的头部在640和1280分辨率下都能提高AP，并且这种优势在更高分辨率下更为明显。即使在640分辨率下，移除DFL也能提高AP和APL，这表明reg_max=16的DFL有限支持范围已经限制了对最大目标的回归质量。在1280分辨率下，效果更强，其中大目标回归跨越更长的距离，因此更清楚地暴露了这个范围限制。特别是，APL的提升从640分辨率下的+1.0增长到1280分辨率下的+2.2，支持了直接回归在分辨率提高时变得更有利的说法。图4进一步显示，在1280分辨率下，无DFL的头部能更好地保留大物体的完整范围。

4.3.2. MuSGD

我们比较了MuSGD与标准SGD在COCO上从头训练YOLO26的情况。表4显示，MuSGD以更短的调度达到了更高的最终精度，将mAP提高了+0.4，同时将训练周期从600减少到500 epoch。为了进一步验证MuSGD在检测之外的有效性，我们还进行了受控的ImageNet分类比较，其中骨干架构和训练方案保持不变，仅优化器不同。详细的结论表明MuSGD的优势可以迁移到检测之外的领域。

4.3.3. 渐进式损失

表5研究了一对多和一对一分支之间的权重在训练过程中应如何演变。固定权重的基线达到了46.4的端到端AP，而最佳的调度变体(0.8,0.2)→(0.1,0.9)将其提高到46.7。从(1.0,0.0)开始始终表现不佳，表明在训练早期完全抑制一对一分支是次优的。总体而言，最好的调度是从一开始就给对一头非零的监督，然后在稍后逐渐强调它。

4.3.4. STAL

表6评估了STAL中的参考尺寸s_ref相对于普通TAL在COCO上的表现。选择下一个步长级别s_ref=16给出了最佳的整体结果46.8 AP，比基线提高了+0.2 AP，并将APS从29.0提高到29.6。设置s_ref=8没有提高整体AP，并且显著降低了APS，这表明调整太弱而无法稳定极小物体的分配。进一步将参考尺寸增加到32也会降低性能，表明过度的放大开始扭曲预期的尺度先验。总体而言，这些结果支持第4.1节中s_ref=16的默认选择。图5进一步显示，STAL恢复了TAL基线错过或定位较差的小物体检测。

4.4. COCO上的主要检测结果

表7总结了发布的YOLO26在COCO上的检测结果。由于YOLO26支持两种推理路径，我们报告了标准验证mAP和端到端mAP。非E2E数值对应于使用NMS评估的一对多分支，而E2E数值对应于用于真正端到端推理（无NMS）的一对一分支。

端到端与NMS的灵活性：一对一头提供了一个更简单的端到端部署路径，并且在所有模型规模上与非NMS变体非常接近，仅落后0.6-0.8 AP。同时，YOLO26不强制单一的部署模式：如果目标平台或推理栈可以有效执行NMS，当最高可能的AP是优先事项时，仍然可以首选一对多头部。反之，当部署简洁性、更紧密的集成或无NMS推理更有价值时，默认的一对一路径提供了一个更简洁的替代方案。
与最近实时检测器的比较：在标准的NMS操作点，YOLO26在此比较中提供了最强的整体AP-延迟权衡，在中型、大型和超大型组中实现了最佳的AP，同时在延迟方面保持竞争力。

4.5. 各种视觉任务的结果

4.5.1. 实例分割

如表8所示，多尺度Proto模块将mAP从32.0%提高到32.4%，表明将更高级的语义概念嵌入原型图可以提高掩码质量。我们使用相等的BCE和Dice权重进行辅助损失，将精度从32.4%提高到32.7%，且不影响推理速度。

我们将所提出的方法集成到YOLO26中以构建新的分割模型。遵循YOLO26检测模型的训练策略，我们采用Objects365-v1预训练权重，并在COCO实例分割数据集上进行微调。在标准NMS操作点，YOLO26在各个尺度上比YOLO11提高了+1.6到+2.5的框AP和+2.4到+3.7的掩码AP，而端到端路径与非NMS变体保持接近。

4.5.2. 姿态估计

因此，我们在保持其他训练设置与检测模型对齐的同时，使用了RLE损失和OKS损失组合。表9评估了YOLO26s上的不同损失权重设置，显示wOKS=24和wRLE=1给出了最佳的mAP。在E2E设置下，YOLO26在各个尺度上比YOLO11提高了+2.1到+7.2的pose AP，而端到端和基于NMS的变体几乎等价，差异最多0.2 AP。

4.5.3. 旋转边界框检测

我们在DOTA-v1.0数据集上评估模型。如表10所示，使用[-45°, 135°)角度定义将mAP从47.7提高到49.0。表11总结了角度损失中λ超参数的消融研究，其中"---"表示未使用角度损失。所有带有角度损失的配置都优于未使用的版本，λ=3给出了最高的mAP 50.2。YOLO26在各个尺度上比YOLO11提高了+2.5到+3.4的OBB mAP，而更大的AP75增益（+4.6到+6.0）表明在更严格的定位指标下改进更为明显。图6显示，YOLO26在方形旋转物体上产生了比YOLO11明显更好的角度预测。

4.6. YOLOE-26结果

4.6.1. 消融研究

表12分离了YOLOE-26的四项修改：骨干网络升级、解耦分割训练、文本编码器升级和数据引擎。从YOLOE-11s基线开始，应用骨干网络升级获得+1.5 AP增益。启用解耦分割训练进一步将E2E AP提高+0.7，支持了移除辅助分割目标可减少任务干扰的观点。文本编码器升级带来额外的+0.3/+0.2 AP。最后，数据引擎产生了最大的单次改进，+1.1/+1.3 AP，达到最终的29.9/31.0 AP结果。

4.6.2. 基于提示的评估

总体而言，YOLOE-26在文本和视觉提示下均优于早期的YOLOE变体。在文本提示下，非E2E分支的AP比YOLOE-v8提高+1.9-2.9，比YOLOE-11提高+2.4-3.3；在视觉提示下，相应的增益分别为+2.1-2.9和+2.3-2.6。最大模型达到了最强的基于提示的结果，文本提示下为40.6 AP，视觉提示下为38.5 AP。对于零样本分割，YOLOE-26同样在文本和视觉提示下改进了s/m/l模型的零样本掩码预测。

4.6.3. 无提示评估

在无提示设置中，YOLOE-26在整个模型系列中保持竞争力。在标准的非E2E设置中，YOLOE-26的AP比YOLOE-v8提高+0.8-1.7，比YOLOE-11提高+0.9-2.0，在LVIS minival上最高达到31.1 AP。E2E头部与对应的非E2E模型相比，AP差值保持在0.7-1.2之内，同时移除了后处理。

5. 结论

我们提出了YOLO26，一个统一的实时视觉模型系列，它结合了双头无NMS架构与MuSGD、渐进式损失和STAL，以改善五个模型尺度上的精度-延迟权衡。通过移除DFL并加强优化和标签分配，YOLO26实现了更轻量的检测头，同时保持了定位质量。除了检测，YOLO26系列将特定任务的改进与共享检测器的改进相结合，在COCO实例分割上比YOLO11最高提升+2.5框AP和+3.7掩码AP，在COCO姿态估计上最高提升+7.2 AP，在DOTA-v1.0 OBB检测上最高提升+3.4 mAP，同时保持了统一的训练和部署流程，并原生支持Ultralytics公开的19种非PyTorch目标的导出。在COCO上，YOLO26在1.7-11.8毫秒T4 TensorRT延迟下达到40.9-57.5 mAP。YOLOE-26进一步将该系列扩展到开放词汇检测，其中YOLOE-26x在文本提示下在LVIS minimal上达到40.6 AP，在视觉提示下达到38.5 AP，同时在无提示设置中也保持竞争力，表明更强的YOLO26检测器和额外的开放词汇细化共同提升了开放词汇场景下的性能。未来的工作包括在COCO为中心的基准之外进行更广泛的评估，进一步探索超越此处使用的线性α(t)的学习或任务自适应损失调度形状，以及超越Objects365-v1的预训练，包括网络规模或基础风格的语料库。