yolov26详细讲解，包括网络结构图、关键创新点、部署

Ultralytics 目前没有给 YOLO26 发布正式研究论文 ，以官方文档、源码和模型 YAML 为准。YOLO26 于 2026-01-14 发布，定位是"为边缘和低功耗设备重新设计"的端到端 YOLO 系列。([GitHub][1])

1. YOLO26 是什么

YOLO26 的主线不是"再堆更大的 backbone"，而是三件事一起做：

一，原生端到端、去 NMS ；

二，去掉 DFL ，让导出和硬件兼容性更简单；

三，加入 ProgLoss + STAL 和 MuSGD ，重点提升小目标效果与训练稳定性。官方把它概括成三条设计原则：Simplicity、Deployment Efficiency、Training Innovation。([Ultralytics Docs][2])

2. 网络结构图

YOLO26 检测版的官方结构定义在 ultralytics/cfg/models/26/yolo26.yaml。按这个 YAML 展开，主干和检测头可以画成这样：

text 复制代码

Input
 └─ Backbone
    ├─ Conv(64, 3x3, s=2)              -> P1/2
    ├─ Conv(128, 3x3, s=2)             -> P2/4
    ├─ C3k2(256, c3k=False, e=0.25)
    ├─ Conv(256, 3x3, s=2)             -> P3/8
    ├─ C3k2(512, c3k=False, e=0.25)
    ├─ Conv(512, 3x3, s=2)             -> P4/16
    ├─ C3k2(512, c3k=True)
    ├─ Conv(1024, 3x3, s=2)            -> P5/32
    ├─ C3k2(1024, c3k=True)
    ├─ SPPF(1024, 5, 3, True)
    └─ C2PSA(1024)

 └─ Neck / Head
    ├─ Upsample + Concat(P4) + C3k2    -> 中间特征
    ├─ Upsample + Concat(P3) + C3k2    -> P3/8  small
    ├─ Downsample + Concat + C3k2      -> P4/16 medium
    ├─ Downsample + Concat + C3k2      -> P5/32 large
    └─ Detect(P3, P4, P5)

也就是说，YOLO26 仍然是熟悉的 Backbone + PAN/FPN 风格 Neck + 三尺度 Detect Head ，输出依旧是 P3/8、P4/16、P5/32。它没有改成 DETR 那种单一路线，而是在 YOLO 系列成熟骨架上，把训练、回归和部署路径整体简化。([GitHub][3])

再看 YAML 里的两个特别关键参数：
end2end: True 表示它默认就是端到端检测模式 ；
reg_max: 1 表示它不再使用 DFL 的多 bin 分布回归。这两个参数基本凸显 YOLO26 的设计思路。([GitHub][3])

3. 检测头是怎么工作的

YOLO26 的一个关键工程变化是：训练时双头，推理时单头 。官方的 end-to-end 指南写得很明确：训练时同时存在 One-to-One 和 One-to-Many 两个头；推理默认只用 One-to-One 头，输出形状是 (N, 300, 6) ，只需要置信度过滤，不需要 NMS。相对地，One-to-Many 头更像旧 YOLO 风格输出，形状是 (N, nc + 4, 8400) ，需要 NMS。源码文档也说明了 Detect.fuse() 会在推理优化时移除 one-to-many 头。([Ultralytics Docs][4])

这点非常重要，因为它解释了为什么 YOLO26 能做到"部署更简单 "：

不是靠后处理技巧，而是模型本身就按端到端输出设计。([Ultralytics Docs][2])

4. 关键创新点

4.1 去掉 DFL

官方把 DFL Removal 放在首要特性里。原因：DFL 虽然有效，但会增加导出复杂度，也会限制某些边缘设备和低功耗平台的兼容性。YOLO26 直接去掉 DFL，配合 reg_max: 1，让图更简单、回归更直接。([Ultralytics Docs][2])

4.2 原生端到端、无 NMS

YOLO26 的核心卖点就是 End-to-End NMS-Free Inference。官方文档明确说，它直接生成预测结果，不再把 NMS 作为独立后处理阶段，因此延迟更低、部署更轻、集成更稳。官方 FAQ 甚至直接把它列为相对 YOLO11 的首要改进。([Ultralytics Docs][2])

4.3 ProgLoss + STAL

官方没有在主模型页里完整展开这两个缩写，但明确说明 ProgLoss + STAL 是 YOLO26 的新损失策略，目标是提升检测精度，尤其是小目标识别；多个官方对比页都把它和无人机、IoT、航拍等小目标场景联系在一起。([Ultralytics Docs][2])

4.4 MuSGD 优化器

YOLO26 引入了 MuSGD ，官方定义是 SGD + Muon 的混合优化器，并说明灵感来自 Moonshot 的 Kimi K2 训练经验。官方给它的定位很明确：更稳定的训练，更快的收敛。([Ultralytics Docs][2])

4.5 任务专项增强

YOLO26 不是只改检测。官方同时说明：

分割加入了语义分割损失和多尺度 proto ；

姿态加入了 RLE ；

OBB 加入了角度损失和改进解码。所以 YOLO26 更像一个统一多任务家族，而不是单一检测模型。([Ultralytics Docs][2])

5. 性能

官方检测表里，640 输入下的 COCO 检测性能大致是：

YOLO26n：40.9 mAP, 2.4M 参数, 5.4B FLOPs
YOLO26s：48.6 mAP, 9.5M 参数, 20.7B FLOPs
YOLO26m：53.1 mAP, 20.4M 参数, 68.2B FLOPs
YOLO26l：55.0 mAP, 24.8M 参数, 86.4B FLOPs
YOLO26x：57.5 mAP, 55.7M 参数, 193.9B FLOPs。([Ultralytics Docs][2])

端到端部署，官方 end-to-end 指南给出的总结是：默认端到端模式可带来最高约 43% 的 CPU 推理加速 ，代价大约是 ~0.5 mAP 的精度损失。([Ultralytics Docs][4])

6. 部署

YOLO26 的部署思路：先优先走端到端导出 。官方 Export 文档支持导出到 ONNX、TensorRT、CoreML、OpenVINO 等多种格式，并给出统一的 Python / CLI 接口。官方还给出经验值：TensorRT 最多约 5x GPU speedup，ONNX / OpenVINO 最多约 3x CPU speedup。([Ultralytics Docs][5])

最常用的导出方式：

python 复制代码

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="onnx")
model.export(format="engine")   # TensorRT

bash 复制代码

yolo export model=yolo26n.pt format=onnx
yolo export model=yolo26n.pt format=engine

这些都是官方文档直接给出的用法。([Ultralytics Docs][5])

以下平台部署：

NVIDIA GPU / Jetson：优先 TensorRT；官方支持 FP16 和 INT8。([Ultralytics Docs][6])
通用服务端 / C++ / 跨平台：优先 ONNX。官方单独给了 ONNX 导出页，并写了"约 43% faster inference"。([Ultralytics Docs][7])
Intel CPU / GPU / NPU：优先 OpenVINO。官方写明可带来最多约 3x CPU speedup。([Ultralytics Docs][8])
Apple 设备：可导出 CoreML。([Ultralytics Docs][2])
移动端 / 嵌入式：可用 TFLite；但要注意不是所有格式都支持端到端输出。([Ultralytics Docs][2])

7. 部署注意

不是所有导出格式都保留端到端 one-to-one 输出。

支持端到端的主流格式包括 ONNX、TensorRT、CoreML、OpenVINO、TFLite、TF.js、MNN ；

而 NCNN、RKNN、PaddlePaddle、ExecuTorch、IMX、Edge TPU 不支持端到端时，会自动回退到 one-to-many 头，这些推理平台针对你的推理链路里还是需要 NMS。([Ultralytics Docs][4])

8. 总结

YOLO26 的本质，是把 YOLO 做成更适合边缘部署的端到端系统：骨架还是经典 YOLO 三尺度检测，但通过去 DFL、去 NMS、双头训练单头推理、ProgLoss + STAL 和 MuSGD，把训练稳定性、导出兼容性和 CPU 端延迟一起优化了。官方定位也很明确：它不是为了"最复杂"，而是为了"更轻、更快、更好部署"。([Ultralytics Docs][2])

参考链接：

1\]: https://github.com/orgs/ultralytics/discussions/22214 "models/yolo26/ · ultralytics · Discussion #22214 · GitHub" \[2\]: https://docs.ultralytics.com/models/yolo26/ "Ultralytics YOLO26 - Ultralytics YOLO Docs" \[3\]: https://raw.githubusercontent.com/ultralytics/ultralytics/main/ultralytics/cfg/models/26/yolo26.yaml "raw.githubusercontent.com" \[4\]: https://docs.ultralytics.com/guides/end2end-detection/ "Understanding End-to-End Detection in Ultralytics YOLO26" \[5\]: https://docs.ultralytics.com/modes/export/ "Model Export with Ultralytics YOLO - Ultralytics YOLO Docs" \[6\]: https://docs.ultralytics.com/integrations/tensorrt/ "TensorRT Export for YOLO26 Models - Ultralytics YOLO Docs" \[7\]: https://docs.ultralytics.com/integrations/onnx/ "ONNX Export for YOLO26 Models - Ultralytics YOLO Docs" \[8\]: https://docs.ultralytics.com/integrations/openvino/ "Intel OpenVINO Export - Ultralytics YOLO Docs"