yolov26详细讲解,包括网络结构图、关键创新点、部署

Ultralytics 目前没有给 YOLO26 发布正式研究论文 ,以官方文档、源码和模型 YAML 为准。YOLO26 于 2026-01-14 发布,定位是"为边缘和低功耗设备重新设计"的端到端 YOLO 系列。([GitHub][1])

1. YOLO26 是什么

YOLO26 的主线不是"再堆更大的 backbone",而是三件事一起做:

一,原生端到端、去 NMS

二,去掉 DFL ,让导出和硬件兼容性更简单;

三,加入 ProgLoss + STALMuSGD ,重点提升小目标效果与训练稳定性。官方把它概括成三条设计原则:Simplicity、Deployment Efficiency、Training Innovation。([Ultralytics Docs][2])

2. 网络结构图

YOLO26 检测版的官方结构定义在 ultralytics/cfg/models/26/yolo26.yaml。按这个 YAML 展开,主干和检测头可以画成这样:

text 复制代码
Input
 └─ Backbone
    ├─ Conv(64, 3x3, s=2)              -> P1/2
    ├─ Conv(128, 3x3, s=2)             -> P2/4
    ├─ C3k2(256, c3k=False, e=0.25)
    ├─ Conv(256, 3x3, s=2)             -> P3/8
    ├─ C3k2(512, c3k=False, e=0.25)
    ├─ Conv(512, 3x3, s=2)             -> P4/16
    ├─ C3k2(512, c3k=True)
    ├─ Conv(1024, 3x3, s=2)            -> P5/32
    ├─ C3k2(1024, c3k=True)
    ├─ SPPF(1024, 5, 3, True)
    └─ C2PSA(1024)

 └─ Neck / Head
    ├─ Upsample + Concat(P4) + C3k2    -> 中间特征
    ├─ Upsample + Concat(P3) + C3k2    -> P3/8  small
    ├─ Downsample + Concat + C3k2      -> P4/16 medium
    ├─ Downsample + Concat + C3k2      -> P5/32 large
    └─ Detect(P3, P4, P5)

也就是说,YOLO26 仍然是熟悉的 Backbone + PAN/FPN 风格 Neck + 三尺度 Detect Head ,输出依旧是 P3/8、P4/16、P5/32。它没有改成 DETR 那种单一路线,而是在 YOLO 系列成熟骨架上,把训练、回归和部署路径整体简化。([GitHub][3])

再看 YAML 里的两个特别关键参数:
end2end: True 表示它默认就是端到端检测模式
reg_max: 1 表示它不再使用 DFL 的多 bin 分布回归。这两个参数基本凸显 YOLO26 的设计思路。([GitHub][3])

3. 检测头是怎么工作的

YOLO26 的一个关键工程变化是:训练时双头,推理时单头 。官方的 end-to-end 指南写得很明确:训练时同时存在 One-to-OneOne-to-Many 两个头;推理默认只用 One-to-One 头,输出形状是 (N, 300, 6) ,只需要置信度过滤,不需要 NMS。相对地,One-to-Many 头更像旧 YOLO 风格输出,形状是 (N, nc + 4, 8400) ,需要 NMS。源码文档也说明了 Detect.fuse() 会在推理优化时移除 one-to-many 头。([Ultralytics Docs][4])

这点非常重要,因为它解释了为什么 YOLO26 能做到"部署更简单 ":

不是靠后处理技巧,而是模型本身就按端到端输出设计。([Ultralytics Docs][2])

4. 关键创新点

4.1 去掉 DFL

官方把 DFL Removal 放在首要特性里。原因:DFL 虽然有效,但会增加导出复杂度,也会限制某些边缘设备和低功耗平台的兼容性。YOLO26 直接去掉 DFL,配合 reg_max: 1,让图更简单、回归更直接。([Ultralytics Docs][2])

4.2 原生端到端、无 NMS

YOLO26 的核心卖点就是 End-to-End NMS-Free Inference。官方文档明确说,它直接生成预测结果,不再把 NMS 作为独立后处理阶段,因此延迟更低、部署更轻、集成更稳。官方 FAQ 甚至直接把它列为相对 YOLO11 的首要改进。([Ultralytics Docs][2])

4.3 ProgLoss + STAL

官方没有在主模型页里完整展开这两个缩写,但明确说明 ProgLoss + STAL 是 YOLO26 的新损失策略,目标是提升检测精度,尤其是小目标识别;多个官方对比页都把它和无人机、IoT、航拍等小目标场景联系在一起。([Ultralytics Docs][2])

4.4 MuSGD 优化器

YOLO26 引入了 MuSGD ,官方定义是 SGD + Muon 的混合优化器,并说明灵感来自 Moonshot 的 Kimi K2 训练经验。官方给它的定位很明确:更稳定的训练,更快的收敛。([Ultralytics Docs][2])

4.5 任务专项增强

YOLO26 不是只改检测。官方同时说明:

分割加入了语义分割损失和多尺度 proto

姿态加入了 RLE

OBB 加入了角度损失和改进解码。所以 YOLO26 更像一个统一多任务家族,而不是单一检测模型。([Ultralytics Docs][2])

5. 性能

官方检测表里,640 输入下的 COCO 检测性能大致是:

  • YOLO26n:40.9 mAP, 2.4M 参数, 5.4B FLOPs
  • YOLO26s:48.6 mAP, 9.5M 参数, 20.7B FLOPs
  • YOLO26m:53.1 mAP, 20.4M 参数, 68.2B FLOPs
  • YOLO26l:55.0 mAP, 24.8M 参数, 86.4B FLOPs
  • YOLO26x:57.5 mAP, 55.7M 参数, 193.9B FLOPs。([Ultralytics Docs][2])

端到端部署,官方 end-to-end 指南给出的总结是:默认端到端模式可带来最高约 43% 的 CPU 推理加速 ,代价大约是 ~0.5 mAP 的精度损失。([Ultralytics Docs][4])

6. 部署

YOLO26 的部署思路:先优先走端到端导出 。官方 Export 文档支持导出到 ONNX、TensorRT、CoreML、OpenVINO 等多种格式,并给出统一的 Python / CLI 接口。官方还给出经验值:TensorRT 最多约 5x GPU speedup,ONNX / OpenVINO 最多约 3x CPU speedup。([Ultralytics Docs][5])

最常用的导出方式:

python 复制代码
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="onnx")
model.export(format="engine")   # TensorRT
bash 复制代码
yolo export model=yolo26n.pt format=onnx
yolo export model=yolo26n.pt format=engine

这些都是官方文档直接给出的用法。([Ultralytics Docs][5])

以下平台部署:

  • NVIDIA GPU / Jetson:优先 TensorRT;官方支持 FP16 和 INT8。([Ultralytics Docs][6])
  • 通用服务端 / C++ / 跨平台:优先 ONNX。官方单独给了 ONNX 导出页,并写了"约 43% faster inference"。([Ultralytics Docs][7])
  • Intel CPU / GPU / NPU:优先 OpenVINO。官方写明可带来最多约 3x CPU speedup。([Ultralytics Docs][8])
  • Apple 设备:可导出 CoreML。([Ultralytics Docs][2])
  • 移动端 / 嵌入式:可用 TFLite;但要注意不是所有格式都支持端到端输出。([Ultralytics Docs][2])

7. 部署注意

不是所有导出格式都保留端到端 one-to-one 输出。

支持端到端的主流格式包括 ONNX、TensorRT、CoreML、OpenVINO、TFLite、TF.js、MNN

NCNN、RKNN、PaddlePaddle、ExecuTorch、IMX、Edge TPU 不支持端到端时,会自动回退到 one-to-many 头,这些推理平台针对你的推理链路里还是需要 NMS。([Ultralytics Docs][4])

8. 总结

YOLO26 的本质,是把 YOLO 做成更适合边缘部署的端到端系统:骨架还是经典 YOLO 三尺度检测,但通过去 DFL、去 NMS、双头训练单头推理、ProgLoss + STAL 和 MuSGD,把训练稳定性、导出兼容性和 CPU 端延迟一起优化了。 官方定位也很明确:它不是为了"最复杂",而是为了"更轻、更快、更好部署"。([Ultralytics Docs][2])

参考链接:

1\]: https://github.com/orgs/ultralytics/discussions/22214 "models/yolo26/ · ultralytics · Discussion #22214 · GitHub" \[2\]: https://docs.ultralytics.com/models/yolo26/ "Ultralytics YOLO26 - Ultralytics YOLO Docs" \[3\]: https://raw.githubusercontent.com/ultralytics/ultralytics/main/ultralytics/cfg/models/26/yolo26.yaml "raw.githubusercontent.com" \[4\]: https://docs.ultralytics.com/guides/end2end-detection/ "Understanding End-to-End Detection in Ultralytics YOLO26" \[5\]: https://docs.ultralytics.com/modes/export/ "Model Export with Ultralytics YOLO - Ultralytics YOLO Docs" \[6\]: https://docs.ultralytics.com/integrations/tensorrt/ "TensorRT Export for YOLO26 Models - Ultralytics YOLO Docs" \[7\]: https://docs.ultralytics.com/integrations/onnx/ "ONNX Export for YOLO26 Models - Ultralytics YOLO Docs" \[8\]: https://docs.ultralytics.com/integrations/openvino/ "Intel OpenVINO Export - Ultralytics YOLO Docs"

相关推荐
爱睡懒觉的焦糖玛奇朵5 小时前
【工业级落地算法之打架斗殴检测算法详解】
人工智能·python·深度学习·学习·算法·yolo·计算机视觉
童话名剑1 天前
YOLO v7(学习笔记)
yolo
code_pgf1 天前
yolov9详细讲解,包括网络结构图、关键创新点、部署
人工智能·目标检测
青瓷程序设计1 天前
基于YOLO的布匹缺陷检测系统~Python+目标检测+算法模型+2026原创
python·yolo·目标检测
code_pgf1 天前
yolov8详细讲解,包括网络结构图、关键创新点、部署
网络·人工智能·yolo
张二娃同学1 天前
GitHub 项目创建与 GitHub Desktop 使用教程
服务器·人工智能·深度学习·yolo·github
code_pgf1 天前
yolov7详细讲解,包括网络结构图、关键创新点、部署。
网络·人工智能·yolo
yunhuibin1 天前
yolov3学习之训练原理
人工智能·深度学习·神经网络·yolo
ZhouDevin1 天前
【算法实战】DEIMv2全流程复现
人工智能·python·算法·目标检测·计算机视觉·transformer