yolo系列综述

"YOLO 系列",已经不是一条单线版本史,而是一整个实时单阶段检测家族 。它的共同点是把检测做成一次前向里的密集预测;差异主要体现在 4 条主轴:anchor 还是 anchor-free、耦合头还是 decoupled head、是否依赖 NMS、是否只做 closed-set 检测还是扩展到多任务 / open-vocabulary。(arXiv1)

1. YOLO 到底是什么

YOLO 最早由 Redmon 等人在 2015 年提出,核心思想是把目标检测从"先找候选框、再分类"的两阶段流程,改成直接从整张图回归边框和类别 ,单次前向即可输出结果。论文自己也强调了它极快,但早期版本相对更容易出现定位误差。(arXiv1)

你可以把一个典型 YOLO 理解成三段:backbone 负责提特征,neck 负责多尺度融合,head 负责输出类别、置信度和框;传统版本最后还要接 NMS 去重,而较新的版本开始往端到端 NMS-free走。这个演化在 YOLOv3 的多尺度预测、YOLOX/YOLOv8 的 anchor-free 头、YOLOv10/YOLO26 的 NMS-free 设计里非常明显。

2. 发展脉络怎么记最清楚

最不容易混淆的记法,是把 YOLO 家族分成 4 段:

第一段:原始论文主线

YOLOv1、YOLOv2/YOLO9000、YOLOv3 是 Redmon/Farhadi 主导的原始学术主线。v1 建立了单阶段回归范式;v2/YOLO9000 明确在提高 recall 和 localization,并引入了可检测 9000+ 类的联合训练框架;v3 则把多尺度预测做成标志性设计。(arXiv1)

第二段:Darknet / CSP / 工业增强主线

YOLOv4 把很多"bag of freebies / specials"系统化整合进来,例如 CSP、Mosaic、CIoU、SAT、Mish,在当时把实时检测的精度-速度边界又往前推了一步。YOLOv7 则继续沿这条线强调"trainable bag-of-freebies",并在其论文中给出很强的速度精度结果。(arXiv2)

第三段:工程与产业分支

YOLOv5 是 Ultralytics 的 PyTorch 路线,特点是工程生态非常成熟;YOLOv6 是 Meituan 面向工业应用的版本,论文就明确写了 "for industrial applications";YOLOX 虽然不是按整数版本号命名,但它对后续 YOLO 的影响很大,因为它把 anchor-free、decoupled head、SimOTA 组合成了一套非常有代表性的现代设计。(Ultralytics Docs3)

第四段:现代 Ultralytics / end-to-end / open-vocab

YOLOv8 把 Ultralytics 主线切到 anchor-free split head ;YOLO11 是 2024 年的多任务强化版本;YOLO26 是 2026 年初的最新 Ultralytics 版本,主打边缘部署、NMS-free、去 DFL、CPU 速度提升 。同时,YOLO-World 和 YOLOE 则把 YOLO 扩展到了 open-vocabulary。(Ultralytics Docs4)

3. 按版本看,每一代到底改了什么

YOLOv1

本质上是"把检测当回归来做"的开山版本。优点是简单、快、端到端;缺点是早期定位能力和小目标能力不够强。(arXiv1)

YOLOv2 / YOLO9000

这代的关键词是:更好的 recall / localization、更多类别、工程化训练策略。YOLO9000 还把分类和检测联合起来,做到了 9000+ 类实时检测。

YOLOv3

这代最重要的是三尺度预测,并借鉴了 FPN 式思路做特征融合。直到今天,"多尺度输出"依然是大多数 YOLO 检测器的基本盘。

YOLOv4

这代不是单点创新,而是把许多有效训练和结构技巧系统打包:CSP、Mosaic、CIoU、SAT、Mish、DropBlock 等。你可以把它理解成"把 YOLO 做成真正成熟的工业级 CNN 检测器"。(arXiv2)

YOLOX

严格说它不是"v5 之后的官方下一代",但在方法论上很重要。它把 YOLO 切到 anchor-free ,同时使用 decoupled headSimOTA,这套组合后来影响了很多现代 YOLO 实现。(arXiv5)

YOLOv5

YOLOv5 更像是工程生态节点而不是学术里程碑:PyTorch、文档全、部署格式多、上手门槛低,所以它在工业和开源社区长期很流行。(Ultralytics Docs3)

YOLOv6

YOLOv6 从一开始就把目标写得很明确:industrial applications。它强调部署友好、量化友好和不同规模模型的工业落地效率。(arXiv6)

YOLOv7

YOLOv7 的核心标签是 trainable bag-of-freebies,本质上是在不牺牲实时性的前提下把训练策略和结构设计再推一层。(arXiv7)

YOLOv8

YOLOv8 是 Ultralytics 主线的重要拐点,最值得记的不是"比 v5 准多少",而是它明确转成了 anchor-free split head,同时把检测、分割、姿态、OBB、分类做成统一生态。(Ultralytics Docs4)

YOLOv9

YOLOv9 的关键词是 PGI(Programmable Gradient Information)GELAN。它关注的是深层网络里信息丢失、梯度传递和参数利用效率问题。(arXiv8)

YOLOv10

YOLOv10 的代表性变化是 consistent dual assignments + NMS-free end-to-end。也就是说,它不再把 NMS 当作理所当然的后处理,而是试图把检测做成真正端到端。(arXiv9)

YOLO11

YOLO11 是 Ultralytics 在 2024 年发布的多任务主力版本,支持检测、分割、姿态、OBB、分类。官方文档强调它在 backbone/neck 和训练管线上的改进,并给出"YOLO11m 在 COCO 上比 YOLOv8m 更高 mAP、参数少 22%"的对比。(Ultralytics Docs10)

YOLO26

截至 2026 年 4 月,Ultralytics 文档把 YOLO26 列为最新版本,发布时间写的是 2026 年 1 月 。它最鲜明的方向不是再堆复杂模块,而是为边缘部署重构:去掉 DFL、原生 NMS-free、强调小目标优化和 CPU 推理速度,文档称 CPU 推理最高可快 43%。(Ultralytics Docs11)

4. 4 条技术演化主线

第一条:从 anchor-based 到 anchor-free。

YOLOv2 / v3 仍明显带有 anchor 体系;YOLOX 和 YOLOv8 则把 anchor-free 方案做成主流,因为它通常更简单,也更利于现代训练与部署。

第二条:从单尺度 / 弱多尺度到稳定多尺度。

YOLOv3 的 3-scale 预测是一个关键节点,此后多尺度几乎成了 YOLO 检测的标配,因为它直接关系到小中大目标的兼顾能力。

第三条:从 NMS 依赖到 NMS-free。

很长时间里 YOLO 都默认需要 NMS;YOLOv10 开始把端到端 NMS-free 做成核心卖点,YOLO26 则继续沿这个方向把部署链路再简化。(arXiv9)

第四条:从"只做检测"到"统一多任务 + 开放词表"。

Ultralytics 的 v8、11、26 都支持检测、分割、姿态、分类和 OBB;YOLO-World、YOLOE 则进一步把文本/图像提示引入 YOLO,让模型不再被固定类别表绑死。(Ultralytics Docs4)

5. YOLO-World 和 YOLOE,为什么值得单独说

YOLO-World 是把 YOLOv8 扩展到 open-vocabulary detection 的代表作,官方文档明确写它是基于 YOLOv8 的实时开放词表检测,并采用 "prompt-then-detect" 和 offline vocabulary 的方式提高效率。(Ultralytics Docs12)

YOLOE 则更进一步,做成了可提示的开放词表检测与分割 。Ultralytics 文档写得很清楚:它建立在 YOLOv10 之上,受 YOLO-World 启发,支持文本、图像或内部词表提示;而 YOLOE26 则把这种 open-vocab 能力和 YOLO26 的 NMS-free 边缘部署路线结合起来。(Ultralytics Docs13)

6. 2026 年选型参考

  • 固定类别检测 ,而且想要生态稳定、文档成熟、任务全 ,优先看 YOLO11 ;Ultralytics 自己也把 YOLO11 和 YOLO26 都列为稳定生产可选项。(Ultralytics Docs11)

  • 更看重边缘端、CPU、导出兼容、低功耗设备 ,那现在更值得优先评估的是 YOLO26,因为它的设计目标本来就是 edge-first:无 NMS、无 DFL、导出格式广、CPU 推理更快。(Ultralytics Docs14)

  • 开放类别 / 零样本 / 长尾识别 ,比如"用文本提示找任意商品、任意零件、任意工具",那方向就不是普通 YOLO11/26 检测,而是 YOLO-World 或 YOLOE。前者更像高效 open-vocab detector,后者则更进一步做到了 open-vocab detection + segmentation,并且继承了 YOLO 的实时性。(Ultralytics Docs12)

  • 论文复现或学术对比,那就要看你要对齐哪篇 paper:YOLOv7 对应 bag-of-freebies 路线,YOLOv9 对应 PGI/GELAN,YOLOv10 对应 end-to-end NMS-free。不要把不同仓库、不同训练 recipe、不同后端下的数字直接横比。这个不是版本号问题,而是实验协议问题。(arXiv7)

7. 实用的记忆法

  • v1:提出 YOLO 范式。(arXiv1)
  • v2:补 recall / localization,做 YOLO9000。
  • v3:三尺度预测成型。
  • v4:系统化 bag-of-freebies。(arXiv2)
  • YOLOX:anchor-free + decoupled head + SimOTA。(arXiv5)
  • v5:Ultralytics 工程生态爆发点。(Ultralytics Docs3)
  • v6:工业部署导向。(arXiv6)
  • v7:trainable bag-of-freebies。(arXiv7)
  • v8:Ultralytics anchor-free 统一多任务。(Ultralytics Docs4)
  • v9:PGI + GELAN。(arXiv8)
  • v10:NMS-free end-to-end。(arXiv9)
  • v11:更成熟的多任务生产线。(Ultralytics Docs10)
  • v26:边缘端重构版 Ultralytics 最新主线。(Ultralytics Docs11)
  • YOLO-World / YOLOE:open-vocabulary 方向。(Ultralytics Docs12)

参考链接:

1: https://arxiv.org/abs/1506.02640 "1506.02640 You Only Look Once: Unified, Real-Time Object Detection"

2: https://arxiv.org/abs/2004.10934 "2004.10934 YOLOv4: Optimal Speed and Accuracy of Object Detection"

3: https://docs.ultralytics.com/yolov5/ "Comprehensive Guide to Ultralytics YOLOv5 - Ultralytics YOLO Docs"

4: https://docs.ultralytics.com/models/yolov8/ "Explore Ultralytics YOLOv8 - Ultralytics YOLO Docs"

5: https://arxiv.org/abs/2107.08430 "2107.08430 YOLOX: Exceeding YOLO Series in 2021"

6: https://arxiv.org/abs/2209.02976 "2209.02976 YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications"

7: https://arxiv.org/abs/2207.02696 "2207.02696 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"

8: https://arxiv.org/abs/2402.13616 "2402.13616 YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information"

9: https://arxiv.org/abs/2405.14458?utm_source=chatgpt.com "YOLOv10: Real-Time End-to-End Object Detection"

10: https://docs.ultralytics.com/models/yolo11/ "Ultralytics YOLO11 - Ultralytics YOLO Docs"

11: https://docs.ultralytics.com/models/ "Models Supported by Ultralytics - Ultralytics YOLO Docs"

12: https://docs.ultralytics.com/models/yolo-world/ "YOLO-World Model - Ultralytics YOLO Docs"

13: https://docs.ultralytics.com/models/yoloe/ "YOLOE: Real-Time Seeing Anything - Ultralytics YOLO Docs"

14: https://docs.ultralytics.com/models/yolo26/ "Ultralytics YOLO26 - Ultralytics YOLO Docs"

相关推荐
西西弗Sisyphus5 小时前
YOLO26 自定义损失函数 分类任务自定义损失的接口约定
yolo·yolo26
stsdddd7 小时前
YOLO系列目标检测数据集大全【第二十二期】
yolo·目标检测·目标跟踪
王小王-1238 小时前
基于 YOLOv8 与 Faster R-CNN 的红外图像行人检测系统设计与实现
yolo·目标检测·cnn·fasterrcnn·红外行人检测
stsdddd9 小时前
YOLO系列目标检测数据集大全【第二十三期】
yolo·目标检测·目标跟踪
YOLO数据集集合14 小时前
无人机航拍桥梁巡检数据集 | 桥梁结构缺陷检测 深度学习目标检测数据10338期
深度学习·yolo·目标检测·计算机视觉·无人机
前网易架构师-高司机14 小时前
带标注的薄荷病叶数据集,识别率98.8%,3533张图,支持yolo,coco json,voc xml,文末有模型训练代码
yolo·数据集·缺陷·薄荷·叶子·风干·变质
爱睡懒觉的焦糖玛奇朵15 小时前
【视觉检测之人员奔跑检测算法开发思路】
人工智能·python·深度学习·算法·yolo·视觉检测
叫我:松哥15 小时前
基于深度学习的辣椒叶片病害识别系统设计实现,融合CBAM注意力机制的改进ResNet-50模型和YOLO检测,准确率达96%
图像处理·人工智能·深度学习·yolo·flask·bootstrap·注意力机制
爱睡懒觉的焦糖玛奇朵15 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具Dataset Cleaner】
人工智能·python·学习·算法·yolo·音视频
YOLO数据集集合1 天前
无人机航拍街道巡检数据集 | 空中视角车辆检测、交通流量统计、违停识别、智能交通YOLO数据集10399期
深度学习·yolo·目标检测·无人机