yolo系列综述 - 技术栈

"YOLO 系列"，已经不是一条单线版本史，而是一整个实时单阶段检测家族 。它的共同点是把检测做成一次前向里的密集预测；差异主要体现在 4 条主轴：anchor 还是 anchor-free、耦合头还是 decoupled head、是否依赖 NMS、是否只做 closed-set 检测还是扩展到多任务 / open-vocabulary。( $arXiv$ $1$ )

1. YOLO 到底是什么

YOLO 最早由 Redmon 等人在 2015 年提出，核心思想是把目标检测从"先找候选框、再分类"的两阶段流程，改成直接从整张图回归边框和类别 ，单次前向即可输出结果。论文自己也强调了它极快，但早期版本相对更容易出现定位误差。( $arXiv$ $1$ )

你可以把一个典型 YOLO 理解成三段：backbone 负责提特征，neck 负责多尺度融合，head 负责输出类别、置信度和框；传统版本最后还要接 NMS 去重，而较新的版本开始往端到端 NMS-free走。这个演化在 YOLOv3 的多尺度预测、YOLOX/YOLOv8 的 anchor-free 头、YOLOv10/YOLO26 的 NMS-free 设计里非常明显。

2. 发展脉络怎么记最清楚

最不容易混淆的记法，是把 YOLO 家族分成 4 段：

第一段：原始论文主线

YOLOv1、YOLOv2/YOLO9000、YOLOv3 是 Redmon/Farhadi 主导的原始学术主线。v1 建立了单阶段回归范式；v2/YOLO9000 明确在提高 recall 和 localization，并引入了可检测 9000+ 类的联合训练框架；v3 则把多尺度预测做成标志性设计。( $arXiv$ $1$ )

第二段：Darknet / CSP / 工业增强主线

YOLOv4 把很多"bag of freebies / specials"系统化整合进来，例如 CSP、Mosaic、CIoU、SAT、Mish，在当时把实时检测的精度-速度边界又往前推了一步。YOLOv7 则继续沿这条线强调"trainable bag-of-freebies"，并在其论文中给出很强的速度精度结果。( $arXiv$ $2$ )

第三段：工程与产业分支

YOLOv5 是 Ultralytics 的 PyTorch 路线，特点是工程生态非常成熟；YOLOv6 是 Meituan 面向工业应用的版本，论文就明确写了 "for industrial applications"；YOLOX 虽然不是按整数版本号命名，但它对后续 YOLO 的影响很大，因为它把 anchor-free、decoupled head、SimOTA 组合成了一套非常有代表性的现代设计。( $Ultralytics Docs$ $3$ )

第四段：现代 Ultralytics / end-to-end / open-vocab

YOLOv8 把 Ultralytics 主线切到 anchor-free split head ；YOLO11 是 2024 年的多任务强化版本；YOLO26 是 2026 年初的最新 Ultralytics 版本，主打边缘部署、NMS-free、去 DFL、CPU 速度提升 。同时，YOLO-World 和 YOLOE 则把 YOLO 扩展到了 open-vocabulary。( $Ultralytics Docs$ $4$ )

3. 按版本看，每一代到底改了什么

YOLOv1

本质上是"把检测当回归来做"的开山版本。优点是简单、快、端到端；缺点是早期定位能力和小目标能力不够强。( $arXiv$ $1$ )

YOLOv2 / YOLO9000

这代的关键词是：更好的 recall / localization、更多类别、工程化训练策略。YOLO9000 还把分类和检测联合起来，做到了 9000+ 类实时检测。

YOLOv3

这代最重要的是三尺度预测，并借鉴了 FPN 式思路做特征融合。直到今天，"多尺度输出"依然是大多数 YOLO 检测器的基本盘。

YOLOv4

这代不是单点创新，而是把许多有效训练和结构技巧系统打包：CSP、Mosaic、CIoU、SAT、Mish、DropBlock 等。你可以把它理解成"把 YOLO 做成真正成熟的工业级 CNN 检测器"。( $arXiv$ $2$ )

YOLOX

严格说它不是"v5 之后的官方下一代"，但在方法论上很重要。它把 YOLO 切到 anchor-free ，同时使用 decoupled head 和 SimOTA，这套组合后来影响了很多现代 YOLO 实现。( $arXiv$ $5$ )

YOLOv5

YOLOv5 更像是工程生态节点而不是学术里程碑：PyTorch、文档全、部署格式多、上手门槛低，所以它在工业和开源社区长期很流行。( $Ultralytics Docs$ $3$ )

YOLOv6

YOLOv6 从一开始就把目标写得很明确：industrial applications。它强调部署友好、量化友好和不同规模模型的工业落地效率。( $arXiv$ $6$ )

YOLOv7

YOLOv7 的核心标签是 trainable bag-of-freebies，本质上是在不牺牲实时性的前提下把训练策略和结构设计再推一层。( $arXiv$ $7$ )

YOLOv8

YOLOv8 是 Ultralytics 主线的重要拐点，最值得记的不是"比 v5 准多少"，而是它明确转成了 anchor-free split head，同时把检测、分割、姿态、OBB、分类做成统一生态。( $Ultralytics Docs$ $4$ )

YOLOv9

YOLOv9 的关键词是 PGI（Programmable Gradient Information） 和 GELAN。它关注的是深层网络里信息丢失、梯度传递和参数利用效率问题。( $arXiv$ $8$ )

YOLOv10

YOLOv10 的代表性变化是 consistent dual assignments + NMS-free end-to-end。也就是说，它不再把 NMS 当作理所当然的后处理，而是试图把检测做成真正端到端。( $arXiv$ $9$ )

YOLO11

YOLO11 是 Ultralytics 在 2024 年发布的多任务主力版本，支持检测、分割、姿态、OBB、分类。官方文档强调它在 backbone/neck 和训练管线上的改进，并给出"YOLO11m 在 COCO 上比 YOLOv8m 更高 mAP、参数少 22%"的对比。( $Ultralytics Docs$ $10$ )

YOLO26

截至 2026 年 4 月，Ultralytics 文档把 YOLO26 列为最新版本，发布时间写的是 2026 年 1 月 。它最鲜明的方向不是再堆复杂模块，而是为边缘部署重构：去掉 DFL、原生 NMS-free、强调小目标优化和 CPU 推理速度，文档称 CPU 推理最高可快 43%。( $Ultralytics Docs$ $11$ )

4. 4 条技术演化主线

第一条：从 anchor-based 到 anchor-free。

YOLOv2 / v3 仍明显带有 anchor 体系；YOLOX 和 YOLOv8 则把 anchor-free 方案做成主流，因为它通常更简单，也更利于现代训练与部署。

第二条：从单尺度 / 弱多尺度到稳定多尺度。

YOLOv3 的 3-scale 预测是一个关键节点，此后多尺度几乎成了 YOLO 检测的标配，因为它直接关系到小中大目标的兼顾能力。

第三条：从 NMS 依赖到 NMS-free。

很长时间里 YOLO 都默认需要 NMS；YOLOv10 开始把端到端 NMS-free 做成核心卖点，YOLO26 则继续沿这个方向把部署链路再简化。( $arXiv$ $9$ )

第四条：从"只做检测"到"统一多任务 + 开放词表"。

Ultralytics 的 v8、11、26 都支持检测、分割、姿态、分类和 OBB；YOLO-World、YOLOE 则进一步把文本/图像提示引入 YOLO，让模型不再被固定类别表绑死。( $Ultralytics Docs$ $4$ )

5. YOLO-World 和 YOLOE，为什么值得单独说

YOLO-World 是把 YOLOv8 扩展到 open-vocabulary detection 的代表作，官方文档明确写它是基于 YOLOv8 的实时开放词表检测，并采用 "prompt-then-detect" 和 offline vocabulary 的方式提高效率。( $Ultralytics Docs$ $12$ )

YOLOE 则更进一步，做成了可提示的开放词表检测与分割 。Ultralytics 文档写得很清楚：它建立在 YOLOv10 之上，受 YOLO-World 启发，支持文本、图像或内部词表提示；而 YOLOE26 则把这种 open-vocab 能力和 YOLO26 的 NMS-free 边缘部署路线结合起来。( $Ultralytics Docs$ $13$ )

6. 2026 年选型参考

固定类别检测 ，而且想要生态稳定、文档成熟、任务全 ，优先看 YOLO11 ；Ultralytics 自己也把 YOLO11 和 YOLO26 都列为稳定生产可选项。( $Ultralytics Docs$ $11$ )
更看重边缘端、CPU、导出兼容、低功耗设备 ，那现在更值得优先评估的是 YOLO26，因为它的设计目标本来就是 edge-first：无 NMS、无 DFL、导出格式广、CPU 推理更快。( $Ultralytics Docs$ $14$ )
开放类别 / 零样本 / 长尾识别 ，比如"用文本提示找任意商品、任意零件、任意工具"，那方向就不是普通 YOLO11/26 检测，而是 YOLO-World 或 YOLOE。前者更像高效 open-vocab detector，后者则更进一步做到了 open-vocab detection + segmentation，并且继承了 YOLO 的实时性。( $Ultralytics Docs$ $12$ )
论文复现或学术对比，那就要看你要对齐哪篇 paper：YOLOv7 对应 bag-of-freebies 路线，YOLOv9 对应 PGI/GELAN，YOLOv10 对应 end-to-end NMS-free。不要把不同仓库、不同训练 recipe、不同后端下的数字直接横比。这个不是版本号问题，而是实验协议问题。( $arXiv$ $7$ )

7. 实用的记忆法

v1：提出 YOLO 范式。( $arXiv$ $1$ )
v2：补 recall / localization，做 YOLO9000。
v3：三尺度预测成型。
v4：系统化 bag-of-freebies。( $arXiv$ $2$ )
YOLOX：anchor-free + decoupled head + SimOTA。( $arXiv$ $5$ )
v5：Ultralytics 工程生态爆发点。( $Ultralytics Docs$ $3$ )
v6：工业部署导向。( $arXiv$ $6$ )
v7：trainable bag-of-freebies。( $arXiv$ $7$ )
v8：Ultralytics anchor-free 统一多任务。( $Ultralytics Docs$ $4$ )
v9：PGI + GELAN。( $arXiv$ $8$ )
v10：NMS-free end-to-end。( $arXiv$ $9$ )
v11：更成熟的多任务生产线。( $Ultralytics Docs$ $10$ )
v26：边缘端重构版 Ultralytics 最新主线。( $Ultralytics Docs$ $11$ )
YOLO-World / YOLOE：open-vocabulary 方向。( $Ultralytics Docs$ $12$ )

参考链接：

$1$ : https://arxiv.org/abs/1506.02640 " $1506.02640$ You Only Look Once: Unified, Real-Time Object Detection"

$2$ : https://arxiv.org/abs/2004.10934 " $2004.10934$ YOLOv4: Optimal Speed and Accuracy of Object Detection"

$3$ : https://docs.ultralytics.com/yolov5/ "Comprehensive Guide to Ultralytics YOLOv5 - Ultralytics YOLO Docs"

$4$ : https://docs.ultralytics.com/models/yolov8/ "Explore Ultralytics YOLOv8 - Ultralytics YOLO Docs"

$5$ : https://arxiv.org/abs/2107.08430 " $2107.08430$ YOLOX: Exceeding YOLO Series in 2021"

$6$ : https://arxiv.org/abs/2209.02976 " $2209.02976$ YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications"

$7$ : https://arxiv.org/abs/2207.02696 " $2207.02696$ YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"

$8$ : https://arxiv.org/abs/2402.13616 " $2402.13616$ YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information"

$9$ : https://arxiv.org/abs/2405.14458?utm_source=chatgpt.com "YOLOv10: Real-Time End-to-End Object Detection"

$10$ : https://docs.ultralytics.com/models/yolo11/ "Ultralytics YOLO11 - Ultralytics YOLO Docs"

$11$ : https://docs.ultralytics.com/models/ "Models Supported by Ultralytics - Ultralytics YOLO Docs"

$12$ : https://docs.ultralytics.com/models/yolo-world/ "YOLO-World Model - Ultralytics YOLO Docs"

$13$ : https://docs.ultralytics.com/models/yoloe/ "YOLOE: Real-Time Seeing Anything - Ultralytics YOLO Docs"

$14$ : https://docs.ultralytics.com/models/yolo26/ "Ultralytics YOLO26 - Ultralytics YOLO Docs"