【Datawhale组队学习202506】YOLO-Master task02 YOLO系列发展线

系列文章目录

文章目录

系列文章目录
前言
[V1-2015-Joseph Redmon](#V1-2015-Joseph Redmon)
[V2-2016-Joseph Redmon](#V2-2016-Joseph Redmon)
[V3-2018-Joseph Redmon](#V3-2018-Joseph Redmon)
[YOLO 之父的退出](#YOLO 之父的退出)
[V4-202004-Chien-Yao Wang](#V4-202004-Chien-Yao Wang)
[V5-20200609-Ultralytics 公司](#V5-20200609-Ultralytics 公司)
V6-20220623-美团
[V7-2022-Chien-Yao Wang](#V7-2022-Chien-Yao Wang)
[V8-20230110-Ultralytics 公司](#V8-20230110-Ultralytics 公司)
[V9-2024-Chien-Yao Wang](#V9-2024-Chien-Yao Wang)
V10-2024-清华大学
[11-20240930-Ultralytics 公司](#11-20240930-Ultralytics 公司)
V12-202502
总结

前言

图片来源

YOLO(You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（Joseph Redmon） 和 阿里-法哈迪（Ali Farhadi） 开发。

V1-2015-Joseph Redmon

发布时间：2015
论文产出： You Only Look Once: Unified, Real-Time Object Detection
代码仓库
Ali Farhadi是YOLO之父 Joseph Redmon的指导老师。
将目标检测简化为单次图像处理任务，从像素回归预测物体的边界框坐标和类别概率。
首次将目标检测任务建模为端到端的回归问题，通过单个 CNN 直接预测边界框坐标和类别概率，跨越了传统两阶段如R-CNN 的区域提议机制。
将输入图像划分为 S × S S \times S S×S 网格(如 7 × 7 7 \times 7 7×7)
每个网格单元预测 B 个边界框。（Bounding Boxes） 和 1 个类别概率分布 ，边界框包含坐标（x, y, w, h） 和 置信度（confidence score）。
设计统一的损失函数，联合优化边界框定位误差 、置信度误差 和分类误差。

V2-2016-Joseph Redmon

发布时间：2016
论文产出：yolo9000: Better, Faster, Stronger
代码仓库
真正名称叫 YOLO9000。
在每个卷积层后加入批量归一化（Batch Normalization），提升模型收敛速度、稳定性和泛化能力。
先在 ImageNet 上以 448 × 448 448 \times 448 448×448 的分辨率微调分类网络 10 个 epochs，再迁移到检测网络。
引入Faster R-CNN的锚框（Anchor） 概念，移除YOLOv1的全连接层。

V3-2018-Joseph Redmon

发布时间：2018
论文产出：yolov3: An Incremental Improvement
代码仓库
引入 3 种不同尺度的预测层分别检测大、中、小目标。
设计更深的骨干网络 Darknet-53（含53层卷积），结合残差连接（Residual Blocks）。
由于v3版本支持单目标多标签分类 （如一个目标既可以被分类为"人"也可以被分类为"女人"），而之前版本中使用的Softmax要求单目标单标签并且标签直接要相互独立、没有交集，因此使用独立的逻辑回归分类器（Logistic Regression Classifier) 替代了Softmax，而在逻辑回归分类器中，使用二元交叉熵损失（Binary Cross-entropy Loss) 来训练分类器预测边界框。

YOLO 之父的退出

YOLO算法作为目标检测领域的开创性成果，在计算机视觉领域具有里程碑意义。其核心价值不仅体现在首创性设计理念带来的持久生命力，更在于构建了开放性的技术生态体系。
尽管原作者已退出直接优化，但全球研究群体通过持续改进算法精度与效率，使其在工业界和学术界保持领先地位。
这种去发展模式反而激发了更广泛的技术创新，证明了YOLO已从个人研究成果进化为具有自我迭代能力的公共技术平台，展现出强大的生态活力和技术延展性。

V4-202004-Chien-Yao Wang

发布时间：2020
论文产出：yolov4: Optimal Speed and Accuracy of Object Detection
代码仓库
骨干网络优化 :Mish激活函数：采用平滑非单调激活函数
SPP模块：多尺度最大池化（5×5、9×9、13×13）融合不同感受野特征。
PANet路径聚合：使用PANet改进FPN，实现双向特征融合，增强浅层信息传递。
自对抗训练（SAT）：对抗扰动生成+微调两阶段训练。

V5-20200609-Ultralytics 公司

发布时间：2020
论文产出：无
代码仓库
自适应锚框计算（AutoAnchor）：在训练前自动分析数据集并优化 Anchor Box 的尺寸。
引入 4 图拼接的 Mosaic 数据增强方法，结合随机裁剪、缩放、色调变换，提升小目标检测和泛化能力。
采用 Cross Stage Partial Network (CSPDarknet53) 作为骨干网络。
采用 CIOU Loss 替代 MSE 作为边界框回归损失。
支持 FP16/INT8 训练加速，并提供 TFLite/ONNX 等轻量化部署格式。

V6-20220623-美团

发布时间：2022
论文产出：yolov6: A Single-Stage Object Detection Framework for Industrial Applications
代码仓库
2022年9月5日，美团发布了 YOLOv6 2.0版本信息来源
YOLOv6 v3.0: A Full-Scale Reloading
提出 RepVGG-style 骨干网络 ，通过 重参数化技术（RepOpt） 实现训练时多分支结构与推理时单路径的高效转换。
Rep-PAN Neck: 采用 PAN 拓扑结构，并使用 RepBlock 或 CSPStackRep Block 进行增强。
分类损失函数: 采用 VariFocal Loss (VFL)。
框回归损失函数: 小模型使用 SIoU Loss，大模型使用 GIoU Loss，大模型还引入 DFL (Distribution Focal Loss)。
YOLOv6 结合了 Mosaic、MixUp 和 RandomAffine 等多种数据增强策略。
使用 RepOptimizer 训练模型，获得更适合 PTQ 的权重分布，提升量化性能。

V7-2022-Chien-Yao Wang

发布时间：2022
论文产出：yolov7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors
代码仓库
YOLOv4 的开发团队在美团推出 YOLOv6 不久后的2个礼拜，发布了YOLOv7。
扩展的高效层聚合网络（E-ELAN） ：改进 ELAN 结构，通过 分组卷积 和 动态通道重组 增强特征复用效率，提升骨干网络（CSPDarknet）的学习能力。
提出 动态软匹配策略（DSM），根据预测框与真实框的联合置信度动态分配正负样本，缓解人工阈值设定的局限性。
在不增加推理成本的前提下，通过 多分支辅助训练头（Aux Head） 和 梯度传播优化 提升主检测头的性能

V8-20230110-Ultralytics 公司

发布时间：2023
论文产出：无
代码仓库
Ultralytics 公司发布了YOLOv8，这次该公司还是没有发表论文。YOLOv8是个模型簇，从小到大包括：yolov8n、yolov8s、yolov8m、yolov8l、yolov8x等。
统一任务接口（Unified Task Interface） ：支持 目标检测 、实例分割 、关键点检测 、分类等多任务统一框架。
采用 动态网络设计，通过配置文件（YAML）灵活调整骨干网络、检测头、损失函数等组件，适配不同任务需求。
DFL（Distribution Focal Loss）：将边界框回归建模为概率分布学习，提升定位精度。
Task-Aligned Assigner：根据分类置信度与回归IoU动态分配正样本，优化任务一致性。
支持 TensorRT、ONNX、CoreML、OpenVINO 等格式一键导出

V9-2024-Chien-Yao Wang

发布时间：2024
论文产出：yolov9: Learning What You Want to Learn Using Programmable Gradient Information
代码仓库
中国台湾 Academia Sinica、台北科技大学等机构联合发布了YOLOv9（其核心人员仍旧是YOLOv4团队成员）。v9是在v7的基础上进行进一步改进。
可编程梯度信息（PGI, Programmable Gradient Information） ： 辅助可逆分支（Auxiliary Reversible Branch）：通过引入可逆架构生成可靠的梯度信息，缓解深度网络中的信息瓶颈问题，确保主分支在反向传播时能接收完整的目标关联信息。
多级辅助信息（Multi-level Auxiliary Information）：整合来自不同特征金字塔层次的梯度信息。
广义高效层聚合网络（GELAN, Generalized Efficient Layer Aggregation Network）：结合CSPNet与ELAN的优势，允许用户根据硬件需求自由替换卷积块（如CSP、Res、Dark块），支持动态调整网络深度与宽度。

V10-2024-清华大学

发布时间：2024
论文产出：yolov10: Real-Time End-to-End Object Detection
代码仓库
清华大学团队的研究者们对 v8 的框架进行优化，提出YOLOv10。
一致动态双重分配（Consistent Dual Assignments） ：训练阶段联合优化一对多分支（提供密集监督）和一对一分支（消除冗余预测），推理阶段仅保留一对一分支，彻底移除NMS后处理。
深度可分离分类头

11-20240930-Ultralytics 公司

发布时间：2024年9月30日
论文产出：无
代码仓库：YOLO系列官方团队 Ultralytics
是YOLO11而不是 YOLOv11。
YOLO11 是 YOLO 系列在 2025 年之前的 SOTA 模型，基于前代版本进行了全面升级，提升了性能与灵活性。具体指标请访问其文档：yolo11 performance-metrics
增强特征提取能力.
广泛适用于 目标检测、实例分割、图像分类、姿态估计、定向边界框检测 等视觉任务.
引入了 C3k2 模块，做到了更快的处理速度和更高的参数效率。C3k2 是一种** Cross-Stage Partial (CSP) Bottleneck** 的高效实现。它取代了 Backbone和 Neck中的 C2F 块，并采用两个较小的卷积而不是一个大型卷积。
在 Spatial Pyramid Pooling-Fast(SPPF)模块之后引入 C2 Position-Sensitive Attention (C2PSA)模块，以增强空间注意力。

V12-202502

arxiv
github
docs
新的架构，包含了注意力机制如 Area Attention , R-ELAN , 和 FlashAttention。
全面的任务支持：目标检测 object detection ， 分割 segmentation ，姿态估计 pose estimation ，分类 classification ，定向边界框检测 oriented bounding box (OBB) detection

总结

深入了解YOLO的历史。