【Datawhale组队学习202506】YOLO-Master task02 YOLO系列发展线

系列文章目录


`

文章目录

  • 系列文章目录
  • 前言
  • [V1-2015-Joseph Redmon](#V1-2015-Joseph Redmon)
  • [V2-2016-Joseph Redmon](#V2-2016-Joseph Redmon)
  • [V3-2018-Joseph Redmon](#V3-2018-Joseph Redmon)
  • [YOLO 之父的退出](#YOLO 之父的退出)
  • [V4-202004-Chien-Yao Wang](#V4-202004-Chien-Yao Wang)
  • [V5-20200609-Ultralytics 公司](#V5-20200609-Ultralytics 公司)
  • V6-20220623-美团
  • [V7-2022-Chien-Yao Wang](#V7-2022-Chien-Yao Wang)
  • [V8-20230110-Ultralytics 公司](#V8-20230110-Ultralytics 公司)
  • [V9-2024-Chien-Yao Wang](#V9-2024-Chien-Yao Wang)
  • V10-2024-清华大学
  • [11-20240930-Ultralytics 公司](#11-20240930-Ultralytics 公司)
  • V12-202502
  • 总结

前言


`

图片来源

YOLO(You Only Look Once)是一种流行的物体检测图像分割模型,由华盛顿大学的约瑟夫-雷德蒙(Joseph Redmon)阿里-法哈迪(Ali Farhadi) 开发。


V1-2015-Joseph Redmon

  • 发布时间:2015

  • 论文产出: You Only Look Once: Unified, Real-Time Object Detection

  • 代码仓库

  • Ali Farhadi是YOLO之父 Joseph Redmon的指导老师。

  • 将目标检测简化为单次图像处理任务,从像素回归预测物体的边界框坐标和类别概率。

  • 首次 将目标检测任务建模为端到端的回归问题,通过单个 CNN 直接预测边界框坐标和类别概率,跨越了传统两阶段 如R-CNN 的区域提议机制。

  • 将输入图像划分为 S × S S \times S S×S 网格(如 7 × 7 7 \times 7 7×7)

  • 每个网格单元预测 B 个边界框。(Bounding Boxes)1 个类别概率分布 ,边界框包含坐标(x, y, w, h)置信度(confidence score)

  • 设计统一的损失函数,联合优化边界框定位误差置信度误差分类误差


V2-2016-Joseph Redmon

  • 发布时间:2016

  • 论文产出yolo9000: Better, Faster, Stronger

  • 代码仓库

  • 真正名称叫 YOLO9000

  • 在每个卷积层后加入批量归一化(Batch Normalization),提升模型收敛速度、稳定性和泛化能力。

  • 先在 ImageNet 上以 448 × 448 448 \times 448 448×448 的分辨率微调分类网络 10 个 epochs,再迁移到检测网络。

  • 引入Faster R-CNN的锚框(Anchor) 概念,移除YOLOv1的全连接层。


V3-2018-Joseph Redmon

  • 发布时间:2018

  • 论文产出yolov3: An Incremental Improvement

  • 代码仓库

  • 引入 3 种不同尺度的预测层分别检测大、中、小目标。

  • 设计更深的骨干网络 Darknet-53(含53层卷积),结合残差连接(Residual Blocks)。

  • 由于v3版本支持单目标多标签分类 (如一个目标既可以被分类为"人"也可以被分类为"女人"),而之前版本中使用的Softmax要求单目标单标签并且标签直接要相互独立、没有交集,因此使用独立的逻辑回归分类器(Logistic Regression Classifier) 替代了Softmax,而在逻辑回归分类器中,使用二元交叉熵损失(Binary Cross-entropy Loss) 来训练分类器预测边界框。

YOLO 之父的退出

  • YOLO算法作为目标检测领域的开创性成果,在计算机视觉领域具有里程碑意义。其核心价值不仅体现在首创性设计理念带来的持久生命力,更在于构建了开放性的技术生态体系。
  • 尽管原作者已退出直接优化,但全球研究群体通过持续改进算法精度与效率,使其在工业界和学术界保持领先地位。
  • 这种去发展模式反而激发了更广泛的技术创新,证明了YOLO已从个人研究成果进化为具有自我迭代能力的公共技术平台,展现出强大的生态活力和技术延展性。

V4-202004-Chien-Yao Wang

  • 发布时间:2020

  • 论文产出yolov4: Optimal Speed and Accuracy of Object Detection

  • 代码仓库

  • 骨干网络优化 :Mish激活函数:采用平滑非单调激活函数

  • SPP模块:多尺度最大池化(5×5、9×9、13×13)融合不同感受野特征。

  • PANet路径聚合:使用PANet改进FPN,实现双向特征融合,增强浅层信息传递。

  • 自对抗训练(SAT):对抗扰动生成+微调两阶段训练。


V5-20200609-Ultralytics 公司

  • 发布时间:2020

  • 论文产出:无

  • 代码仓库

  • 自适应锚框计算(AutoAnchor):在训练前自动分析数据集并优化 Anchor Box 的尺寸。

  • 引入 4 图拼接的 Mosaic 数据增强方法,结合随机裁剪、缩放、色调变换,提升小目标检测和泛化能力。

  • 采用 Cross Stage Partial Network (CSPDarknet53) 作为骨干网络。

  • 采用 CIOU Loss 替代 MSE 作为边界框回归损失。

  • 支持 FP16/INT8 训练加速,并提供 TFLite/ONNX 等轻量化部署格式。


V6-20220623-美团

  • 发布时间:2022

  • 论文产出yolov6: A Single-Stage Object Detection Framework for Industrial Applications

  • 代码仓库

  • 2022年9月5日,美团发布了 YOLOv6 2.0版本 信息来源

  • YOLOv6 v3.0: A Full-Scale Reloading

  • 提出 RepVGG-style 骨干网络 ,通过 重参数化技术(RepOpt) 实现训练时多分支结构与推理时单路径的高效转换。

  • Rep-PAN Neck: 采用 PAN 拓扑结构,并使用 RepBlock 或 CSPStackRep Block 进行增强。

  • 分类损失函数: 采用 VariFocal Loss (VFL)。

  • 框回归损失函数: 小模型使用 SIoU Loss,大模型使用 GIoU Loss,大模型还引入 DFL (Distribution Focal Loss)。

  • YOLOv6 结合了 Mosaic、MixUp 和 RandomAffine 等多种数据增强策略。

  • 使用 RepOptimizer 训练模型,获得更适合 PTQ 的权重分布,提升量化性能。


V7-2022-Chien-Yao Wang

  • 发布时间:2022

  • 论文产出yolov7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors

  • 代码仓库

  • YOLOv4 的开发团队在美团推出 YOLOv6 不久后的2个礼拜,发布了YOLOv7

  • 扩展的高效层聚合网络(E-ELAN) : 改进 ELAN 结构,通过 分组卷积动态通道重组 增强特征复用效率,提升骨干网络(CSPDarknet)的学习能力。

  • 提出 动态软匹配策略(DSM),根据预测框与真实框的联合置信度动态分配正负样本,缓解人工阈值设定的局限性。

  • 在不增加推理成本的前提下,通过 多分支辅助训练头(Aux Head)梯度传播优化 提升主检测头的性能


V8-20230110-Ultralytics 公司

  • 发布时间:2023

  • 论文产出:无

  • 代码仓库

  • Ultralytics 公司发布了YOLOv8,这次该公司还是没有发表论文。YOLOv8是个模型簇,从小到大包括:yolov8nyolov8syolov8myolov8lyolov8x等。

  • 统一任务接口(Unified Task Interface) : 支持 目标检测实例分割关键点检测分类 等多任务统一框架。

  • 采用 动态网络设计,通过配置文件(YAML)灵活调整骨干网络、检测头、损失函数等组件,适配不同任务需求。

  • DFL(Distribution Focal Loss):将边界框回归建模为概率分布学习,提升定位精度。

  • Task-Aligned Assigner:根据分类置信度与回归IoU动态分配正样本,优化任务一致性。

  • 支持 TensorRT、ONNX、CoreML、OpenVINO 等格式一键导出


V9-2024-Chien-Yao Wang

  • 发布时间:2024

  • 论文产出yolov9: Learning What You Want to Learn Using Programmable Gradient Information

  • 代码仓库

  • 中国台湾 Academia Sinica、台北科技大学等机构联合发布了YOLOv9(其核心人员仍旧是YOLOv4团队成员)。v9是在v7的基础上进行进一步改进。

  • 可编程梯度信息(PGI, Programmable Gradient Information)辅助可逆分支(Auxiliary Reversible Branch):通过引入可逆架构生成可靠的梯度信息,缓解深度网络中的信息瓶颈问题,确保主分支在反向传播时能接收完整的目标关联信息。

  • 多级辅助信息(Multi-level Auxiliary Information):整合来自不同特征金字塔层次的梯度信息。

  • 广义高效层聚合网络(GELAN, Generalized Efficient Layer Aggregation Network): 结合CSPNet与ELAN的优势,允许用户根据硬件需求自由替换卷积块(如CSP、Res、Dark块),支持动态调整网络深度与宽度。


V10-2024-清华大学

  • 发布时间:2024

  • 论文产出yolov10: Real-Time End-to-End Object Detection

  • 代码仓库

  • 清华大学团队的研究者们对 v8 的框架进行优化,提出YOLOv10

  • 一致动态双重分配(Consistent Dual Assignments) :训练阶段联合优化一对多分支(提供密集监督)和一对一分支(消除冗余预测),推理阶段仅保留一对一分支,彻底移除NMS后处理

  • 深度可分离分类头


11-20240930-Ultralytics 公司

  • 发布时间:2024年9月30日

  • 论文产出:无

  • 代码仓库:YOLO系列官方团队 Ultralytics

  • YOLO11而不是 YOLOv11。

  • YOLO11 是 YOLO 系列在 2025 年之前的 SOTA 模型,基于前代版本进行了全面升级,提升了性能与灵活性。 具体指标请访问其文档:yolo11 performance-metrics

  • 增强特征提取能力.

  • 广泛适用于 目标检测、实例分割、图像分类、姿态估计、定向边界框检测 等视觉任务.

  • 引入了 C3k2 模块,做到了更快的处理速度和更高的参数效率。C3k2 是一种** Cross-Stage Partial (CSP) Bottleneck** 的高效实现。它取代了 Backbone和 Neck中的 C2F 块,并采用两个较小的卷积而不是一个大型卷积。

  • Spatial Pyramid Pooling-Fast(SPPF)模块之后引入 C2 Position-Sensitive Attention (C2PSA)模块,以增强空间注意力。


V12-202502

  • arxiv

  • github

  • docs

  • 新的架构,包含了注意力机制如 Area Attention , R-ELAN , 和 FlashAttention

  • 全面的任务支持:目标检测 object detection分割 segmentation姿态估计 pose estimation分类 classification定向边界框检测 oriented bounding box (OBB) detection

总结

  • 深入了解YOLO的历史。
相关推荐
一ge科研小菜鸡3 分钟前
编程语言的演化与选择:技术浪潮中的理性决策
java·c语言·python
船长@Quant21 分钟前
Plotly图表全面使用指南 -- Displaying Figures in Python
python·plotly·图表·图形库
acstdm26 分钟前
DAY 35 模型可视化与推理
人工智能·python
唐人街都是苦瓜脸37 分钟前
学习Oracle------高可用架构解析
学习·oracle·架构
198938 分钟前
【Dify精讲】第12章:性能优化策略与实践
人工智能·python·深度学习·性能优化·架构·flask·ai编程
华子w90892585939 分钟前
基于 Python Web 应用框架 Django 的在线小说阅读平台设计与实现
前端·python·django
烛阴1 小时前
让你的Python并发飞起来:多线程开发实用技巧大全
前端·python
快手技术2 小时前
效果&成本双突破!快手提出端到端生成式推荐系统OneRec!
人工智能·深度学习·大模型·推荐算法
天才测试猿2 小时前
软件测试环境搭建及测试过程
自动化测试·软件测试·python·功能测试·测试工具·职场和发展·测试用例
晨曦之光Wing2 小时前
【Python】Excel表格操作:ISBN转条形码
python·excel