系列文章目录
`
文章目录
- 系列文章目录
- 前言
- [V1-2015-Joseph Redmon](#V1-2015-Joseph Redmon)
- [V2-2016-Joseph Redmon](#V2-2016-Joseph Redmon)
- [V3-2018-Joseph Redmon](#V3-2018-Joseph Redmon)
- [YOLO 之父的退出](#YOLO 之父的退出)
- [V4-202004-Chien-Yao Wang](#V4-202004-Chien-Yao Wang)
- [V5-20200609-Ultralytics 公司](#V5-20200609-Ultralytics 公司)
- V6-20220623-美团
- [V7-2022-Chien-Yao Wang](#V7-2022-Chien-Yao Wang)
- [V8-20230110-Ultralytics 公司](#V8-20230110-Ultralytics 公司)
- [V9-2024-Chien-Yao Wang](#V9-2024-Chien-Yao Wang)
- V10-2024-清华大学
- [11-20240930-Ultralytics 公司](#11-20240930-Ultralytics 公司)
- V12-202502
- 总结
前言
- Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
- YOLO-Master
- 本章学习资料: https://sxwqtaijh4.feishu.cn/docx/Yc40ddMGIo7nOyxSXVZc6KztnYd
`
YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的约瑟夫-雷德蒙(Joseph Redmon) 和 阿里-法哈迪(Ali Farhadi) 开发。
V1-2015-Joseph Redmon
-
发布时间
:2015 -
论文产出:
You Only Look Once: Unified, Real-Time Object Detection -
Ali Farhadi是YOLO之父 Joseph Redmon的指导老师。
-
将目标检测简化为单次图像处理任务,从像素回归预测物体的边界框坐标和类别概率。
-
首次 将目标检测任务建模为端到端的回归问题,通过单个 CNN 直接预测边界框坐标和类别概率,跨越了传统两阶段 如R-CNN 的区域提议机制。
-
将输入图像划分为 S × S S \times S S×S 网格(如 7 × 7 7 \times 7 7×7)
-
每个网格单元预测 B 个边界框。(Bounding Boxes) 和 1 个类别概率分布 ,边界框包含坐标(x, y, w, h) 和 置信度(confidence score)。
-
设计统一的损失函数,联合优化边界框定位误差 、置信度误差 和分类误差。
V2-2016-Joseph Redmon
-
发布时间
:2016 -
真正名称叫
YOLO9000
。 -
在每个卷积层后加入批量归一化(Batch Normalization),提升模型收敛速度、稳定性和泛化能力。
-
先在
ImageNet
上以 448 × 448 448 \times 448 448×448 的分辨率微调分类网络 10 个 epochs,再迁移到检测网络。 -
引入Faster R-CNN的锚框(Anchor) 概念,移除YOLOv1的全连接层。
V3-2018-Joseph Redmon
-
发布时间
:2018 -
引入 3 种不同尺度的预测层分别检测大、中、小目标。
-
设计更深的骨干网络 Darknet-53(含53层卷积),结合残差连接(Residual Blocks)。
-
由于v3版本支持单目标多标签分类 (如一个目标既可以被分类为"人"也可以被分类为"女人"),而之前版本中使用的Softmax要求单目标单标签并且标签直接要相互独立、没有交集,因此使用独立的逻辑回归分类器(Logistic Regression Classifier) 替代了Softmax,而在逻辑回归分类器中,使用二元交叉熵损失(Binary Cross-entropy Loss) 来训练分类器预测边界框。
YOLO 之父的退出
- YOLO算法作为目标检测领域的开创性成果,在计算机视觉领域具有里程碑意义。其核心价值不仅体现在首创性设计理念带来的持久生命力,更在于构建了开放性的技术生态体系。
- 尽管原作者已退出直接优化,但全球研究群体通过持续改进算法精度与效率,使其在工业界和学术界保持领先地位。
- 这种去发展模式反而激发了更广泛的技术创新,证明了YOLO已从个人研究成果进化为具有自我迭代能力的公共技术平台,展现出强大的生态活力和技术延展性。
V4-202004-Chien-Yao Wang
-
发布时间
:2020 -
骨干网络优化 :Mish激活函数:采用平滑非单调激活函数
-
SPP模块:多尺度最大池化(5×5、9×9、13×13)融合不同感受野特征。
-
PANet路径聚合:使用PANet改进FPN,实现双向特征融合,增强浅层信息传递。
-
自对抗训练(SAT):对抗扰动生成+微调两阶段训练。
V5-20200609-Ultralytics 公司
-
发布时间
:2020 -
论文产出
:无 -
自适应锚框计算(AutoAnchor):在训练前自动分析数据集并优化 Anchor Box 的尺寸。
-
引入 4 图拼接的 Mosaic 数据增强方法,结合随机裁剪、缩放、色调变换,提升小目标检测和泛化能力。
-
采用 Cross Stage Partial Network (CSPDarknet53) 作为骨干网络。
-
采用 CIOU Loss 替代 MSE 作为边界框回归损失。
-
支持 FP16/INT8 训练加速,并提供 TFLite/ONNX 等轻量化部署格式。
V6-20220623-美团
-
发布时间
:2022 -
论文产出
:yolov6: A Single-Stage Object Detection Framework for Industrial Applications -
2022年9月5日,美团发布了 YOLOv6 2.0版本 信息来源
-
提出 RepVGG-style 骨干网络 ,通过 重参数化技术(RepOpt) 实现训练时多分支结构与推理时单路径的高效转换。
-
Rep-PAN Neck: 采用 PAN 拓扑结构,并使用 RepBlock 或 CSPStackRep Block 进行增强。
-
分类损失函数: 采用 VariFocal Loss (VFL)。
-
框回归损失函数: 小模型使用 SIoU Loss,大模型使用 GIoU Loss,大模型还引入 DFL (Distribution Focal Loss)。
-
YOLOv6 结合了 Mosaic、MixUp 和 RandomAffine 等多种数据增强策略。
-
使用 RepOptimizer 训练模型,获得更适合 PTQ 的权重分布,提升量化性能。
V7-2022-Chien-Yao Wang
-
发布时间
:2022 -
论文产出
:yolov7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors -
YOLOv4 的开发团队在美团推出 YOLOv6 不久后的2个礼拜,发布了
YOLOv7
。 -
扩展的高效层聚合网络(E-ELAN) : 改进 ELAN 结构,通过 分组卷积 和 动态通道重组 增强特征复用效率,提升骨干网络(CSPDarknet)的学习能力。
-
提出 动态软匹配策略(DSM),根据预测框与真实框的联合置信度动态分配正负样本,缓解人工阈值设定的局限性。
-
在不增加推理成本的前提下,通过 多分支辅助训练头(Aux Head) 和 梯度传播优化 提升主检测头的性能
V8-20230110-Ultralytics 公司
-
发布时间
:2023 -
论文产出
:无 -
Ultralytics 公司发布了
YOLOv8
,这次该公司还是没有发表论文。YOLOv8
是个模型簇,从小到大包括:yolov8n
、yolov8s
、yolov8m
、yolov8l
、yolov8x
等。 -
统一任务接口(Unified Task Interface) : 支持 目标检测 、实例分割 、关键点检测 、分类 等多任务统一框架。
-
采用 动态网络设计,通过配置文件(YAML)灵活调整骨干网络、检测头、损失函数等组件,适配不同任务需求。
-
DFL(Distribution Focal Loss):将边界框回归建模为概率分布学习,提升定位精度。
-
Task-Aligned Assigner:根据分类置信度与回归IoU动态分配正样本,优化任务一致性。
-
支持 TensorRT、ONNX、CoreML、OpenVINO 等格式一键导出
V9-2024-Chien-Yao Wang
-
发布时间
:2024 -
论文产出
:yolov9: Learning What You Want to Learn Using Programmable Gradient Information -
中国台湾 Academia Sinica、台北科技大学等机构联合发布了YOLOv9(其核心人员仍旧是YOLOv4团队成员)。v9是在v7的基础上进行进一步改进。
-
可编程梯度信息(PGI, Programmable Gradient Information) : 辅助可逆分支(Auxiliary Reversible Branch):通过引入可逆架构生成可靠的梯度信息,缓解深度网络中的信息瓶颈问题,确保主分支在反向传播时能接收完整的目标关联信息。
-
多级辅助信息(Multi-level Auxiliary Information):整合来自不同特征金字塔层次的梯度信息。
-
广义高效层聚合网络(GELAN, Generalized Efficient Layer Aggregation Network): 结合CSPNet与ELAN的优势,允许用户根据硬件需求自由替换卷积块(如CSP、Res、Dark块),支持动态调整网络深度与宽度。
V10-2024-清华大学
-
发布时间
:2024 -
清华大学团队的研究者们对
v8
的框架进行优化,提出YOLOv10。 -
一致动态双重分配(Consistent Dual Assignments) :训练阶段联合优化一对多分支(提供密集监督)和一对一分支(消除冗余预测),推理阶段仅保留一对一分支,彻底移除NMS后处理。
-
深度可分离分类头
11-20240930-Ultralytics 公司
-
发布时间
:2024年9月30日 -
论文产出
:无 -
代码仓库
:YOLO系列官方团队 Ultralytics -
是
YOLO11
而不是 YOLOv11。 -
YOLO11 是 YOLO 系列在 2025 年之前的 SOTA 模型,基于前代版本进行了全面升级,提升了性能与灵活性。 具体指标请访问其文档:yolo11 performance-metrics
-
增强特征提取能力.
-
广泛适用于 目标检测、实例分割、图像分类、姿态估计、定向边界框检测 等视觉任务.
-
引入了
C3k2
模块,做到了更快的处理速度和更高的参数效率。C3k2
是一种** Cross-Stage Partial (CSP) Bottleneck** 的高效实现。它取代了 Backbone和 Neck中的 C2F 块,并采用两个较小的卷积而不是一个大型卷积。 -
在
Spatial Pyramid
Pooling-Fast(SPPF)
模块之后引入C2 Position-Sensitive Attention
(C2PSA)
模块,以增强空间注意力。
V12-202502
-
新的架构,包含了注意力机制如 Area Attention , R-ELAN , 和 FlashAttention。
-
全面的任务支持:目标检测 object detection , 分割 segmentation ,姿态估计 pose estimation ,分类 classification ,定向边界框检测 oriented bounding box (OBB) detection
总结
- 深入了解YOLO的历史。