【目标检测】对YOLO系列发展的简单理解

YOLO系列文章汇总：
【论文#目标检测】You Only Look Once: Unified, Real-Time Object Detection
【论文#目标检测】YOLO9000: Better, Faster, Stronger
【论文#目标检测】YOLOv3: An Incremental Improvement
【论文#目标检测】YOLOv4: Optimal Speed and Accuracy of Object Detection
【论文#目标检测】YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
【论文#目标检测】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

在阅读了YOLO系列的文章之后，简单梳理一下其发展的路径和规划。从深度图像处理的基本思想看，目标检测大致的流程是：输入图像-->提取图像特征-->预测图像中物体的类别-->根据标签计算损失-->更新网络参数，循环若干个轮回，最终获得一个好的输出结果。与传统的图像处理对比，深度图像处理将处理图像的公式展开，分成了很多的层级，逐层处理输入的信息，然后获得计算的结果。

1.YOLOv1

在YOLOv1之前，目标检测通常需要两步：（1）生成候选区域；（2）对候选区域进行分类和回归；YOLO 的突破在于将整个检测任务简化为一个统一的回归问题，通过单次前向传播直接输出所有检测结果。

YOLO突破的一个重要思想在于，在图像输入的初期就被划分成为不同的区域，文中将输入图像划分为7x7的区域，如果某个物体的中心点位于该区域内，这个区域就去检测这个物体，这实际上也是候选区域划分的一个思想，只不过是先硬性划分区域，再检测物体。这种划分的一个好处在于，固定划分很快速，比之前的R-CNN生成候选区域要快很多。

每个区域会去预测2个检测框，这2个检测框的初始值（长宽和坐标）是随机的，根据与真实框的差异进行计算损失值，并在网络训练的过程中不断更新，最终获得不错的初始检测框。

从网络结构上看，YOLO的设计参考了GoogleNet，没有很复杂的结构，先进行区域的划分，然后通过多层卷积来实现特征提取，后续接上全连接层，这也是YOLO实现速度非常快的主要原因。

2.YOLOv2

YOLOv2在YOLOv1的基础之上，进行了很多的修改，包括：

（1）修改主干网络为Darknet-19

（2）增加了很多细节，包括多分辨率图像训练、Anchor框、BN层的使用、WordTree数据集处理。其中，多分辨率图像训练能够帮助网络学习到更多的特征；使用anchor框时，预测的是位置坐标而不是偏移量，提升了recall；BN层通过将数据进行归一化，有助于稳定输入数据，反向传播梯度更平滑，降低了网络对初始化权重的敏感性；WordTree的提出使得网络能够同时在分类和检测两个任务上进行训练，这种分层的树状结构，将数据集中不同的标签进行归纳，也使得混合多个数据集成为可能。

在选择anchor框时，还使用了K-means的方式，最终确定选择数量为5的anchor框。在训练多分辨率时，先使用小分辨率（224x224）数据集进行训练，后续使用大分辨率（448x448）进行训练，这样网络就能够处理高分辨率的细节。

使用WordTree思想，使得网络能够识别9000个类别的物体，而不是YOLOv1中的几十个

3.YOLOv3

YOLOv3在特征提取时，使用的主干网络是Darknet-53（YOLOv2是Darknet-19），提升了对复杂场景的特征提取能力。在进行推理输出时，使用了特征金字塔网络（FPN），从不同的尺度获取特征，进行推理，有效的提升了小目标检测的效果。

使用了多标签类别来进行训练，例如标签为"消防员"和"人"，其实是同一个物体。边界框的训练使用了与YOLOv2相同的方式，即预测位置坐标

4.YOLOv4

在YOLOv4中，网络设计分为3个部分：主干网络，颈部网络和头部网络，其中主干网络用于提取特征，颈部网络用于处理或融合特征，头部网络根据特征进行推理输出

（1）主干网络：CSPDarknet53

（2）颈部网络：空间金字塔池化（SPP） $25$ 、路径聚合网络（PAN）

（3）头部网络：YOLOv3

主干网络使用的是CSPDarknet53，分为5个阶段，每个阶段都会使用卷积层和CSPBlock。CSPBlock将特征分为不同支路，部分支路进行深度特征提取，部分支路直接传递特征，最后融合。通过多个阶段的特征提取和融合，获得了图像的特征。

颈部网络使用了SPP和PAN，SPP的作用是增加感受野，提取不同尺度的特征，然后将这些不同尺度的特征进行融合。PAN网络通过自顶向下和自下向上的方式，提升了不同层级网络的特征融合。

头部网络使用的是与YOLOv3相同的检测头，分为多个尺度，接收颈部网络的输出特征，从3个尺度进行预测，输出预测框，对小目标的预测提升比较明显

另外，在一些训练技巧上面，提出了MixUp、CutMix、Mosaic、模糊（Bluring）数据增强以及标签平滑正则化方法，并进行实验，取得了一定效果的提升

5.YOLOv6

YOLOv6当中一个比较突出的思想是RepBlock的应用，在之前的网络设计当中，CSPBlock使用了不同的分支，整个模块的推理速度受限于最长的那个分支。为了提升推理速度，RepBlock在推理时将不同的分支进行融合，将多条分支的参数融合成为一条卷积线路，显著提升了推理的速度。Rep的含义是参数重卷积（re-parameterize）。rep模块在主干网络、颈部网络都有应用。

6.YOLOv7

YOLOv7提出了E-ELAN模块，作为RepBlock的改进版本，通过分层卷积和跨层连接，增强特征多样性，与RepBlock相同的是，在训练时E-ELAN分为多支路，推理时融合成为单支路。E-ELAN和RepBlock的主要区别是，RepBlock分为多个支路时，有部分支路直接传递，速度比较快，而E-ELAN会将特征分层卷积，后续将这些特征进行concat，所以是跨层连接。

另外，YOLOv7还使用了，统一损失函数：联合优化分类（BCE）、回归（CIoU）、置信度（DFL）；梯度均衡：通过梯度归一化（GradNorm）自动平衡多任务权重；标签分配优化：粗匹配阶段：用IoU初筛候选框（减少计算量）；精匹配阶段：对候选框联合优化分类+定位损失。

7.YOLOv9

YOLOv9中提出了可编程梯度的思想，通过使用一些辅助分支，来调控主干分支的训练过程。具体来说，使用了辅助可逆分支和多级辅助信息两条分支。辅助可逆分支通过新建一条训练分支，在特征提取过程中将较低层级的特征融合到较高层级的主干特征之中，希望通过加入辅助可逆分支保留比较好的梯度信息；多级辅助信息，在辅助监督的特征金字塔层次与主分支之间插入一个集成网络，利用它来合并来自不同预测头返回的梯度，这样相当于加入了一个缓冲器，避免主干网络当中的金字塔参数被一些特定对象影响。

另外，网络中还提出了GELAN架构，结合了CSPNet和ELAN架构

总体上看，前两代YOLO版本与后续更新的YOLO版本结构上有较大的出入，YOLOv1的思想具有突破性，后续的版本中，逐渐使用了一些当时先进的网络模块，例如Darkent，CSPNet，FPN，RepBlock等等