YOLOv4介绍 - 技术栈

在目标检测领域，YOLO 系列一直是实时检测的标杆，而 YOLOv4 更是其中的经典版本 ------ 它虽更换了研发作者，但延续了 YOLO 系列 "端到端实时检测" 的核心思路，同时博采众长吸收了当时主流框架的优点，在不牺牲推理速度的前提下大幅提升检测精度，成为兼顾工业落地与学术研究的优秀模型。

YOLOv4 的核心改进围绕Bag of Freebies（BOF，无成本提升法） 和Bag of Specials（BOS，轻成本提升法） 两大思路展开：BOF 仅增加训练成本、不影响推理速度，如数据增强、正则化；BOS 以少量计算量为代价，换取精度的显著提升，如网络结构改进、注意力机制。本文将从核心优化思路出发，逐层解析 YOLOv4 的技术细节。

一、无推理成本的精度提升

这一系列改进是 YOLOv4 的 "基础操作"，核心是通过数据增强、正则化、损失函数优化等方式，在训练阶段挖掘数据价值、优化模型学习过程，全程不改变模型结构，因此推理时无额外计算负担。

1. 多样化数据增强，提升模型泛化能力

YOLOv4 的数增策略围绕 "丰富训练样本多样性" 设计，既包含传统方法，也创新了马赛克增强，让模型能适应不同场景、不同形态的目标。

传统基础增强：通过调整图像亮度、对比度、色调，以及随机缩放、剪切、翻转、旋转，模拟目标在真实场景中的不同呈现形式，避免模型过拟合于固定样本。
马赛克（Mosaic）增强：参考 CutMix 思路并进一步升级，将四张不同的训练图像拼接成一张进行训练，不仅丰富了背景多样性，还让单张图像包含多个不同尺度的目标，大幅提升模型对小目标、多目标的检测能力。实验显示，该方法在 Pascal VOC 数据集上让检测 mAP 提升 1.1%，效果显著优于 Mixup、Cutout 等传统混合增强法。
其他补充增强：Random Erase（用随机值 / 训练集平均像素值替换图像局部区域）、Hide and Seek（按概率随机隐藏图像补丁），通过 "破坏" 局部特征，迫使模型学习目标的全局特征，进一步提升泛化性。

2. 进阶正则化，解决过拟合问题

针对卷积神经网络易过拟合的问题，YOLOv4 摒弃了传统单一的 Dropout，采用DropBlock +标签平滑的组合策略，从特征层和标签层双管齐下优化。

DropBlock 正则化：由谷歌 2018 年提出，与 Dropout 随机屏蔽单个特征不同，DropBlock 对特征图进行连续区域的随机屏蔽，更贴合卷积网络的空间相关性特点，能有效减少网络中的冗余连接，让模型更关注核心特征，提升泛化能力。
标签平滑：解决模型对标签 "过度自信" 的问题，将硬标签（如 $0,1$ ）转化为软标签（如 $0.05,0.95$ ），通过轻微的标签模糊，避免模型在训练集上的过度拟合，让模型在测试集上的表现更稳定。

3. 损失函数迭代，优化边界框回归

目标检测的核心之一是边界框回归，YOLOv4 针对传统 IOU 损失的缺陷，逐步迭代出GIOU→DIOU→CIOU的损失函数体系，让边界框的回归更精准、更高效。

传统 IOU 损失的缺陷：当预测框与真实框无交集时，IOU 为 0，无法计算梯度导致模型无法学习；且相同 IOU 值无法反映框的实际位置差异。
GIOU：引入包含预测框和真实框的最小封闭形状 C，通过计算 C 中未被两框覆盖的区域占比，解决了无交集时的梯度问题，让预测框能向真实框方向移动，但在两框重叠度高时优化效果有限。
DIOU ：直接优化预测框与真实框的中心点欧式距离，同时结合最小封闭形状的对角线长度做归一化，回归速度更快，有效解决了 GIOU 在重叠场景下的优化瓶颈。
CIOU ：在 DIOU 的基础上，进一步考虑了框的长宽比，综合重叠面积、中心点距离、长宽比三个几何因素，成为 YOLOv4 最终采用的边界框损失函数，让回归结果更贴合真实框。

4. Soft-NMS：优化非极大值抑制

传统 NMS 在处理重叠目标时，会直接删除与高分框 IOU 超过阈值的低分框，容易导致重叠目标的漏检。YOLOv4 采用Soft-NMS做后处理优化：不再直接删除低分框，而是将其得分乘以一个高斯权重函数，重叠度越高，得分衰减越严重，再根据衰减后的得分筛选框。这种 "柔和" 的抑制方式，有效保留了重叠目标的检测框，大幅提升了模型对密集目标、重叠目标的检测率，通常高斯函数的衰减系数取 0.3。

二、轻计算成本的网络结构升级

YOLOv4 对网络的骨干、颈部、激活函数等进行全方位升级，以少量的计算量增加为代价，实现特征提取能力、特征融合能力的质的飞跃，最终形成CSPDarknet53（骨干）+ SPP+PAN（颈部）+ YOLOv3 Head（头部） 的经典架构。

1. 骨干网络：CSPDarknet53

YOLOv4 将 Darknet53 与 CSPNet（跨阶段部分网络）结合，打造出CSPDarknet53，成为模型的核心特征提取器，解决了传统骨干网络计算量大、内存占用高的问题。

CSPNet 的核心思路：将每个残差块的特征图按通道维度拆分为两部分，一部分正常执行残差网络的卷积、残差连接，另一部分直接跳过复杂计算，在块的输出端与前者拼接。这种设计让梯度变化全程集成在特征图中，在减少计算量和内存成本的同时，保证了特征提取的准确率，还能有效缓解计算瓶颈。
Darknet53 的基础优势：保留了 Darknet53 的残差块结构，通过残差连接解决深层网络的梯度消失问题，让网络能学习到更复杂的特征；同时采用步长卷积实现下采样，替代传统池化，保留更多空间特征。

2. 颈部网络：SPP+PAN，极致的特征融合与感受野扩展

颈部是连接骨干和头部的关键，负责将骨干提取的多尺度特征进行融合、增强，为头部检测提供更丰富、更有效的特征，YOLOv4 的颈部由SPP 空间金字塔池化 和PAN 路径聚合网络组成，完美解决了 "感受野不足" 和 "特征融合不充分" 的问题。

SPP 空间金字塔池化：由何凯明提出，在骨干网络的最后一个卷积层后接入，通过 1×1、5×5、9×9、13×13 的多尺度池化核对特征图进行池化，再将池化结果拼接。该操作极大地扩展了模型的感受野，能分离出目标的显著上下文特征，同时不改变特征图的空间尺寸，几乎不降低推理速度，让模型能更好地检测大目标。
PAN 路径聚合网络 ：针对传统 FPN（特征金字塔网络）仅 "自顶向下" 传递高层语义特征的缺陷，PAN 增加了自底向上的特征传递路径，让低层的空间细节特征（如目标边缘、纹理）能更好地传递到高层，与高层语义特征充分融合。同时，YOLOv4 将 PAN 的捷径连接改为级联拼接，进一步提升特征融合的效果，让模型对不同尺度的目标（尤其是小目标）检测更精准。

3. 注意力机制：SAM，聚焦核心特征区域

YOLOv4 引入SAM 空间注意力机制（简化版 CBAM），在特征提取后对特征图进行注意力加权，让模型自动聚焦于目标的核心区域，忽略无关的背景特征。与同时结合通道和空间注意力的 CBAM 不同，SAM 仅针对空间维度做优化，以少量计算量为代价，突出目标的空间位置特征，进一步提升特征的有效性，且能轻松嵌入卷积网络的任意层，兼容性极强。

4. 激活函数：Mish，更平滑的特征映射

YOLOv4 摒弃了传统的 ReLU 激活函数，采用Mish 激活函数，解决了 ReLU 在负区间直接置 0 的 "硬截断" 问题，让特征映射更平滑。Mish 的公式为：f(z)=z⋅tanh(ln(1+ez))，其曲线在负区间连续且缓慢下降，能保留更多负区间的特征信息，让模型学习到更全面的特征。虽然 Mish 的计算量比 ReLU 略高，但带来的精度提升远大于计算成本，成为 YOLOv4 的重要优化点。

三、YOLOv4 的整体网络架构

将上述所有优化点整合，YOLOv4 形成了一套层次清晰、分工明确的端到端网络架构，输入为 608×608×3 的图像，整体流程如下：

输入层：对图像进行 Mosaic 等数据增强，送入骨干网络；
骨干网络（CSPDarknet53）：通过多组残差块进行下采样和特征提取，依次输出 304×304×64、152×152×128、76×76×256、38×38×512、19×19×1024 的多尺度特征图，全程采用 DarknetConv2D+BN+Mish 的组合层；
颈部网络（SPP+PAN）：先对 19×19×1024 的特征图做 SPP 多尺度池化，再通过 PAN 进行自顶向下 + 自底向上的特征融合，生成三个不同尺度的融合特征图，分别对应大、中、小目标的检测；
头部网络（YOLOv3 Head）：对融合后的特征图进行卷积预测，输出每个锚框的目标类别、置信度和边界框坐标，最后通过 Soft-NMS 筛选出最终的检测框。