**摘要:**目标检测是计算机视觉研究的关键组成部分,能够使系统确定给定场景中物体的位置与类型。YOLOv5是一款现代目标检测模型,它在保留原始YOLO实现优势的同时,完全采用Python语言从零构建。本文提出的BiFPNYOLO模型相较现有YOLOv5系列目标检测模型实现了显著改进:不仅用性能更优的双向特征金字塔网络(BiFPN)取代了传统的路径聚合网络(PANet),需对其原始实现进行复杂适配才能与YOLOv5兼容;还通过对比多种激活函数性能,探索了替代标准Swish激活函数的新方案。该模型在德国交通标志检测基准(GTSDB)上将mAP提升3.1%,在RoboFEI@Home数据集上将平均精度(mAP)较基础YOLOv5模型提升2%;在 MSCOCO 数据集上的表现提升1.1%,在OpenImagesV6数据集的自定义子集上提升2.4%。
YOLOv1至YOLOv8的比较分析,对比了平均精度、参数数量及所使用的激活函数。
神经网络中 FPN (a)、PANet(b)和BiFPN(c)的可视化展示
提出的BiFPN-YOLO架构。每种颜色代表不同的架构模块。
本文总结了Swish、 ACON 、FreLU、Hardswish、LeakyReLU、Mish及Sigmoid激活函数,详细阐述了它们的数学定义及其适用范围。
在 MSCOCO 数据集上,YOLOv5、BiFPN-YOLO和YOLOv7从头训练后的实验结果。
YOLOv5和BiFPN-YOLO在 GTSDB 数据集上从头开始训练后的结果。
当YOLOv5和BiFPN-YOLO在 GTSDB 数据集上采用迁移学习进行训练时的结果
当YOLOv5和BiFPN-YOLO在RoboFEI@Home数据集上采用迁移学习进行训练时的结果。
当YOLOv5和BiFPN-YOLO在RoboFEI@Home数据集上从头开始训练时的结果。
当YOLOv5和BiFPN-YOLO在Open Images V6数据集上从头开始训练时的结果。
当YOLOv5和BiFPN-YOLO在RoboFEI@Home数据集上采用迁移学习进行训练时的结果。
**结论:**本研究对改进当前最先进的YOLOv5目标检测模型的效果进行了深入分析。我们提出了BiFPN-YOLO这一新模型,其核心在于用更复杂的BiFPN颈部结构替换了YOLOv5中的标准PANet。针对BiFPN-YOLO的实验表明,与YOLOv5及当前最先进的单阶段检测器相比,该模型在计算效率和性能方面均取得显著提升;若进一步替换标准Swish激活函数,还能获得额外改进效果。基于四个数据集的实验结果为激活函数的选择提供了可靠依据。本研究进一步推动了 GTSDB 和RoboFEI@Home数据集领域的技术进步。具体建议如下:1. 在追求最高平均精度(mAP)时,BiFPN-YOLO几乎总是优于YOLOv5;2. 转移学习及仅冻结主干网络有助于提升BiFPN-YOLO性能,尤其在训练数据集规模较小的情况下;此外,转移学习还能改善目标定位精度;3. 不推荐仅冻结除最终全连接层外的所有网络层进行迁移学习,因为这会导致模型在精确率、召回率和mAP等可量化指标上大幅下降;4. MSCOCO 仍是预训练BiFPN-YOLO和YOLOv5的首选数据集;5.与YOLOv5相比,BiFPN-YOLO在 MSCOCO 上的平均性能提升了1.1%。6.在精确率、召回率和训练时间方面,BiFPN-YOLO均优于YOLOv7,而YOLOv7的准确率仅略高。