YOLO-SLD: An Attention Mechanism-ImprovedYOLO for License Plate Detection

摘要

车辆牌照检测在智能交通系统中发挥着关键作用。检测汽车、卡车和面包车等的牌照对于执法、监控和收费站操作非常有用。如何快速准确地检测牌照对牌照识别至关重要。然而,在现实世界复杂捕捉场景中,光照条件不均匀或牌照拍摄角度的倾斜会发生剧烈变化,从而增加了检测难度。同时,对距离、光照、角度等要求相当高,这严重影响了检测性能。因此,提出了一种改进的 YOLOv7,集成了无参数注意力模块 SimAM 用于牌照检测,称为 YOLO-SLD。在不修改原始 ELAN 架构的情况下,该架构是 YOLOv7 的关键组件,在 ELAN 的末尾添加了 SimAM 机制,以更好地提取牌照特征并提高计算效率。更重要的是,SimAM 模块不需要向原始 YOLOv7 网络添加任何参数,从而减少了模型计算并简化了计算过程。首次在 CCPD 数据集上测试了具有不同注意力机制的检测模型的性能,证明了所提出的方法是有效的。实验结果显示,YOLO-SLD 模型具有更高的检测准确性,并且更轻量化,mAP 在 0.5 时的准确率从原始 YOLOv7 模型的 98.44% 提高到 98.91%,准确率提高了 0.47%。在暗光和亮光图像的 CCPD 测试子集中的准确率从 93.5% 提高到 96.7%,准确率提高了 3.2%。与原始 YOLOv7 模型相比,模型的参数规模减少了 120 万个参数。其性能优于其他流行的牌照检测算法。

引言

全球的交通网络迅速扩展,车牌检测技术也取得了显著进展,成为交通系统中的重要组成部分。它具有广泛的潜在应用,广泛用于车辆出入管理、智能停车、高速公路收费管理、被盗车辆检测、停车场管理、电子收费系统和交通流量监测等领域。在此背景下,智能交通系统(ITS)和自动车牌识别(ALPR)的研究应运而生。近年来,利用深度卷积神经网络(CNN)进行物体检测方面取得了显著进展。经典的 ALPR 系统通常由三个主要模块组成,以确保有效的识别性能:车牌检测(LPD)、字符分割(CS)和光学字符识别(OCR)。在 LP D 的早期阶段,主要挑战包括不同车牌布局和语言的遮挡、不同的尺寸和长宽比,以及在多种光照和天气条件下的噪声或不清晰输入图像,如图 1 所示。该阶段的理想结果是一组精确检测到的车牌。此阶段对系统的最终性能至关重要,非车牌物体的误分类可能导致后续阶段的错误。

相关研究

随着卷积神经网络(CNN)的快速发展和广泛应用,目前用于物体检测的网络可以分为两类:单阶段检测器和双阶段检测器。单次检测器(Single Shot Detector, SSD)和"你只看一次"(You Only Look Once, YOLO)是典型的单阶段检测器,而基于区域的卷积神经网络(Region-based Convolutional Neural Network, R-CNN)、快速 R-CNN(Fast R-CNN)、更快 R-CNN(Faster R-CNN)和掩膜 R-CNN(Mask R-CNN)则属于双阶段检测器。然而,在复杂环境中提高车牌检测(LPD)的准确性和实时能力仍然是一个亟待解决的关键挑战。

YOLO 物体检测算法及其高级版本因其高准确性、快速处理能力和实时物体检测能力而受到欢迎。Zou 等人利用 YOLOv3 和 YOLOv4 作为车牌检测框架,在中国城市停车数据集(CCPD)上分别取得了 96.0% 和 95.1% 的准确率。最新的 YOLO 架构 YOLOv7 由 Wang 等人提出,作为单阶段检测器,具有高准确性和快速处理速度的优势。

本文研究

本文介绍了 YOLO-SLD 算法,这是 YOLOv7 的一个高级迭代,结合了注意力机制以提高车牌检测的效率和精度。本文做出了三个显著贡献。首先,本文首次在 CCPD 数据集上使用 YOLOv7 模型网络进行车牌检测,并对多种注意力机制进行了实验,包括卷积块注意力模块(Convolutional Block Attention Module, CBAM)、坐标注意力(Coordinate Attention, CA)、洗牌注意力(Shuffle Attention, SA)和挤压与激励(Squeeze-and-Excitation, SE)。其次,本文在 YOLOv7 的主干网络和头部结合了简单无参数注意力模块(A Simple, Parameter-Free Attention Module, SimAM)注意力机制,通过替换和添加卷积层来增强特征提取能力。为评估所提算法的性能提升,本文在 CCPD 数据集上进行了广泛的实验。第三,与现有的物体检测网络相比,YOLO-SLD 在 CCPD 数据集上的 mAP 在 0.5 时达到了 98.91%,比 YOLOv7 高出 0.47%。本文证明了所提出的 YOLO-SLD 的优越性,不仅展现出更高的检测效率,而且在模型参数方面更为轻量化。

第二部分为相关工作,详细描述了车牌检测领域的研究进展;第三部分介绍了实验平台和车牌识别数据集;第四部分呈现了实验结果;最后一部分,即第五部分,讨论了最终结论。

近年来,卷积神经网络(CNN)在物体检测领域处于前沿。随着大量训练数据的出现,深度学习在效率和灵活性方面相较于传统的手动标注特征提取方法表现出色。基于 CNN 的各种框架,如 SSD、YOLO、R-CNN 和全卷积网络(Fully Convolutional Networks, FCN),已被提出用于与车牌检测相关的众多研究。在文献 [11] 中,提出了一种稳健的车牌识别模型,使用 YOLOv3 进行车牌检测。在该模型中,车牌的上下文位置信息与双向长短期记忆网络(Bi-LSTM)结合,以定位每个车牌字符。

在文献 [20] 中,提出了一种基于 YOLO 框架的车牌检测与识别系统。该系统采用两阶段深度架构进行车牌检测和后续识别。当第二个 YOLO 深度网络被激活时,系统识别裁剪后的车牌中的字符和数字。在这种集成方法中,每个字符或数字被视为一个独特的对象。

在文献 [21] 中,提出了一种改进的 YOLOv5 算法,从三个方面进行了改进:通过使用 K-means++ 算法提高锚框与检测目标之间的匹配度,利用 DIOU 损失函数改进非极大值抑制(NMS)方法,并去除 20 × 20 的特征图以减少检测层的数量。

在文献 [22] 中,作者在 YOLOv5 的下采样过程中添加了改进的通道注意力机制,即挤压与激励(Squeeze-and-Excitation),并在其中添加位置信息,以最小化采样信息损失,从而提高模型的特征提取能力。表 1 为相关工作的研究比较分析。

自 2016 年以来,作为最先进的单阶段物体检测算法,YOLO 已经历多次迭代,最终发展为 YOLOv7。图 2 显示了原始 YOLOv7 模型的整个网络架构。通过实施诸如扩展高效层聚合网络(Extended Efficient Layer Aggregation Network, E-ELAN)[23],即网络结构中的 ELAN-H,以及基于连接模型的模型缩放和卷积重参数化,YOLOv7 算法在检测速度和准确性之间实现了良好的平衡。YOLOv7 的基本框架分为三部分:主干网络(Backbone)、颈部(Neck)和头部(Head)。

  1. 研究背景

    • 车辆牌照检测在智能交通系统中起着重要作用,广泛应用于执法、监控和收费等领域。
    • 现有检测方法在复杂环境中(如光照不均、角度倾斜)表现不佳,影响检测性能。
  2. YOLO-SLD模型

    • 提出了YOLO-SLD模型,这是一个改进的YOLOv7版本,集成了无参数的SimAM注意力机制,以提高牌照检测的精度和效率。
    • SimAM模块被添加到YOLOv7的ELAN架构末尾,旨在更好地提取牌照特征并提高计算效率。
  3. 实验结果

    • YOLO-SLD模型在CCPD数据集上的mAP(平均准确率)达到98.91%,比YOLOv7提高了0.47%。
    • 在特定的Db子集上,准确率从93.5%提高到96.7%,提升幅度为3.2%。
    • YOLO-SLD模型的参数量为70.1百万,低于YOLOv7的71.3百万,显示出其轻量化的优势。
  4. 未来工作方向

    • 未来的研究将继续优化模型网络结构,可能会关注牌照上的文本识别,或整合其他文本识别网络,以增强自动牌照识别(ALPR)在不同场景中的能力。
  5. 贡献与创新

    • 本文首次在CCPD数据集上测试了不同的注意力机制,并通过SimAM机制增强了YOLOv7的特征提取能力。
    • 实验表明,YOLO-SLD不仅在检测效率上表现优越,同时在模型参数上也实现了优化,适合在各种环境中部署。

部分内容来自免费GPT解读:https://www.helicard.com/gpt4/https://www.helicard.com/gpt4/

部分内容来自如下链接:

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10571945https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10571945

网络的头部使用空间金字塔池化跨阶段部分连接(Spatial Pyramid Pooling Cross Stage Partial Concat, SPPCSPC)[23] 和 ELAN 模块来聚合图像特征。然后,RepConv [24] 调整输出通道。

SPPCSPC(Spatial Pyramid Pooling Cross Stage Partial Concat)是一种用于深度学习模型,特别是在目标检测和图像分割任务中的网络结构设计。它结合了空间金字塔池化(Spatial Pyramid Pooling, SPP)和交叉阶段部分连接(Cross Stage Partial Concat)的概念,旨在提高特征提取的效率和准确性。

SPPCSPC的基本原理:

空间金字塔池化(SPP)

  • SPP是一种池化策略,通过在不同尺度上对特征图进行池化,提取多尺度的特征信息。这种方法能够有效地捕捉到不同大小和比例的对象,增强模型对尺度变化的鲁棒性。
  • SPP通常通过在特征图上应用多个池化层(如最大池化或平均池化)来实现,每个池化层使用不同的窗口大小,从而形成一个金字塔结构。

交叉阶段部分连接(CSP):

  • CSP是一种网络结构设计方法,旨在通过在不同阶段之间共享特征来提高模型的表达能力和效率。通过部分连接,模型能够更好地利用低层和高层特征,提高特征的多样性和丰富性。
  • 这种设计减少了模型的计算量,同时保持了较高的准确性。

结合与优势:

  • SPPCSPC将SPP和CSP结合在一起,使得网络在特征提取时能够同时考虑不同尺度的特征和跨阶段的特征共享。
  • 这种结构能够提高模型的特征表示能力,增强对复杂场景和多样化对象的检测能力。

应用场景:

SPPCSPC广泛应用于现代目标检测模型中,如YOLO系列(You Only Look Once),特别是在YOLOv7等先进模型中。通过有效地提取和融合特征,SPPCSPC能够提高模型的检测精度和速度,适用于实时目标检测和图像分析任务。

总结:

SPPCSPC是一种高效的特征提取结构,结合了空间金字塔池化和交叉阶段部分连接的优势,旨在提高深度学习模型在目标检测等任务中的性能。通过多尺度特征提取和特征共享,SPPCSPC能够有效提升模型的准确性和计算效率。

RepConv(Reparameterized Convolution)是一种用于优化卷积神经网络(CNN)性能的技术,旨在提高模型的计算效率和推理速度。它通过将传统卷积操作重新参数化,使得模型在推理时能够更快地运行,同时保持或提高准确性。

RepConv的基本原理:

卷积层的重参数化:

  • 在训练阶段,RepConv允许使用较大的卷积核和较高的复杂度,以便模型能够学习到更丰富的特征。
  • 在推理阶段,RepConv将这些复杂的卷积操作转换为更简单的操作,从而减少计算量。

提高推理速度

  • 通过将多个卷积操作合并为单个操作,RepConv减少了推理时的计算量和内存占用。这使得模型在实际应用中能够更快地处理输入数据。

兼容性

  • RepConv可以与现有的卷积层结构相结合,而无需对模型架构进行重大修改。这使得它可以方便地集成到各种深度学习模型中。

应用场景:

RepConv技术广泛应用于需要实时处理的计算机视觉任务,如目标检测、图像分类等。通过优化推理速度,RepConv使得这些任务能够在资源受限的设备上高效运行。

总结:

RepConv是一种通过重参数化卷积操作来提高卷积神经网络推理效率的技术,能够在保持模型性能的同时,显著加快推理速度,适用于多种深度学习应用场景。

SimAM注意力机制

SimAM 注意力机制具有 3D 权重,添加在 ELAN 和 E-ELAN 的特征提取能力和计算效率之后,以更好地精炼提取的车牌特征,并能够自适应地强调车牌的目标特征,同时抑制在复杂光照条件下的无关背景特征,而不会增加模型的复杂性。与原始主干网络相比,本文提出的改进是在主干网络的 ELAN 模块和 ELAN-H 模块中添加 SimAM,并引入 SimAM 注意力机制,形成新的 SimAM-ELAN 和 SimAM-ELAN-H 模块,如图 5 所示。

如下图4 改进的 SimAM 被嵌入到 YOLOv7 模型中,基于传统图像识别技术和深度学习目标检测技术的优势。此集成旨在改善其网络架构,并提高车牌检测的识别准确性。所提方法的具体流程如下图 4 所示。

骨干网路

E-ELAN 结构来自YOLOv7论文 ,结构如下

具体可参考如下链接:

YOLOV7_yolov7-tiny-CSDN博客文章浏览阅读4.7k次,点赞3次,收藏27次。本文介绍了YOLOv7,一款在5FPS到160FPS范围内超越现有速度与精度的实时物体检测器。YOLOv7-E6以56FPS的GPU V100速度达到了55.9% AP的高精度,比基于变压器和卷积的检测器分别快509%和551%,且仅在MSCOCO数据集上从头开始训练。作者提出可训练的'免费行李袋',优化模型训练过程,解决模型重参数化与动态标签分配等问题。https://blog.csdn.net/TJMtaotao/article/details/125838537?spm=1001.2014.3001.5501

颈部网络

如下内容解读来自免费GPT。

PAN(Path Aggregation Network)是一种用于目标检测和图像分割的深度学习网络架构,旨在提高多尺度特征的融合和利用能力。以下是对PAN的详细解读:

1. 背景与目的

在目标检测任务中,网络需要处理不同尺度的对象。传统的卷积神经网络(CNN)通常在深层网络中提取特征,但在此过程中,浅层网络的空间信息和深层网络的语义信息可能会丢失。PAN的设计目的是通过有效地聚合不同层次的特征,来增强网络对多尺度目标的检测能力。

2. 结构与工作原理

PAN的主要结构可以分为以下几个部分:

  • 特征提取:PAN通常与主干网络(Backbone)结合使用,主干网络负责提取图像的初步特征。常见的主干网络包括ResNet、VGG等。

  • 路径聚合:PAN通过构建一个路径聚合模块,将来自不同层的特征图进行融合。具体来说,PAN会在特征图的上采样和下采样之间进行连接,从而实现信息的交互和融合。这种连接方式可以帮助网络更好地利用浅层特征(空间信息)和深层特征(语义信息)。

  • 上采样与下采样:在PAN中,上采样用于将低分辨率的特征图恢复到较高的空间分辨率,以便与高分辨率的特征图进行融合。下采样则用于将高分辨率特征图降维,以便于与低分辨率特征图结合。

3. 优势与应用

  • 多尺度特征融合:PAN能够有效地融合不同层次的特征,提升模型对不同尺度目标的检测能力,尤其是在复杂场景中。

  • 提高检测精度:通过聚合来自不同层的特征,PAN可以增强网络的语义理解能力,从而提高目标检测的精度。

  • 应用广泛:PAN被广泛应用于各种目标检测模型中,例如在YOLO、Mask R-CNN等模型中,作为增强特征融合的模块。

4. 与其他网络的比较

  • 与FPN(Feature Pyramid Network)比较:FPN也是一种多尺度特征融合的方法,但PAN在特征的聚合和传播上更加灵活,可以更好地处理特征信息的流动和共享。

  • 与传统CNN比较:传统的CNN在深层网络中可能会丢失空间信息,而PAN通过路径聚合的方式有效地保留了这些信息,增强了模型的表现。

5. 总结

PAN是一种重要的网络结构,旨在通过有效的特征融合提高目标检测的性能。它通过结合来自不同层次的特征,增强了模型对多尺度目标的识别能力,广泛应用于现代深度学习目标检测任务中。

PAN结构图的描述:

  1. 输入层

    • 输入图像通过主干网络(如ResNet)进行特征提取。
  2. 主干网络(Backbone)

    • 主干网络将输入图像转换为多个特征图,通常有多个层次,分别对应不同的尺度。例如,可能会有一个高分辨率的特征图(来自浅层)和一个低分辨率的特征图(来自深层)。
  3. 特征图

    • 假设主干网络输出了三个特征图:P2(高分辨率)、P3(中分辨率)、P4(低分辨率)。
  4. 下采样路径

    • 从高分辨率特征图(P2)开始,逐步向下采样到中分辨率(P3)和低分辨率(P4),通过卷积和池化层来实现。
  5. 上采样路径

    • 从低分辨率特征图(P4)开始,逐步向上采样到中分辨率(P3)和高分辨率(P2),通常使用反卷积或插值方法。
  6. 特征融合

    • 上采样的特征图与对应的下采样特征图进行逐像素相加或连接(concatenate),形成新的特征图。这一过程可以在每个尺度上进行,确保信息的充分融合。
  7. 输出层

    • 最终的特征图经过处理后,用于后续的目标检测或分割任务。

结构图的示例元素:

  • 箭头:表示特征图的流动方向,指示从输入到输出的路径。
  • :表示不同的特征图和处理步骤(如卷积、上采样、下采样)。
  • 连接:表示不同尺度特征之间的融合。

如下PAN结构由讯飞星火基于如上文本描述生成:

  • 输入层接收原始图像。
  • 主干网络(如ResNet)对输入图像进行特征提取,并输出三个不同分辨率的特征图:P2(高分辨率)、P3(中分辨率)和P4(低分辨率)。
  • 下采样路径从P2开始,通过卷积和池化层逐步向下采样到P3和P4。
  • 上采样路径从P4开始,使用反卷积或插值方法逐步向上采样到P3和P2。
  • 特征融合阶段,上采样的特征图与对应的下采样特征图进行逐像素相加或连接,形成新的特征图。
  • 最终的特征图经过处理后用于后续的目标检测或分割任务。

头部网络

其中,t 和 i 分别表示输入特征 X ∈ R^(H×W×C) 的目标神经元和空间维度的索引。H、W 和 C 分别表示牌照图像包含 H × W 个像素和 C 个光谱波段。M 表示通道上的神经元数量,M = H × W,β 是一个参数值,通常取为 1e − 4。α 表示计算的通道中所有神经元的平均值(不包括目标神经元 t),而 xi 表示输入特征 X 中同一通道内的其他神经元(不包括目标神经元 t)。 由于空间抑制神经元表现出显著的线性可分离性,它们在 α 和 t 之间会出现明显的变化,从而导致 et 的值较低。此外,公式 (1) 表明,神经元的能量越低,神经元 t 与其周围神经元的区别就越明显。因此,每个神经元的权重参数值可以计算为 (1/et)。随后,特征矩阵根据注意力机制的定义进行增强,公式计算如下 [18]:

公式 (2) 表示增强的特征张量,其中 E 汇聚了所有通道和空间维度上的 e∗t,而 ⊙ 是点积操作。X¯ 表示输出特征图,其大小与输入特征图 X 保持一致。为了限制 E 的过大值,添加了一个 sigmoid 函数。

  1. SimAM的背景

    • SimAM是在2021年由Liang等人提出的,基于成熟的神经科学理论。
    • 它是一种全三维、加权且无参数的注意力机制,旨在模拟人类视觉系统如何有效利用有限的视觉处理资源。
  2. SimAM的特点

    • 空间与通道关联:与其他注意力机制不同,SimAM考虑了空间因素和通道因素之间的相关性。这使得SimAM能够高效地生成用于特征映射的真实三维权重,而无需额外的参数。
    • 性能提升:通过这种方式,SimAM能够提高网络在速度和准确性上的表现,从而增强其特征表示能力。
  3. 信息丰富神经元

    • 文中提到的"信息丰富神经元"是指那些与周围神经元相比,表现出显著放电模式的神经元。这些神经元通常具有强烈的空间抑制效应,这种效应对视觉处理任务的结果有更大的影响。
    • 通过评估目标神经元与其他神经元之间的线性可分离性,可以识别这些信息丰富的神经元。
  4. 图像边缘特性

    • 图像的边缘特性与空间抑制神经元的特性相匹配,表现出与周围纹理特征的高对比度。这表明,在视觉任务中,这些特征是非常重要的。
  5. 能量函数的使用

    • 通过使用能量函数,SimAM能够为不同的视觉任务分配三维权重,而无需增加额外的参数。这种方法使得特征提取更加高效。
  6. SimAM对CNN的增强作用

    • 文中提到,SimAM注意力机制有效增强了CNN的特征提取能力。在这种情况下,牌照特征图中的每个像素被视为能量函数中的一个神经元,其最小能量可以被表示出来。

SimAM通过引入无参数的三维注意力机制,模拟人类视觉系统的特性,提升了深度学习模型在特征提取方面的表现。这种机制不仅考虑了空间和通道之间的关系,还利用了神经元的放电模式,优化了视觉信息的处理方式,从而在速度和准确性上取得了显著的提升。

实验总结

在特征提取中,主干网络发挥着至关重要的作用。原始的 YOLOv7 架构具有一个由 50 个模块组成的主干网络,包括 CBS 模块、最大池化 (MP) 模块、ELAN 模块和 ELAN-H 模块。ELAN 和 ELAN-H 模块是 YOLOv7 的关键组件,旨在增强网络的性能和效率。ELAN 模块聚合多个层的特征,有效地合并来自不同层次的信息,并利用跳跃连接和多层融合来减少深度网络中常见的梯度消失问题。在 ELAN 的基础上,E-ELAN 进一步增强了特征聚合能力,并采用更高效的层聚合策略以降低计算复杂度,并使用扩展层聚合技术来提取更丰富的特征。

传统的 ELAN 模块作为一个高效的远程网络,能够通过移位卷积有效地提取局部图像结构。它通过共享注意力机制实现了模型推理时间的减少。此外,引入了 SimAM 模块用于处理原始图像。通过整合 SimAM 的空间和通道注意力机制,可以有效解决这个问题,同时基于成熟的神经科学理论。Liang 等人于 2021 年提出了 SimAM,这是一种完全的 3D、加权且无参数的注意力机制。与其他现有的注意力机制相比,SimAM 考虑了空间和通道因素之间的相关性,并能够高效地生成逼真的 3D 权重,以增强模型的收敛性能。SimAM 的注意力机制通过评估神经元的重要性来提高模型的注意力能力,其中具有空间抑制效果的神经元被认为更有价值,涉及在头部部分的 SPPCSPC 模块之后加入 SimAM 注意力模块。

本节探讨了使用 SimAM 对 YOLOv7 进行的改进,因为近年来物体检测模型不断增强,不仅引入了各种策略和技术,还随着技术的进步增加了检测层的数量。第三节讨论了用 SimAM 注意力机制替换 YOLOv7 的检测层,从而实现检测性能的提升和轻量化。

为了进一步确认检测准确性是否可以进一步提高,本文提出了一个实验,在不调整 ELAN 检测层的情况下,向 YOLOv7 的 ELAN 结构中添加一个额外的 SimAM 检测层。训练和测试在不同的训练周期(epochs)下进行。

本文随机选择了 CCPD2019 数据集中的 100,000 张车牌图像进行训练。表 7 显示,在将检测层替换并设置训练周期为 16 的情况下,最高准确率达到了 98.84%。表 8 显示,当添加检测层并将周期设置为 8 时,准确率超过了替换检测层时的 mAP@0.5 数据。在周期为 20 时,mAP@0.5 达到 98.91%。

然而,在添加检测层的情况下,参数数量从 66.4M 增加到 70.1M,但仍低于原始 YOLOv7(在第二节中提到),其参数为 71.3M。表 9 显示了 IoU 和 FPS 的不同检测结果。当 IoU 为 0.5 和 0.75 时,准确率结果几乎相同。然而,提出的方法在 Db 数据集的 mAP 改进了 0.3%,这表明该方法有效处理了图像的轻量性。此外,还测试了 FPS 的检测速度。与原始 YOLOv7 算法相比,改进后的算法由于额外层的引入而增加了复杂性,GFLOPs 从 103.2 增加到 108.6,FPS(每秒帧数)的检测速度略微下降,从 117.87 降至 110.11,但精度 mAP 提高了 0.47%,尤其是 Db 数据集的 AP 提高了 3.2%。提出的方法的整体性能得到了改善,检测速度 FPS 达到了车牌应用的实时要求。

实验结果表明,本文提出的 YOLO-SLD 有效提高了车牌检测的准确性,同时减少了参数数量。根据表 10 和与其他检测网络的比较,YOLO-SLD 实现了最高的检测率,Db 子集的准确性从表 5 中的 93.5% 显著提高至 96.7%。

本文通过引入 SimAM 改进了 YOLOv7 模型,在提升车牌检测准确性的同时,保持了较低的参数数量。实验结果显示,YOLO-SLD 在检测率和准确性方面优于其他检测网络,尤其在 Db 数据集上表现突出。

最后总结

针对先进的 YOLOv7 模型,本文提出了 YOLO-SLD 网络模型,主要旨在解决和改善车牌检测问题。该模型网络的改进方法主要基于模仿人类视觉注意机制。它利用了 SimAM 注意力机制,该机制考虑了空间和通道信息,并且可以动态使用。该机制优化了 YOLOv7 主干网络的特征提取和检测组件。这种优化包括替换和添加检测层,以及首次测试不同注意力机制在 CCPD 数据集上的车牌检测应用。

本文提出的 YOLO-SLD 模型在 CCPD 数据集上表现出色,相较于多篇研究论文中的其他检测网络,该模型在 mAP@0.5 值上达到了 98.91%,比 VertexNet、RLLPDR 和 YOLOv7 模型网络分别高出 0.17%、0.5% 和 0.47%。在 Db 子集上,mAP@0.5 值从原始 YOLOv7 的 93.5% 显著提高至 96.7%,标志着 3.2% 的改进。

在参数轻量化方面,YOLO-SLD 模型的参数数量为 7010 万,低于 YOLOv7 的 7130 万。因此,可以推断出本研究提出的精炼模型在准确性上有显著提高,并且便于部署,使其非常适合在不同环境中进行车牌检测。未来的工作中,本文将继续优化模型网络结构。例如,本文可以专注于车牌内的文本识别,或整合其他文本识别网络,以充分利用车牌图像中的相关信息,从而增强自动车牌识别(ALPR)在不同场景下的能力。

相关推荐
女王の专属领地6 分钟前
深入浅出《钉钉AI》产品体验报告
人工智能·钉钉·语音识别·ai协同办公
新智元7 分钟前
Grok 3证明黎曼猜想,训练遭灾难性事件?数学家称不夸张,两年内AI将解出千禧年难题
人工智能·后端
摆烂仙君11 分钟前
论文《基于现实迷宫地形的电脑鼠设计》深度分析(三)——环境感知驱动算法
人工智能·计算机视觉
B站计算机毕业设计超人12 分钟前
计算机毕业设计Python美食推荐系统 美团爬虫 美食可视化 机器学习 深度学习 混合神经网络推荐算法 Hadoop Spark 人工智能 大数据毕业设计
大数据·人工智能·爬虫·python·深度学习·机器学习·课程设计
说私域16 分钟前
社交电商的优势及其与 AI 智能名片小程序、S2B2C 商城系统的融合发展
人工智能·小程序
资源补给站26 分钟前
论文6—《基于YOLOv5s的深度学习在自然场景苹果花朵检测中的应用》文献阅读分析报告
人工智能·深度学习·yolo
ahhhhaaaa-28 分钟前
【AI图像生成网站&Golang】图床上传与图像生成API搭建
开发语言·人工智能·golang
不如语冰1 小时前
跟着问题学2——传统神经网络-多层感知机详解
人工智能·python·深度学习·神经网络·机器学习·ai·语言模型
电子手信1 小时前
知识库管理系统:企业数字化转型的加速器
大数据·人工智能