【论文阅读】Railway rutting defects detection based on improved RT‑DETR

Railway rutting defects detection based on improved RT‑DETR

发表期刊:Journal of Real-Time Image Processing;发表时间:2024;
论文地址

摘要

铁路道岔是轨道系统的关键部件,其缺陷会导致严重的安全事故和重大的财产损失。铁路道岔缺陷分布不均匀、大小不一,再加上环境照明的变化和复杂的背景,对传统的检测方法提出了挑战,往往导致检测精度低、实时性差。针对提高道岔缺陷检测性能的问题,提出了一种基于RT-DETR体系结构的高精度识别模型FRICH-HILO-BiFPN-DETR(FHB-DETR)。首先,设计了基于FASTER BLOCK的faster CGLU模块,通过局部卷积和门控机制优化了局部和全局特征信息的聚合。该方法在提高特征提取能力的同时,减少了计算量和参数个数。其次,我们用HALO注意取代了多头注意机制,减少了参数数和计算量,提高了实时性。在特征融合方面,我们使用BiFPN代替CCFF来更好地捕捉细微缺陷特征,并通过加权机制优化了特征映射的权重。实验结果表明,与RTDETR相比,FHB-DETR在保持较高帧率的同时,mAP50提高了3.5%,参数个数减少了25%,计算复杂度降低了6%,满足了实时性能要求。

引言

铁路作为现代国民经济的重要基础设施,是公众的主要交通方式。在我国铁路系统中,道岔作为列车进路切换的关键部件,起着至关重要的作用。随着铁路运输里程的增加,道岔在使用过程中不可避免地会产生切屑、开裂、磨损等各种缺陷 。如果这些缺陷得不到及时发现和解决,就会对列车运行安全和乘客生命财产安全构成重大威胁。因此,有必要对道岔缺陷进行及时、准确的检测和识别,以确保铁路运营安全。目前,人工检测仍然是缺陷检测的主要方法,但耗时、效率低、成本高 ,难以满足高频、高精度的检测要求。因此,迫切需要一种高效的铁路缺陷检测算法来提高铁路的安全性,实现轨道检测的自动化,缩短检测时间,降低维修成本,减轻工人的劳动强度。该检测系统可以利用图像处理、计算机视觉、机器学习和高速高分辨率摄像机等成熟的技术来实现对道岔缺陷的高效识别和检测。引进这些先进的道岔缺陷检测技术不仅是必要的,而且在技术上也是可行的。这将为铁路运输安全运行提供坚实支撑,推动铁路维修技术向自动化、智能化迈进。

...

然而,值得注意的是,铁路道岔缺陷不同于其他铁路部件缺陷。上述因素,即不均匀的分布、不同的大小、不断变化的环境光照和复杂的背景 ,使得特征提取过程具有挑战性,并且容易被错误检测。特别是,当重载列车通过道岔时,这种缺陷对铁路安全的影响明显增强 。因此,实现道岔缺陷的准确识别和定位是确保铁路安全的当务之急。此外,现有的大多数目标检测数据集(Microsoft Coco)和模型(YOLO系列)主要是为一般目标检测任务设计的,而不是特定的工业缺陷检测 。虽然这些通用模型在公共数据集上显示了有效性,但它们在工业场景中的适用性和性能往往受到限制。我们选择RT-DETR作为我们方法的基础 ,并提出了增强方案,以解决铁路道岔缺陷场景的高度复杂性。我们的实验表明,通过结合Faster CGLU模块、HALO模块和BiFPN特征金字塔,我们可以显著提高检测的准确性和稳定性 。综上所述,本文侧重于道岔缺陷检测,而不是一般的目标检测任务,这主要是因为它的特殊性和重要性。我们研究的目的是为铁路行业开发更可靠的缺陷检测解决方案,最终目标是提高铁路运营的安全和效率

方法

具体改进:

1、Faster CGLU模块:涉及骨干网络中ResNet18的BasicBlock卷积的方法被Faster CGLU模块所取代 ,显著减少了冗余计算和内存访问,提高了检测速度和实时性能。Faster CGLU模块结合了PConv卷积和门控机制,从而提高了计算效率,减少了参数数量,同时增强了模型在复杂场景下的抗干扰性和鲁棒性。

2、H-AIFI模块:将RT-DETR中的AIFI模块替换为H-AIFI模块 ,增强了模型与特征的交互能力。H-AIFI模块采用HILO自我注意机制 ,将自我注意层分为高频和低频两条路径,分别捕捉高频和低频之间的交互。在高频路径中,使用局部窗口自关注来捕获细节高频信息,而在低频路径中,使用全局自关注来捕获全局结构信息。这种分离方法有效地降低了计算量,同时提高了模型精度,特别是在处理复杂背景和小目标时。

3、BiFPN特征金字塔:由于BiFPN在特征提取和跨尺度特征融合方面的突出表现,本文将BiFPN用于RT-DETR中的CCFF。虽然CCFF模块实现了跨尺度的特征融合,避免了特征地图信息的丢失和冗余,但在小目标检测、遮挡等复杂场景中表现不佳。BiFPN模块采用加权双向多尺度融合,并引入可学习的权值来分配不同分辨率下的特征地图权重,从而实现了不同层次和角度的特征信息的全面融合。这不仅增强了模型的语义建模和上下文感知能力,而且提高了模型的健壮性和准确性,使其更适合于复杂的目标检测任务。

Faster CGLU

为什么改进/使用?

在ResNet体系结构中,基本块由两个3×3卷积层组成。在每次卷积之后,首先使用批归一化(BN)层进行处理,然后由RELU激活函数非线性地激活。原始输入和卷积输出的总和在每个块的末尾通过剩余连接来保留,并且除了第一个3×3卷积之外,后续的卷积使输出通道的数量加倍,同时减小了输出的空间尺寸。该设计增强了卷积神经网络的学习能力,提高了模型的表达能力。然而,它也带来了计算量的增加和频繁的内存访问,导致许多冗余和无用的特征映射在网络中重复,最终导致网络性能的下降。因此,本文设计了一种新的模块FASTER-CGLU来代替骨干网络中BasicBlock的第二次3×3卷积。

效果怎么样?

与传统的卷积相比,更快的CGLU模块在多通道信息利用、减少参数数量和计算代价、保持丰富的梯度循环、增强空间特征提取能力等方面表现出优越的性能,这也有助于模型更好地识别不同大小和形状的缺陷。

原理?
FasterNet提出了PConv的概念,即只对部分输入通道进行卷积运算,而不对其他输入通道进行卷积运算。这在一定程度上大大降低了计算复杂度和内存访问次数 。PConv通过在输入特征图的第一或末尾选择通道的数量来表示输入通道的总数。当选择通道数作为输入通道数的1/4时,计算复杂度降低到原来的1/16。
Faster Block可以优化因冗余计算而增加参数数量的问题,同时减少内存访问,并能更好地捕捉空间特征 。在PConv卷积之后加入逐点卷积以调整特征的通道数,并引入BN层以使网络的数据分发更加稳定。然而,BN在处理局部特征方面存在缺陷,尤其是在捕获细粒度信息方面不足,促使研究人员探索新的解决方案 。近年来,门控线性单元(GLUs)通过引入动态门控机制来增强特征表示表现出优异的性能 ,从而提高自然语言处理任务的性能。根据这些发展,已经开发了各种基于GLU的变体,例如卷积前馈网络、GLU、具有集成SE模块的前馈网络和卷积GLU。我们选择用卷积门控线性单元(CGLU)来代替Faster Block中的BN层,这一改变不仅增强了模型的通道注意机制,而且优化了特征整合局部和全局信息的能力。动态门控机制保证每个令牌的门控信号源自自身,避免了全局平均池可能带来的信号共享问题,提高了注意力机制的灵活性和细粒度区分能力。通过深度卷积运算,CGLU能够更有效地捕捉局部特征,增强了模型处理细粒度特征的能力。卷积和GLU门控机制的结合使模型在保留卷积的局部特征提取优势的同时,还使用线性变换来实现全局信息的有效聚集。

Hilo 注意力

为什么改进/使用?

在RT-DETR的混合编码器设计中,S5级特征图经历了关键的处理步骤:首先,通过AIFI模块对其进行深化。随后,通过CCFF将其与其他尺度进行集成,实现了多尺度信息的有效集成。AIFI模块最初采用Transformer中的多头自关注机制来挖掘S5特征图的深度相关性,但该机制存在参数多、计算复杂度高、内存消耗大等问题,限制了模型的训练效率和收敛速度

效果怎么样?

为了克服这些挑战,我们引入了一种创新的HELO注意机制来取代AIFI模块,该机制旨在显著减少模型参数的数量,降低计算复杂度,同时分离特征图中的高频和低频信息,削弱复杂背景信息对钢轨缺陷检测的干扰,增强模型对小缺陷和复杂特征的特征提取能力

具体原理

具体地说,HALO机制由两个平行的注意分支组成:低频注意(LO-Fi)和高频注意(Hi-Fi)Lo-Fi分支专注于捕获输入数据的全局依赖关系,不需要高分辨率的特征映射,并通过全局视角进行处理 。相反,Hi-Fi分支致力于提取精细的局部特征细节,依赖于高分辨率的特征映射,并通过局部加窗自关注(例如,使用2×2窗口)来高效地执行,这大大降低了计算负担。在头部分割方面,在多头自关注中使用相同数量的头部,并将它们分成两组,分割比率为x,其中(1−x)NH头部用于Hi-Fi,其余的xNH头部用于Lo-Fi。这样的设计比标准MSA的计算复杂度更低,实现了更低的复杂度,并确保了GPU的高吞吐量。可学习参数wo的引入有效地减少了计算量,在计算中可以分解为w1和w2。最后,Hilo注意的输出是针对Hi-Fi和Lo-Fi的Conat结果。

BiFPN

为什么改进/使用?

在多尺度特征融合技术的不断演进中,颈部部分的设计起着至关重要的作用,经历了从最初的自上而下的特征融合方案FPN到适应不同应用场景的各种变体的逐步演变。PAFPN结构由于增加了自底向上的路径,在YOLOv8中得到了应用,有效地增强了对特征的语义和空间尺度的理解。RT-DETR中的CCFF模块进一步扩展了PANET的概念,通过跨尺度特征融合提高了传统PAFPN的融合效率。而BiFPN的出现通过引入密集连通策略和加权融合方法,进一步丰富了特征融合的维度和质量,特别是在处理复杂场景和小目标检测方面显示出显著的优势。因此,我们决定将BiFPN引入RT-DETR框架中,以取代原有的CCFF模块,旨在增强模型的多尺度融合能力 。目前的各种金字塔FPN结构如图所示。

具体原理?
BiFPN的核心创新是其独特的双向融合策略和加权机制。与仅实现自上而下融合的模糊神经网络相比,BiFPN通过双向(自上而下和自下而上)融合路径显著增强了特征表示的全面性。此外,该结构使用了可学习的加权参数,从而允许网络动态调整不同尺度上的特征贡献,其中使用휀=0.0001的小的常量设置来确保训练的早期阶段的稳定性。

实验及结果分析

实验数据集

在本研究中,为了确保数据集的真实性和可用性,铁路检查员采集了图像。这些JPEG图像的分辨率在1200×1600到3000×4000像素之间,是从车辙叉子上方0.5-1.5m的角度拍摄的。经过筛选过程,共筛选出500幅图像,其中450幅为缺陷图像,50幅为非缺陷图像。这些图像是在一天中不同的时间、不同的天气和光照条件下拍摄的,以确保数据集的多样性和代表性 ,如下图所示。

本文采用数据分割和增强的方法对铁路车辙图像数据进行优化利用。数据分为三部分:70%的训练集、20%的测试集和10%的验证集。使用随机缩放、翻转、亮度调整、灰度变换、模糊和噪声添加等多种数据增强技术来扩展数据集,提高模型的性能,如图7所示。数据增强后,数据集图像扩展到2500幅图像,包括训练集中的1750幅图像、测试集中的500幅图像和验证集中的250幅图像。

数据增强后的图像:

评价指标

mAP50、mAP50:95、Params、FPS、Precision、R、GFLOPs:

实验结果

不同FPNs:

不同模块的消融:

鉴于目前还没有关于钢轨车辙缺陷的公开数据集,本文利用东北大学提供的公开数据集neu-det(钢表面缺陷)对FHB-DETR的泛化性能进行了验证 ,该数据集包括六种类型的钢表面缺陷,即裂纹(Cr)、夹杂物(In)、补丁(Pa)、点蚀表面(Ps)、轧制氧化物(RS)和划痕(RS)和点蚀(RS)。(RS)和划痕。TRACE(SC),共1800幅图像,每个缺陷300幅图像,图像分辨率为200×200,按照8:1:1的比例随机划分训练集、验证集、测试集,即训练集1440幅、验证集180幅、测试集180幅。

NEU-DET数据集图像:

NEU-DET数据集上的实验结果对比:

对比实验:

PR曲线对比:

基线模型出现误检的图片:

不同模型在容易误检图片上的检测性能对比:

相关推荐
bylander2 小时前
【论文阅读】A Survey of Reinforcement Learning for Large Reasoning Models
论文阅读·大模型·llm·强化学习
起个名字费劲死了3 小时前
Pytorch Yolov11 OBB 旋转框检测+window部署+推理封装 留贴记录
c++·人工智能·pytorch·python·深度学习·yolo·机器人
神仙别闹3 小时前
基于 Python 模式识别(纹理图片里的目标检测)
python·目标检测·目标跟踪
Billy_Zuo4 小时前
人工智能深度学习——循环神经网络(RNN)
人工智能·rnn·深度学习
洁宝趴趴4 小时前
Real-Time MDNet
人工智能·深度学习
AI人工智能+5 小时前
AI攻克阿拉伯文OCR:深度学习如何破译千年文字密码
人工智能·深度学习·ocr·阿拉伯文识别
风亦辰7395 小时前
机器学习 vs 深度学习:区别与联系
人工智能·深度学习·机器学习
lxmyzzs6 小时前
【图像算法 - 28】基于YOLO与PyQt5的多路智能目标检测系统设计与实现
人工智能·算法·yolo·目标检测
baole9637 小时前
深度学习---PyTorch 神经网络工具箱
pytorch·深度学习