第一章 引言
1.1 研究背景与意义
工业产品中铸件作为基础零部件,其质量直接影响设备运行安全与使用寿命。在汽车制造、机械装备等领域,铸件内部可能存在的缩孔、裂纹等缺陷会显著降低产品性能。传统X射线检测主要依赖人工评片,检测人员需长时间观察灰度图像,通过经验判断缺陷位置与类型[18]。这种方式存在主观判断差异大、检测速度慢、微小缺陷易漏检等问题,难以满足现代自动化产线对质量检测的实时性要求。
现有自动化检测技术多采用人工设计特征的方法,通过设定特定阈值或形态学规则识别缺陷[13]。这类方法对形状规则、对比度高的缺陷具有较好效果,但面对铸件缺陷形态多样、尺寸微小、边缘模糊等复杂情况时,其识别精度和适应性明显不足。特别是当缺陷与背景灰度差异较小时,传统算法容易产生误判或漏检,严重制约了检测系统的实际应用价值。
深度学习技术为突破这一瓶颈提供了新思路[2]。通过卷积神经网络自动提取图像特征,能够有效捕捉人工难以描述的复杂缺陷模式。本研究针对铸件缺陷的微小性和多态性特点,构建yolo系列的模型,结合数据增强策略提升模型泛化能力。该方法不仅能够识别传统方法难以检测的低对比度缺陷,还能适应不同形态缺陷的识别需求,显著提高检测系统的稳定性和可靠性。研究成果可直接应用于铸造产线质量检测环节,为智能制造体系提供实时、精准的缺陷识别解决方案,对提升产品质量控制水平、降低人工成本具有重要实践价值。
1.2 国内外研究综述
在缺陷检测技术发展历程中,国内外学者针对不同应用场景提出了多种解决方案。早期研究主要集中于传统图像处理技术,如国外学者提出的基于阈值分割与形态学处理相结合的缺陷定位方法,通过设定灰度阈值和结构元素实现简单缺陷的识别[16]。这类方法对高对比度、规则形状的缺陷具有较好效果,但面对铸件X光图像中常见的灰度渐变、伪影干扰时,其检测稳定性显著下降。国内研究者在此基础上引入边缘梯度分析,通过Sobel算子增强缺陷轮廓,虽能改善裂纹类线性缺陷的识别效果,但对气孔等低对比度缺陷仍存在漏检问题。
随着深度学习技术的突破,国外研究团队率先将卷积神经网络应用于工业检测领域。具有代表性的工作包括基于Faster R-CNN框架的缺陷分类系统,通过区域建议网络生成候选区域,有效提升了检测效率。后续改进方案引入注意力机制模块,使模型能够聚焦于缺陷特征区域,降低背景噪声干扰[12]。近期研究重点转向多尺度特征融合,通过构建特征金字塔结构,同步提取不同层级的语义信息,显著提升了微小缺陷的识别能力。这些方法在标准测试集上展现出优于传统算法的性能,但在实际工业场景中仍面临复杂背景干扰的挑战。
国内研究团队在数据增强与模型优化方面取得重要进展。针对工业缺陷样本稀缺问题,提出基于生成对抗网络的数据扩充方法,通过合成逼真缺陷图像缓解样本不足的困境。在模型轻量化方向,通过通道剪枝和量化压缩技术,在保证检测精度的同时大幅降低计算资源消耗。部分研究结合迁移学习策略,利用ImageNet预训练模型进行参数初始化,有效提升了小样本条件下的模型泛化能力。然而,现有方法在处理多形态混合缺陷时,仍存在特征混淆和误判率较高的问题。
当前研究趋势表明,结合多尺度特征提取与自适应注意力机制的混合模型,在复杂工业场景中展现出更大潜力。但现有算法在微小缺陷定位精度、多类别缺陷同步识别等方面仍存在改进空间,特别是针对铸件X光图像特有的低对比度、伪影干扰等特性,需要开发更具针对性的网络结构和训练策略。这为本文研究多尺度特征融合模型提供了理论依据和技术突破口。
1.3 论文主要内容与结构安排
本文主要针对yolo系列和RT-DETR系列训练了针对小目标的零件缺陷问题进行检测,并进行了指标的评估。
第一章:主要对相关研究背景与意义进行介绍。
第二章:主要对项目所用到的技术进行介绍。
第三章:主要对项目模型的训练与评估结果进行分析。
第四章:进行项目的总结与展望。
第二章 相关技术介绍
2.1 算法设计环境
2.1.1 conda环境
首先需打开终端并执行conda create -n yolo_env python=3.9命令创建python3.9的环境,随后通过conda activate yolo_env激活环境,安装PyTorch框架时需根据CUDA版本选择对应命令,例如conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch版本,之后使用pip安装YOLO相关依赖库,包括opencv-python、matplotlib、scipy、tqdm、tensorboard及pycocotools,通过克隆Ultralytics仓库并运行pip install -r requirements.txt完成环境配置,最后通过import torch及版本检查命令验证环境是否正常,整个过程需确保依赖版本与YOLO代码要求严格匹配,必要时可通过conda list对比版本号并调整安装参数,最终形成隔离且完整的深度学习开发环境。
2.1.2 python
Python作为当前人工智能领域的主流编程语言,凭借其简洁的语法结构和丰富的生态系统,为深度学习模型的开发与部署提供了高效的技术支持。该语言采用动态解释型设计,支持面向对象、函数式编程等多种范式,特别适合处理图像处理、数值计算等需要快速迭代的实验场景。在工业缺陷检测领域,Python通过整合开源库与工具链,构建起从数据预处理到模型训练的全流程解决方案。
在数据处理环节,Python的NumPy库提供多维数组运算能力,可高效完成X光图像的矩阵化存储与批量处理。结合OpenCV库实现图像灰度化、直方图均衡化等预处理操作,有效增强缺陷区域与背景的对比度。针对铸件缺陷样本稀缺问题,利用Albumentations库实施数据增强策略,通过随机旋转、对比度调整等操作扩充数据集,提升模型对缺陷形态变化的适应能力。这些预处理步骤为后续特征提取奠定了可靠的数据基础。
在模型开发层面,Python生态中的深度学习框架显著降低了算法实现门槛。TensorFlow和PyTorch作为主流框架,提供自动微分、GPU加速等核心功能,支持快速搭建多尺度特征融合网络。通过Keras高级API,可便捷构建包含卷积层、池化层的特征提取模块,并引入注意力机制增强对微小缺陷的聚焦能力。模型训练过程中,Matplotlib库可实时可视化损失函数曲线,辅助进行超参数调优,确保网络收敛效果。
在工业部署方面,Python通过Flask等轻量级框架实现检测系统的服务化封装,将训练好的模型封装为RESTful API接口。结合Nginx反向代理和Gunicorn应用服务器,可构建高并发的在线检测服务,满足铸造产线实时质检需求。此外,Python的跨平台特性支持在嵌入式设备部署优化后的模型,通过ONNX格式实现不同框架模型的转换,确保检测系统在工业现场环境中的稳定运行。
本研究选择Python作为技术实现工具,主要考量其在深度学习领域的成熟生态与社区支持。开源库的丰富性使得研究者能专注于算法创新而非底层实现,交互式编程特性则便于进行缺陷检测模型的快速验证与迭代。特别是在处理铸件X光图像这类专业领域数据时,Python灵活的可扩展架构允许自由组合图像处理模块与深度学习组件,为构建适应复杂工业场景的检测系统提供了可靠的技术保障。
2.1.3 opencv
OpenCV作为开源的计算机视觉库,在工业缺陷检测领域发挥着基础性作用。该库提供超过2500个优化算法,涵盖从图像处理到特征提取的全流程功能模块,特别适合处理铸件X光图像这类专业检测任务。其跨平台特性和简洁的API设计,使得开发者能够快速构建图像处理流水线,为后续深度学习模型提供高质量输入数据。
在图像预处理阶段,OpenCV通过灰度转换功能将X光图像转换为单通道矩阵,有效降低数据维度。针对铸件图像常见的噪声干扰问题,中值滤波算法能有效消除椒盐噪声,同时保留缺陷边缘细节[17]。直方图均衡化模块通过调整像素分布,增强低对比度区域的可见性,这对识别与背景灰度相近的微小缺陷尤为重要。这些预处理操作显著提升了图像质量,为特征提取奠定基础。
在特征分析层面,OpenCV的轮廓检测算法通过Canny边缘检测和轮廓查找函数,可自动定位疑似缺陷区域。形态学操作中的膨胀、腐蚀等函数,能有效连接断裂的缺陷边缘或消除孤立噪点。针对铸件缺陷的多样性特点,HOG特征描述子可提取纹理特征,SIFT算法则对旋转和尺度变化具有鲁棒性。这些传统特征提取方法为后续深度学习模型提供了重要的辅助信息。
与深度学习框架的整合应用是OpenCV的重要优势[7]。通过VideoCapture模块可直接读取工业相机的实时图像流,配合DNN模块加载训练好的TensorFlow或PyTorch模型,构建端到端的检测系统。在数据增强环节,OpenCV的几何变换函数与颜色空间转换功能,能够生成多样化的训练样本,有效提升模型泛化能力。这种传统图像处理与深度学习的协同工作模式,在工业检测场景中展现出独特价值。
对于铸件X光图像特有的伪影干扰问题,OpenCV提供基于模板匹配的伪影定位方法。通过建立标准件的参考模板,利用匹配算法识别图像中的固定模式伪影区域,为后续缺陷识别排除干扰因素。在检测结果可视化方面,该库的绘图函数支持在原始图像上标注缺陷位置,并生成符合工业标准的检测报告,显著提升检测结果的可解释性。这些功能使其成为连接传统视觉检测与深度学习技术的关键桥梁。
2.2 yolov网络
2.2.1 yolov5架构介绍
YOLOv5[1]作为单阶段目标检测算法的典型代表,在工业缺陷检测领域展现出显著优势[5]。该模型采用端到端的检测框架,将目标定位与分类任务统一在单一神经网络中,相较于传统两阶段检测方法具有更快的推理速度。其网络架构主要由Backbone主干网络、Neck特征融合模块和Head检测头三部分组成,这种分层结构有效平衡了检测精度与计算效率[11]。在铸件缺陷检测场景中,YOLOv5能够直接处理X光图像并输出缺陷位置及类别信息,满足工业产线实时检测需求。
主干网络采用改进的CSPDarknet53结构,通过跨阶段局部连接设计减少计算冗余。该结构在保持特征提取能力的同时,显著降低模型参数量,这对处理高分辨率X光图像尤为重要。Focus模块的引入实现切片操作,将输入图像通道数扩展四倍,既保留空间信息又提升小目标检测能力。针对铸件缺陷微小且边缘模糊的特点,网络深层通过堆叠卷积层捕获高级语义特征,浅层则保留更多细节信息,为多尺度缺陷检测奠定基础。
特征金字塔结构是YOLOv5的核心创新之一。通过自顶向下和自底向上的双向特征融合,将不同尺度的特征图进行信息交互。低层特征的高分辨率信息与高层特征的语义信息相结合,有效提升模型对微小缺陷的敏感度[15]。在铸件检测任务中,该设计使网络能够同时识别毫米级气孔和厘米级裂纹等不同尺寸缺陷。自适应锚框计算功能可根据具体数据集自动优化预设锚框尺寸,这对形态多样的铸件缺陷检测具有重要价值。
数据增强策略的灵活应用是YOLOv5的重要优势[9]。Mosaic增强技术将四张训练图像拼接组合,模拟复杂背景下的缺陷分布情况,增强模型对干扰因素的鲁棒性。针对X光图像对比度低的特点,HSV色彩空间随机调整可有效提升模型对灰度变化的适应能力。在模型优化方面,CIoU损失函数综合考虑重叠区域、中心点距离和长宽比等因素,使缺陷定位框的回归更加精准。这些特性使YOLOv5在保持较高检测速度的同时,能够有效应对工业场景中的复杂检测需求。
在工业部署层面,YOLOv5提供完整的模型压缩方案。通过通道剪枝和量化技术,可将模型体积压缩至原有尺寸的1/4,满足嵌入式设备部署要求。ONNX格式的导出功能实现跨平台兼容,便于在多种工业控制系统集成。针对铸件检测任务,可通过调整网络深度与宽度参数,在检测精度与推理速度间取得平衡。这些特性使其成为构建实时缺陷检测系统的理想选择,为后续研究中的模型改进提供了可靠基础框架。
YOLOv5的网络架构基于改进的CSP-Darknet53主干网络,整体由Backbone、Neck和Head三部分组成,通过模块化设计与动态参数调节实现高效目标检测。其Backbone采用C3模块(跨阶段部分网络)替代传统残差结构,通过分支卷积与特征拼接减少计算冗余,并结合SPPF模块(快速空间金字塔池化)串行执行多尺度池化操作,在保留多尺度特征表达能力的同时显著提升推理速度(较SPP快2.5倍)。Neck部分采用优化的PANet结构(路径聚合网络),结合自顶向下与自底向上的双向特征融合机制,通过CSP-PAN增强跨尺度信息传递效率,提升小目标检测精度。Head部分沿用YOLOv3解耦头设计,但引入无锚点预测机制,直接输出目标中心点偏移量及宽高比例,结合Task-Aligned Assigner动态样本分配策略,基于分类得分与回归IoU加权筛选正样本,替代静态分配规则以增强复杂场景适应性。输入端集成Mosaic数据增强(四图拼接)、自适应锚框计算(k-means聚类优化)及自适应图片缩放(最小黑边填充),减少冗余计算并提升训练鲁棒性。网络支持五种变体(n/s/m/l/x),通过depth_multiple(深度系数)与width_multiple(宽度系数)动态调节模块堆叠次数与卷积通道数,例如YOLOv5s的深度系数为0.33、宽度系数为0.5,参数量仅7.2M,而YOLOv5x则通过系数1.0和1.25实现更高精度。损失函数方面,分类任务采用BCE Loss,回归任务结合DFL Loss(分布焦点损失)与CIoU Loss,前者通过概率分布建模优化边界框预测平滑性,后者综合中心距离、重叠率与宽高比差异提升定位精度。整体架构通过轻量化模块、动态优化策略与多任务兼容设计,在COCO数据集上实现实时检测速度与高精度平衡,广泛应用于工业检测、自动驾驶及医疗影像等领域。具体网络架构图如下图2-1所示:

图2-1 yolov5网络架构图
2.2.2 Real-Time Detection Transformer
Real-Time Detection Transformer(RT-DETR)是一种基于Transformer架构的先进目标检测模型[3],它通过结合传统卷积神经网络与自注意力机制的优势[6],在工业缺陷检测领域展现出独特价值。该模型的核心创新在于将Transformer的全局建模能力与实时检测需求相结合,有效解决了传统卷积神经网络在长距离依赖关系建模上的局限性。对于铸件X光图像中常见的复杂背景干扰和微小缺陷特征,这种混合架构能够更精准地捕捉关键信息。
模型采用编码器-解码器结构作为基础框架。编码器部分通过多尺度特征提取模块处理输入图像,利用可变形卷积动态调整感受野,这对识别不同尺寸的铸件缺陷尤为重要。解码器则引入交互式查询机制,将预设的可学习位置查询向量与图像特征进行匹配,逐步定位缺陷区域。这种设计避免了传统检测算法中锚框预设带来的偏差,特别适合处理形态不规则的缺陷类型。在特征融合环节,模型采用混合编码策略,将浅层细节特征与深层语义特征进行跨尺度交互,显著提升对微小裂纹、气孔等低对比度缺陷的识别能力。
与传统检测模型相比,RT-DETR在三个方面具有显著优势。首先,其特有的自适应注意力机制能够动态分配计算资源,重点聚焦疑似缺陷区域,减少对无关背景信息的处理。其次,模型通过去除非极大值抑制(NMS)等后处理步骤,实现真正的端到端检测,这对保证工业检测系统的实时性至关重要。最后,Transformer架构固有的并行计算特性,使其在处理高分辨率X光图像时仍能保持较高推理速度,满足产线连续检测的时效性要求。
在铸件缺陷检测场景中,该模型通过多任务联合训练策略同步优化缺陷定位与分类精度。针对X光图像中伪影与真实缺陷易混淆的问题,模型引入对比学习机制,通过构建正负样本对增强特征判别能力。训练过程中采用动态标签分配技术,根据特征相似度自动调整样本权重,有效缓解了因缺陷尺度差异带来的训练不均衡问题。这些优化措施使模型在面对边缘模糊、形态多变的铸件缺陷时,表现出更强的特征分辨能力和鲁棒性。
实际应用表明,该架构能够有效处理传统检测模型难以应对的复杂情况。例如,当多个微小缺陷呈簇状分布时,模型通过自注意力机制建立缺陷间的空间关系,准确区分相邻缺陷边界。对于与铸件结构纹理高度相似的缺陷特征,其跨通道特征交互模块能捕捉细微的灰度变化模式。这些特性使其特别适合处理铸造过程中产生的各类隐蔽性缺陷,为自动化质量检测提供了新的技术路径。
RT-DETR-L的网络架构基于百度飞桨提出的实时检测框架RT-DETR,以HGNetv2作为主干网络(Backbone),结合混合编码器(Hybrid Encoder)和轻量化Transformer解码器实现端到端实时目标检测。其主干网络HGNetv2通过深度可分离卷积与跨阶段特征融合优化计算效率,输出S3、S4、S5三个层级的特征图,分别对应不同尺度的语义信息(S5为深层高语义特征,S3、S4保留低层空间细节)。混合编码器由AIFI(尺度内特征交互模块)和CCFM(跨尺度特征融合模块)构成:AIFI仅对S5特征图进行多头自注意力计算,通过全局建模捕获长距离依赖关系,并嵌入位置编码增强空间感知能力,显著降低Transformer编码器的计算复杂度;CCFM则通过类PANet结构的CNN模块(包含RepVGG块)对S3、S4特征进行自上而下与自下而上的跨尺度融合,结合上采样、下采样及特征拼接操作优化多尺度目标的特征表达能力,形成兼具语义与细节的多级特征金字塔。解码器采用单层Transformer设计,引入IoU感知查询选择机制,基于分类得分与预测框IoU的加权对齐度动态筛选高质量初始查询(Queries),替代传统Top-K选择策略,减少低IoU高分类误差的干扰,提升检测精度。网络整体采用无锚点(Anchor-Free)和无NMS设计,直接输出检测结果,避免了传统检测器中非极大值抑制(NMS)带来的延迟与超参数敏感性问题。训练阶段采用640×640输入分辨率,结合基础数据增强(随机翻转、裁剪、颜色抖动)与AdamW优化器,通过72个训练周期在COCO数据集上达到53.0%的mAP,参数量仅32M,计算量110G FLOPs,在T4 GPU上实现114 FPS的实时推理速度,其性能与效率均超越同规模YOLO系列模型(如YOLOv8-L),成为首个兼顾高精度与低延迟的端到端检测器。具体如下图2-2所示:

图2-2 rtdetr网络架构图
2.2.3 yolov8
YOLOv8作为目标检测领域的前沿算法[8],在工业缺陷检测任务中展现出更强的适应性和检测精度。该模型在继承YOLO系列单阶段检测框架优势的基础上,通过优化网络结构和训练策略,显著提升了微小目标的识别能力。其核心设计理念是在保持实时检测速度的同时,增强对复杂特征的表征能力,这对处理铸件X光图像中的多态缺陷具有重要价值。
网络架构采用重新设计的骨干网络,通过引入更高效的通道注意力机制,动态调整特征图各通道的权重分布。这种改进使模型能够自动聚焦于缺陷特征显著的图像区域,有效抑制X光图像中常见的伪影干扰。在特征融合环节,模型构建了双向多尺度连接结构,不仅将深层语义信息传递至浅层特征图,同时将浅层细节特征反向融合到深层网络,形成更完整的特征表达体系。这种设计特别有利于捕捉微小缺陷的局部细节和全局上下文信息。
针对工业检测场景的特殊需求,YOLOv8在训练策略上进行了多项创新。动态标签分配机制根据特征质量自动调整正负样本比例,缓解了因缺陷尺寸差异导致的训练不均衡问题。改进的损失函数综合考虑边界框回归精度和分类置信度,使模型在定位微小缺陷时更加精准。此外,模型通过解耦检测头设计,将分类任务与回归任务分离处理,有效避免了特征学习过程中的目标冲突。
在铸件缺陷检测应用中,该模型展现出三方面突出优势。首先,其自适应缩放功能可自动调整输入图像分辨率,在保证检测精度的同时降低计算资源消耗。其次,增强型数据增强策略整合了马赛克拼接和仿射变换,模拟了实际工业场景中缺陷的多样分布形态。最后,模型提供灵活的架构配置选项,允许根据具体任务调整网络深度和宽度,在检测速度与精度间实现最佳平衡。这些特性使其能够有效应对铸件缺陷的微小性、多态性等检测难点。
相较于前代版本,YOLOv8在特征提取机制上进行了重要改进。通过构建跨阶段局部网络结构,减少了传统卷积操作带来的特征冗余。在特征金字塔顶部引入空间金字塔池化模块,能够捕获更丰富的上下文信息,这对识别低对比度缺陷尤为关键。模型还优化了锚框生成策略,采用无锚点检测方式直接预测目标中心点,避免了预设锚框尺寸与真实缺陷不匹配的问题。这些改进为后续研究中的多尺度特征融合模型设计提供了重要技术参考。
YOLOv8的网络架构基于CSPDarknet53主干网络,采用无锚点(Anchor-Free)设计,整体分为Backbone、Neck和Head三部分,通过模块化创新提升检测效率与精度。其主干网络将YOLOv5的C3模块替换为C2f模块(跨阶段部分融合模块),通过分支结构保留梯度流并减少参数冗余,同时整合SPPF模块(快速空间金字塔池化),以串行最大池化替代并行结构,加速多尺度特征提取。颈部网络采用PA-FPN(路径聚合特征金字塔网络),结合自顶向下与自底向上的双向特征融合机制,优化了多尺度目标的上下文信息传递,并通过移除上采样阶段的卷积层进一步提升计算效率。检测头采用解耦头设计(Decoupled Head),将分类与回归任务分离,减少任务间干扰,同时引入无锚点预测机制,直接预测目标中心点坐标与宽高,替代传统锚框偏移计算,降低后处理复杂度并提升小目标检测精度。损失函数方面,分类任务使用BCE Loss,回归任务结合DFL Loss(分布焦点损失)与CIoU Loss,前者通过离散概率分布建模优化边界框预测的平滑性,后者综合考虑中心点距离、重叠率与宽高比差异,提升定位精度。此外,YOLOv8引入Task-Aligned Assigner动态样本分配策略,基于分类得分与回归IoU的加权对齐度筛选正样本,替代YOLOv5的静态分配机制,增强模型对复杂场景的适应性。网络支持多种变体(n/s/m/l/x),通过调整深度与宽度参数平衡速度与精度,例如YOLOv8n仅3.8MB(FP32)适用于边缘设备,而YOLOv8x则以9000万参数实现最高mAP,适配高精度需求场景。整体架构通过模块轻量化、动态优化策略与多任务兼容设计,在COCO基准测试中实现实时检测速度与SOTA精度的平衡,广泛应用于自动驾驶、医疗影像及工业检测等领域。Yolov8架构如下图2-3所示:

图2-3 yolov8架构图
2.2.4 yolov11
YOLOv11[4]作为目标检测领域的最新进展,在工业缺陷识别任务中展现出更强的适应性和检测精度。该模型在继承YOLO系列单阶段检测框架优势的基础上,通过优化网络结构和训练策略,显著提升了微小目标的识别能力。其核心设计理念是在保持实时检测速度的同时,增强对复杂特征的表征能力,这对处理铸件X光图像中的多态缺陷具有重要价值。
网络架构采用重新设计的特征提取模块,通过引入动态卷积核调整机制,能够根据输入图像特征自动优化卷积参数。这种自适应特性使模型在处理不同尺寸的铸件缺陷时更具灵活性,特别是对毫米级气孔等微小目标的检测效果显著提升。在特征融合环节,模型构建了双向跨尺度连接结构,不仅将深层语义信息传递至浅层特征图,同时将浅层细节特征反向融合到深层网络,形成更完整的特征表达体系。这种设计特别有利于捕捉微小缺陷的局部细节和全局上下文信息。
针对工业检测场景的特殊需求,YOLOv11在训练策略上进行了多项创新。动态标签分配机制根据特征质量自动调整正负样本比例,缓解了因缺陷尺寸差异导致的训练不均衡问题。改进的损失函数综合考虑边界框回归精度和分类置信度,使模型在定位微小缺陷时更加精准。此外,模型通过解耦检测头设计,将分类任务与回归任务分离处理,有效避免了特征学习过程中的目标冲突。
在铸件缺陷检测应用中,该模型展现出三方面突出优势。首先,其自适应缩放功能可自动调整输入图像分辨率,在保证检测精度的同时降低计算资源消耗。其次,增强型数据增强策略整合了多尺度拼接和仿射变换,模拟了实际工业场景中缺陷的多样分布形态。最后,模型提供灵活的架构配置选项,允许根据具体任务调整网络深度和宽度,在检测速度与精度间实现最佳平衡。这些特性使其能够有效应对铸件缺陷的微小性、多态性等检测难点。
相较于前代版本,YOLOv11在特征提取机制上进行了重要改进。通过构建跨阶段特征交互网络结构,减少了传统卷积操作带来的特征冗余。在特征金字塔顶部引入空间注意力模块,能够捕获更丰富的上下文信息,这对识别低对比度缺陷尤为关键。模型还优化了锚框生成策略,采用动态锚点预测方式直接生成目标位置参数,避免了预设锚框尺寸与真实缺陷不匹配的问题。这些改进为工业场景中的复杂缺陷检测任务提供了新的技术解决方案。
Yolov11通过引入C3K2模块、C2PSA注意力机制和SPFF模块优化特征提取与融合能力。首先,C3K2模块取代了YOLOv8中的C2f结构,其核心由C2f和C3模块组合而成,通过调整卷积核参数及替换BottleNeck层为C3k层,显著提升了浅层网络的特征提取效率。其次,C2PSA模块在C2f结构中嵌入改进的多头注意力机制(PSABlock),通过将LayerNorm替换为无激活的卷积层、MLP替换为双卷积层,实现了对局部遮挡和小目标区域的精细化关注,从而增强模型对复杂场景的适应能力。此外,YOLOv11在颈部网络中引入SPFF(Spatial Pyramid Pooling Fusion)模块,作为SPP的优化版本,通过多尺度池化融合策略捕获不同尺寸物体的上下文信息,并优化了特征金字塔的跨尺度连接,进一步提升小目标检测精度。在检测头设计上,YOLOv11采用深度可分离卷积(DWConv)替代传统卷积,结合1×1点卷积形成深度可分离结构,大幅减少参数量与计算成本,同时通过调整模型深度(depth)与宽度(width)的比例,平衡了不同版本(N/S/M/L/X)的性能与效率。整体而言,YOLOv11通过上述模块的协同优化,在保持实时检测速度的同时,实现了更高的平均精度(如YOLOv11m相较YOLOv8m参数减少22%且mAP提升),并支持目标检测、实例分割、姿态估计等多任务处理,兼容边缘设备与云端部署,成为Ultralytics公司当前最轻量高效的SOTA模型。Yolov11具体架构图如下图2-4所示:

图2-4 Yolov11 架构图
2.3 评价指标
核心精度指标包括平均精度均值和交并比阈值,平均精度均值通过计算多个类别在不同交并比阈值下的平均精度得到,反映了模型在不同检测难度下的综合表现,其中交并比阈值用于衡量预测框与真实框的重合程度,精确率与召回率是另一组关键指标,精确率表示模型预测正确的正样本占所有预测正样本的比例,召回率则衡量模型正确识别出的正样本占实际正样本的比例,两者的调和平均数形成F1分数,用于综合评估模型的分类能力。速度指标以每秒帧数为代表,体现模型处理图像数据的实时性,通常与硬件配置和模型复杂度相关。此外,模型的计算效率可通过浮点运算次数和参数数量量化,浮点运算次数反映单次推理所需的计算资源,参数数量则影响模型的内存占用与部署难度。
第三章 深度零件识别方法
3.1 数据集和环境设置
使用makesense网站作为标注工具,对齿轮数据集进行YOLO格式标注时,首先需将所有零件图像按统一规则命名并集中存储,随后在标注软件中设置标签类别,通过人工标注为每个可见齿轮绘制紧密包围目标的矩形边界框(Bounding Box),确保框体完整覆盖齿轮齿廓且不包含多余背景,标注完成后导出YOLO格式的.txt文本文件(每图对应一个文件,内容为类别序号 中心x比例 中心y比例 框宽比例 框高比例的归一化数值),完成后需编写YOLO可识别的数据集配置文件,声明路径、类别名称及数量等关键参数。如图3-1所示。

图3-1标注网站
运行环境方面,采用autodl云服务器的python3.10环境,pytorch 2.0环境cuda 11.8进行数据集训练。在训练方面采用迁移学习进行模型的调整,YOLO系列的迁移学习通过复用预训练模型在大型数据集上提取的通用特征,显著降低目标检测任务对标注数据量和训练资源的依赖,并加速模型收敛与新场景适配。其核心作用体现在三个方面:特征复用、领域适配与性能增强。首先,基于预训练的主干网络在通用视觉任务中已具备强大的低级边缘纹理感知与高级语义抽象能力,迁移时冻结浅层参数或仅微调深层模块即可快速适应新类别,减少对目标域数据规模的要求(数百张标注即可有效训练)。其次,针对特定场景,可通过调整网络模块,优化损失函数实现领域特征适配,提升模型在复杂环境下的鲁棒性。此外,迁移学习结合跨模型参数迁移,可突破单一架构限制,进一步提升小模型推理速度或大模型精度上限。实际应用中,用户可通过冻结主干网络仅训练检测头实现快速原型验证,或采用渐进式解冻策略逐步优化全局参数,平衡训练效率与模型性能。同时,迁移学习支持多任务扩展,通过共享主干特征降低计算冗余。
3.2 数据增强
使用hyp指向的超参数文件定义了数据增强策略(如Mosaic四图拼接、MixUp混合增强、随机旋转±30°、亮度对比度调整、高斯噪声注入及模拟油污遮挡的CutMix增强),是为了提高鲁棒性。
3.3 训练配置
每张训练图片对应一个.txt标签文件,并通过yaml配置文件声明数据集路径、类别名称及类别数量,随后选择适配的模型配置文件,下载对应版本的预训练权重以初始化模型参数,直接运行python训练文件l,其中训练过程中通过TensorBoard监控损失曲线(如分类损失cls_loss、回归损失box_loss)及评估指标(mAP@0.5和mAP@0.5:0.95),若出现过拟合(如验证集损失上升而训练集损失持续下降),可通过增加早停参数patience 50或调整模型配置文件中的dropout比率抑制过拟合;训练完成后使用评估模型在测试集上的性能,测试阶段通过对未知齿轮图像执行推理,输出带边界框及类别置信度的检测结果,同时可通过--iou 0.45调节NMS阈值以平衡漏检与误报。对于YOLOv5/v8等版本,需确保数据增强参数与模型结构兼容,并通过--rect启用矩形推理优化显存占用,若部署至边缘设备可结合--half启用FP16量化进一步加速推理。具体如下表所示:
表4-1 具体参数表
|---------------------|--------|------------------------------------------|
| 超参数 | 设置 | 说明 |
| 学习率(lr0) | 0.01 | 调控梯度更新的步进幅度,并指导学习率衰减策略的动态规划 |
| 学习率衰减(lrf) | 0.01 | 通过优化参数更新路径提升收敛稳定性,抑制训练过程中的梯度振荡现象。 |
| 动量(momentum) | 0.937 | 通过自适应梯度调节机制优化参数更新方向,同步抑制优化路径的振荡现象以提升收敛效率 |
| 权重衰减(weight_decay) | 0.0005 | 通过约束参数空间提升模型的泛化性能 |
| 热身训练(warmup_epochs) | 3.0 | 在初始训练阶段实施渐进式学习率调度方案 |
| 批量大小(batch) | 4 | 定义单次参数更新所涉及的数据子集规模 |
| 输入图像大小(imgsz) | 640 | 规范模型接收的视觉数据空间分辨率 |
训练具体公式过程如下所示:
1.边界框预测(Bounding Box Prediction)
YOLO将图像划分为网格,每个网格预测多个边界框。公式包括:
坐标归一化(使用Sigmoid约束到0-1):

- 损失函数(Loss Function)
YOLO的损失函数通常包含三部分:定位损失、置信度损失和分类损失。
定位损失(Localization Loss)
CloU Loss (YOLOv4之后常用):


3.4 yolov11系列训练结果
从预测图片上来看,yolov11识别出了所有的零件缺陷,具体如图3-2所示:

图3-2 yolov11 预测图
并且基于YOLOv11的Precision-Recall曲线及其指标分析,该模型在交并比阈值0.5条件下整体平均精度均值为0.743,表明其对多类别目标的综合检测能力达到较高水平。hp_cm、hp_cd、kp三类别的平均精度分别为0.715、0.748和0.764,显示模型对kp类别的检测效果最优,其更陡峭的Precision-Recall曲线说明在较高召回率区间仍能维持精度稳定性,而hp_cm类别相对较低的数值可能源于目标尺度多样性或背景干扰导致的漏检。整体曲线形态反映模型在多数类别中实现精度与召回率的有效平衡,尤其在中等召回率区间保持较高精度,但在接近极限召回率时出现精度下降,提示对小目标或遮挡目标的检测仍有优化空间。hp_cd与kp类别间0.016的精度差异进一步揭示模型对不同特征目标的敏感度差异,可能受训练数据分布或特征提取层设计影响。较高的mAP@0.5验证了模型在宽松定位标准下的可靠性,为实际应用中兼顾效率与精度的需求提供有效支撑。具体如图3-3所示:

图3-3 yolov11 pr曲线图
F1-Confidence曲线分析,模型在置信度阈值0.306时达到整体F1分数峰值0.69,表明该阈值下精确率与召回率实现最优平衡。hp_cm、hp_cd、kp三类别的曲线形态差异反映模型对不同目标的检测稳定性。具体如图:

图5-4 yolov11 F1分数图
从下图的loss图来看,损失都在不断的进行变小,准确率在不断的增大,虽然稍有浮动,但是依旧可以看出模型正在不断的进行拟合,具体如图3-4所示:

图3-4 yolov11 损失图
3.5 yolov8 测试结果
针对yolov8的预测图片,把三个零件类型的缺陷全部进行预测出来,具体如下图3-5所示:

图3-5 yolov8 推理预测图
YOLOv8 的 F1-Confidence Curve 展现出优异性能,所有类别在置信度 0.301 时 F1 值达 0.72,说明模型能在较低置信度下实现精准检测,平衡了查准率与查全率,泛化性和鲁棒性强。具体如下图3-6所示:

图3-6 yolov8 F1分数图
YOLOv8的Precision-Recall曲线展示出多任务协同优化的显著优势:hp_cm(0.745)与hp_cd(0.758)表明模型在分类与检测任务中对中等难度样本的精准识别能力突出,kp(0.780)体现关键点定位的高完整性,而全类mAP@0.5达0.761,证明在标准交并比阈值下保持高精度与召回率的平衡。曲线形态陡峭且覆盖面积大,反映模型对复杂场景的适应性强,既能减少漏检(高召回)又能控制误判(高精确),尤其在目标密集、尺度多变场景中展现稳定的检测性能,为实际部署提供可靠的精度保障。具体如下图3-7所示:

图3-7 yolov8 PR曲线图
由图3-8的yolov8的损失图来看,损失在不断的进行减小,并且准确率、回归率指标在不断的提高。说明模型训练很好。

图3-8 yolov8损失图
3.6 Yolov5测试结果
如下图3-9所示,yolov5的推理图片,能很好的推理出零件表面的缺陷。

图3-9 yolov5 模型推理图
YOLOv5 的 F1-Confidence 曲线展现出经典模型的稳健优势:hp_cm 与 hp_cd 指标印证分类检测对中低难度目标的精准捕获,kp 值凸显关键点定位的高完整度,而全类 0.68 的 F1 值在 0.261 低置信度下达成,说明模型对置信度阈值的敏感调节能力优异,具体如图3-10 :

图3-10 yolov5 F1分数图
由图3-11所示。Yolov5的模型损失在不断的减少,准确率,回归率,map都在不断的提高,说明模型训练良好。

图3-11 yolov5损失图
3.7 RT-DETR 测试结果
RT-DETR-L训练后的评估指标用于全面衡量模型在目标检测任务中的性能与效率,其中mAP50:95(IoU阈值0.5至0.95的平均精度均值)反映模型对齿轮目标边界框定位与分类的综合能力,mAP50(IoU=0.5的精度)侧重工业场景中允许一定位置偏差的粗检效果,而AP_s/m/l分别评估小、中、大尺寸齿轮的检测精度,确保模型对微小缺陷或遮挡目标的敏感度;精确率(Precision)与召回率(Recall)量化误检与漏检的平衡性,结合F1分数优化质检场景中高查全与低误报的需求。具体如下图所示:

图3-12 RT-DETR检测图

图3-13 RT-DETR F1分数图

图3-14 RT-DETR准确率和回归图

图 3-15 RT-DETR损失图
3.8 实验对比
为了全面评估不同模型在零件缺陷识别任务中的性能,本研究对 YOLOv11、YOLOv8、YOLOv5 和 RT-DETR 进行了实验对比。实验从检测精度、速度和鲁棒性等方面展开,结果如下表3-2所示:
表3-2 模型对比表
|---------|---------|-------------|---|---------|---------|
| 模型 | mAP@0.5 | F1 值(最佳置信度) | | 小目标检测精度 | 复杂场景适应性 |
| YOLOv11 | 0.743 | 0.69(0.306) | | 较好 | 良好 |
| YOLOv8 | 0.761 | 0.72(0.301) | | 优秀 | 优异 |
| YOLOv5 | 0.725 | 0.68(0.261) | | 中等 | 稳健 |
| RT-DETR | 0.775 | 0.74(0.364) | | 优秀 | 突出 |
从检测精度来看,RT-DETR 的 mAP@0.5 最高,达到 0.775,表明其在标准交并比阈值下对多类别目标的综合检测能力最强。YOLOv8 紧随其后,mAP@0.5 为 0.761,在分类与检测任务中对中等难度样本的精准识别能力突出。YOLOv11 的 mAP@0.5 为 0.743,对 kp 类别的检测效果最优。YOLOv5 的 mAP@0.5 为 0.725,展现出经典模型的稳健优势。
在 F1 值方面,RT-DETR 在置信度 0.364 时达到 0.74,YOLOv8 在置信度 0.301 时 F1 值为 0.72,YOLOv11 在置信度 0.306 时 F1 值为 0.69,YOLOv5 在置信度 0.261 时 F1 值为 0.68,说明 RT-DETR 和 YOLOv8 在精确率与召回率的平衡上表现更优。
小目标检测精度方面,YOLOv8 和 RT-DETR 表现优秀,能够有效识别毫米级的微小缺陷。YOLOv11 较好,YOLOv5 为中等水平。
复杂场景适应性上,RT-DETR 凭借 Transformer 架构的全局建模能力表现突出,YOLOv8 的双向多尺度连接结构使其适应性优异,YOLOv11 表现良好,YOLOv5 则以稳健的性能在中低难度场景中表现可靠。
综合来看,不同模型各有优劣,YOLOv5 适合对速度要求高的简单场景,YOLOv11 在综合性能上表现均衡,YOLOv8 在精度和适应性上有较好表现,RT-DETR 则在复杂场景和高精度要求下更具优势。实际应用中,可根据具体需求选择合适的模型。
第四章 结论与展望
4.1 结论
在工业制造领域,铸件质量对设备安全与寿命至关重要,传统 X 射线检测依赖人工评片,效率低、漏检率高,现有自动化检测技术基于人工设计特征,难以适应铸件缺陷的复杂特性。本研究聚焦深度学习在微小多态缺陷识别中的局限,构建 YOLO 系列模型并结合数据增强策略,有效提升了检测性能。
研究采用齿轮检测数据集进行验证,结果表明,所提方法对微小缺陷具有较高的识别精度,尤其在边缘模糊、对比度低的缺陷特征检测上表现出更好的鲁棒性。通过对 YOLOv5、YOLOv8、YOLOv11 及 RT-DETR 等模型的实验分析,发现各模型在不同指标上各有优势,如 YOLOv8 在 F1-Confidence Curve 和 Precision-Recall Curve 上展现出优异性能,RT-DETR 在关键点定位和复杂场景适应上表现突出。
本研究有效解决了传统人工检测的效率瓶颈和现有算法的适应性问题,为自动化铸造产线提供了可靠的质量检测方案,对推动智能制造技术发展具有重要的实践价值。
4.2展望
尽管本研究取得了一定成果,但在实际应用中仍有提升空间。未来可从以下几个方面展开研究:
模型优化:进一步探索更高效的网络架构,结合注意力机制、多尺度特征融合等技术,提升模型对小目标和复杂缺陷的检测能力。同时,研究模型轻量化技术,在保证精度的前提下降低计算资源消耗,以适应边缘设备部署需求。
数据利用:针对工业缺陷样本稀缺问题,深入研究数据增强技术,如利用生成对抗网络合成更逼真的缺陷样本,丰富训练数据多样性。此外,探索半监督学习和迁移学习在缺陷检测中的应用,减少对大量标注数据的依赖。
跨模态融合:结合 X 射线、视觉图像等多种模态数据,利用多模态融合技术综合不同模态的信息,提升缺陷检测的准确性和可靠性。
自动化部署:研究模型的自动化部署流程,开发高效的检测系统,实现与工业产线的无缝对接,提高检测的实时性和智能化水平。