前言:
**SCI精读是一项高投入、高回报的科研投资。 它初期看似缓慢,但从长远看,它是构建你深厚学术功底、敏锐科研嗅觉和强大创新能力的唯一捷径。将精读养成习惯,它最终会从一项"任务"变成一种能带给你巨大成就感和乐趣的"能力",介于此,本Up主开设sci领读课程,旨在让小伙伴们在快乐中快速具备论文写作能力!**本专栏为视频课程中的文章翻译!
ICSD-YOLO:面向工业现场安全的实时智能检测算法
摘要
在工业环境中实现全面、准确的目标检测对保障生产作业安全至关重要。然而,以YOLO系列为代表的现有基于卷积神经网络的实时检测器,存在早期特征提取能力不足的问题,且缺乏应对目标遮挡、形变和尺度变化的有效感知机制。基于Transformer的检测器通过自注意力机制强化全局上下文建模,在复杂基准数据集上取得了更优性能,但这类模型计算成本高、参数量大,使其在资源受限的工业环境中的适用性受到限制。为解决上述问题,本文提出了一套目标检测器ICSD-YOLO(信息卷积骨干聚焦块检测器),这是一款可增强特征编码与层级感知能力的轻量化检测框架。本文设计了卷积骨干块(ConvStemBlock)以提升低层特征提取效果、扩大感受野,同时设计了聚焦块(FocusBlock)实现多尺度语义细化。本研究基于YOLO系列算法搭建ICSD-YOLO模型,并在COCO基准数据集和一套工业现场数据集上,对该模型的5个尺度版本(超轻量版Nano、轻量版Small、中等规模版Medium、大规模版Large、超大规模版Extra-Large)开展性能评估。实验结果表明,与原始YOLOv12-X相比,ICSD-YOLO-X的平均精度均值mAP50:95mAP_{50:95}mAP50:95从66.9%提升至68.1%(提升1.2个百分点),F1分数从80.8%提升至83.0%(提升2.2个百分点),同时浮点运算量(FLOPs)降低41.3%(从1990亿次降至1168亿次)。这一结果证明,该模型在复杂场景下具备更优的感知能力,适用于安全关键型工业场景的部署。本文相关代码开源地址为:https://github.com/PrintSC/code。
1 引言
目标检测是计算机视觉领域的核心任务之一,广泛应用于工业安全监测、智能交通、无人系统、医学影像分析等高风险感知场景。在这些实际应用中,检测系统不仅需要具备高精度和强鲁棒性,以实现关键目标的准确识别和稳定响应,还需兼顾实时性和资源效率,满足在线处理与快速反馈的需求。尤其是在边缘计算设备、移动终端或嵌入式系统中,受计算资源、存储容量和能耗的限制,传统高性能模型因计算成本过高而面临部署难题。因此,设计一款能在检测精度、推理速度、计算成本和参数量之间实现良好平衡的高效目标检测模型,成为当前该领域的开放性研究课题。
近年来,主流的目标检测方法逐渐形成两大技术路线:其一为基于卷积神经网络的特征提取模型(如YOLO系列、EfficientDet),通过堆叠卷积层提取空间特征,具备结构紧凑、推理速度快的优势;其二为基于Transformer的建模方法(如DETR、ViTDet、DN-DETR、Swin-Transformer),通过注意力机制构建语义关联,显著提升了目标识别的上下文理解能力,且该类模型在参数效率和结构灵活性上表现突出。
目前,基于卷积神经网络的模型因卷积运算高效,仍是工业部署和边缘设备的主流选择;而基于Transformer的模型擅长全局上下文建模,在复杂场景和长距离依赖任务中表现优异。但卷积神经网络模型存在早期网络层感受野有限的问题,在目标遮挡、形变或小目标检测场景中易丢失细粒度特征;与之相对,Transformer模型的全局自注意力机制会带来极高的计算复杂度和庞大的参数量,导致模型推理延迟高、内存开销大,难以在资源受限的边缘设备上部署。由此可见,基于卷积神经网络的检测器受限于低层特征提取能力不足,基于Transformer的检测器则受困于计算成本和模型规模过大,二者在复杂且资源受限的工业环境中均存在适用性问题。
为解决上述挑战,众多研究尝试引入注意力机制、多尺度特征融合、分支路径建模等策略,以增强模型的特征表达能力和上下文感知能力。例如,双向特征金字塔网络(BiFPN)通过加权多尺度路径融合优化特征金字塔,YOLOv7借助E-ELAN架构实现自适应特征融合,视觉Transformer模型则利用深度注意力机制强化语义建模。尽管这些方法在一定程度上缓解了模型精度与效率之间的固有矛盾,但多数方法仅聚焦于特征融合或语义表示的优化,忽略了人类视觉系统"由粗到细"的感知这一核心特征。
受人类视觉认知机制的启发,本文提出全新的检测框架ICSD-YOLO(信息卷积骨干聚焦块检测器),该架构专为解决工业环境中的检测难题设计,可应对工业场景中光照剧烈变化、目标频繁遮挡、目标分布密集及小目标检测等问题。为此,ICSD-YOLO设计了两个核心模块:卷积骨干块(ConvStemBlock),通过空洞重参数化卷积和多尺度聚合增强模型的早期全局感知能力和光照鲁棒性;聚焦块(FocusBlock),基于由粗到细的感知逻辑,通过门控融合和稀疏注意力实现密集与遮挡目标的特征细化。
搭建该框架需解决若干具体技术难题:
(1)基于卷积神经网络的模型早期感受野有限:轻量化架构易丢失细粒度空间信息,导致小目标、遮挡目标和重叠目标的检测性能下降。本文设计的ConvStemBlock采用轻量化重参数化卷积扩大感受野,在保证效率的同时实现模型的早期全局感知。
(2)基于Transformer的模型计算成本高、参数量大:全局自注意力机制带来大量计算和庞大参数量,引发高推理延迟和内存消耗,阻碍其在资源受限边缘设备上的部署。本文提出的FocusBlock引入分阶段稀疏注意力和门控融合,以由粗到细的方式捕捉细粒度细节,与全自注意力机制相比,计算开销大幅降低,同时实现自适应局部特征细化。
(3)多尺度特征融合存在冗余和噪声:未经语义筛选的直接特征融合会引入无关的背景信息,降低模型在复杂工业环境中的鲁棒性。本文引入带信息约束的跨层语义交互机制,选择性传递有效特征并抑制无关特征,从而提升模型在复杂场景下的特征区分能力。
综上,ICSD-YOLO针对工业检测场景提出了多项核心设计和结构创新。在结构上,ICSD-YOLO在标准YOLOv11架构的基础上完成三项关键改进:
(1)将原始卷积骨干层替换为本文提出的ConvStemBlock,通过空洞重参数化卷积和多尺度融合扩大感受野,实现模型的早期全局感知,同时提升模型在光照变化场景下的鲁棒性;
(2)将骨干网络中的多个标准卷积单元替换为FocusBlock------这一细粒度特征细化单元融合了门控注意力、稀疏注意力和多层感知器增强机制,提升小目标、遮挡目标和密集分布目标的检测性能;
(3)重新设计骨干网络与检测头之间的特征传递方式,采用双向语义交互机制,让高层上下文信息指导浅层空间特征提取。
上述创新共同构建了一套由粗到细的感知层级:ConvStemBlock捕捉全局结构特征,FocusBlock细化局部语义细节,二者的交互作用提升了模型对光照不均、目标遮挡和人群密集场景的鲁棒性。这种层级化的协同设计在提升检测精度的同时降低了部署门槛,使ICSD-YOLO成为工业安全实时检测的理想选择。
本文的主要研究贡献如下:
- 提出一套面向工业安全图像分析的实时检测器ICSD-YOLO,涵盖Nano、Small、Medium、Large、Extra-Large五种尺度,在检测精度、推理效率和计算成本之间实现了良好平衡;
- 设计高效的输入特征提取模块ConvStemBlock,融合大核卷积和残差语义增强机制,在扩大感受野的同时降低模型早期的计算冗余;
- 提出FocusBlock模块,整合显式位置编码(CoordConv)、多尺度上下文融合、稀疏自注意力和多层感知器增强机制,显著提升模型深层网络的结构表示能力和尺度自适应能力。
2 相关工作
2.1 轻量化目标检测
随着模型在边缘设备和移动平台的部署需求快速增长,轻量化目标检测成为研究热点。YOLO系列算法始终在感受野设计、推理速度和检测精度之间寻求平衡:例如,YOLOv5利用跨阶段部分网络(CSPNet)实现高效特征提取;YOLOv8引入解耦检测头提升模型适应性;YOLOv11采用双分支C3k2模块增强特征提取能力,并优化空间金字塔池化快速模块(SPPF)以降低计算量,同时结合分布焦点损失(DFL)的轻量化解耦检测头提升了回归精度。
除YOLO系列外,EfficientDet提出复合缩放策略和双向特征金字塔网络融合策略;PicoDet和PP-YOLOE针对工业场景优化了骨干网络并实现端到端部署。但多数轻量化方法仍依赖静态结构堆叠,缺乏细粒度的动态感知和区域注意力机制,在复杂背景、小目标等检测挑战中表现不佳。
2.2 注意力机制
注意力机制已成为提升目标检测性能的重要组件。通道注意力(如ECA-NET、SENet)、空间注意力(如CBAM)和混合注意力模块(如ECA、坐标注意力)提升了网络捕捉显著特征和细节的能力,但这类机制计算成本较高,在资源受限环境中的应用受到限制。
为进一步提升特征表示能力,稀疏注意力机制(如稀疏注意力、局部注意力)在保证低计算复杂度的同时扩大了感受野;动态检测头(DyHead)融合多尺度注意力与动态路由机制,提升了模型在复杂场景下的鲁棒性。但多数注意力机制仍独立依附于静态骨干网络,缺乏全局语义指导和协同建模,无法实现自上而下、由粗到细的动态注意力感知,从而限制了其在实际场景中的性能潜力。
2.3 多尺度信息提取与表示
多尺度建模策略是解决检测任务中目标尺寸和位置分布多样性问题的关键。经典方法如特征金字塔网络(FPN)通过自下而上的层级特征提取实现多尺度感知;路径聚合网络(PANet)引入自上而下的特征路径增强跨层交互;双向特征金字塔网络(BiFPN)则通过可学习的加权融合和跨层连接,进一步提升特征的一致性和表达能力。
近期的模型如RT-DETR和RT-DETRV2,通过扩大感受野或引入层级标注机制提升特征粒度。尽管上述方法增强了模型的多尺度表示能力,但均依赖层叠结构或通道加权策略,在小目标、密集目标、遮挡/重叠目标检测中效果有限,且难以模拟本文提出的人类视觉"由粗到细"的感知过程。
与现有方法不同,本文提出的ICSD-YOLO融合了自上而下的注意力指导、多尺度动态感知和稀疏上下文建模,模拟人类视觉认知过程,实现从全局概览到局部区域的逐步聚焦,有效提升了复杂场景下的检测精度和全面性。
3 方法设计
3.1 网络整体架构
在工业目标检测中,能否高效融合全局上下文信息与细粒度局部细节提取能力,是实现小目标、遮挡目标和重叠目标准确检测的关键。然而,现有多数基于卷积神经网络的模型存在早期网络层感受野有限的问题,导致全局信息提取不足;而基于Transformer的模型通过自注意力机制建模全局和长距离依赖时,计算复杂度过高,不适合实时边缘部署。这种全局感知与局部细节提取的融合缺失,会导致模型在复杂工业场景中的检测性能下降。
为模拟人类由粗到细的感知机制,本文提出ICSD-YOLO模型,其架构采用模块化骨干网络,在多个层级融合卷积和注意力建模机制。本文设计的ConvStemBlock能以较低计算成本提取粗粒度特征,后续的FocusBlock则通过稀疏性和门控注意力对重要特征进行针对性细粒度增强,在不提升空间分辨率的前提下提高语义区分能力。
本文提出的ICSD-YOLO由四个核心组件构成:(1)骨干网络(Backbone);(2)颈部网络(Neck);(3)聚焦网络(Focus-Net);(4)检测头(Detection Head)。其中,骨干网络采用ConvStemBlock和任意形状采样卷积(AKConv),通过大核卷积完成早期空间下采样和低层特征提取;聚焦网络作为最终的特征处理模块,通过上下文聚合和多路径卷积捕捉更细致的语义信息,并结合本文提出的FocusBlock进一步细化特征表示------该模块整合了坐标感知卷积、多尺度上下文融合、门控注意力和稀疏自注意力,使模型能动态识别并增强显著区域特征,尤其有利于小目标、遮挡目标和形变目标的检测。
需要说明的是,本框架并非依赖静态的模块堆叠,而是模拟自上而下的逐步特征细化过程。网络的每个阶段在结构上解耦、在语义上关联,支持灵活的信息流动和层级化信息聚合。该架构在精度和效率之间实现了更优平衡,适合在资源受限的环境中部署。
3.2 卷积骨干块(ConvStemBlock)模块
现有多数目标检测方法采用小核卷积提取特征,限制了模型的上下文信息捕捉能力,导致空间编码不足、语义表示能力薄弱。这一缺陷在光照条件剧烈变化、背景复杂的工业环境中尤为突出。为解决该问题,同时提升模型在强光反射和暗光环境中的特征提取能力,本文设计了ConvStemBlock------一款实现大核下采样和层级特征增强的轻量化模块。该模块在完成空间下采样的同时,保持轻量化特性,并提升浅层特征的语义质量。
ConvStemBlock由两个核心组件构成:(1)卷积块层,由7×7卷积构成,扩大感受野以增强早期空间建模能力,提升浅层网络的语义抽象水平;(2)增强基础块(EnhancedBasicBlock),显著丰富特征表示能力------该模块先通过深度残差卷积(ResDWConv)保留细粒度细节,再通过空洞重参数化块(DilatedReparamBlock,不使用空洞卷积时替换为标准深度卷积)扩大感受野。同时,EnhancedBasicBlock整合了挤压激励(SE)注意力块实现通道重加权,引入多尺度卷积层(采用3×3、5×5、7×7深度卷积)提取上下文信息,并加入全局响应归一化(GRN)层。整个EnhancedBasicBlock还引入了可选的层缩放(LayerScale)和随机路径丢弃(DropPath)机制,以稳定模型训练并提升正则化效果。该设计使ConvStemBlock输出的特征图兼具丰富的语义信息和结构感知能力。
输入图像X∈RCin×H×WX \in \mathbb{R}^{C_{in} ×H ×W}X∈RCin×H×W经7×7卷积核(步长为2)进行下采样和信息提取,计算过程如下:
S=BN(Wstem∗X)(1)S=BN\big (W_{stem}*X\big ) \tag{1}S=BN(Wstem∗X)(1)
H=X+α⋅(Wd∗ReLU(X))+β⋅Conv(X)(2)H=X+\alpha \cdot \left( W_{d}\ast ReLU(X)\right) +\beta \cdot Conv(X) \tag{2}H=X+α⋅(Wd∗ReLU(X))+β⋅Conv(X)(2)
F0=σ(S)⊙H+λtanh(log(1+exp(Ws∗X)))(3)F_{0}=\sigma(S) \odot H+\lambda \tanh \left(\log \left(1+\exp \left(W_{s} * X\right)\right)\right) \tag{3}F0=σ(S)⊙H+λtanh(log(1+exp(Ws∗X)))(3)
其中,X∈RC×H×WX \in \mathbb{R}^{C ×H ×W}X∈RC×H×W为输入特征图;WstemW_{stem}Wstem、WdW_{d}Wd、WsW_{s}Ws分别为骨干层、深度卷积层和空间变换路径的可学习卷积核;BN(⋅)BN(\cdot)BN(⋅)为批量归一化操作;σ(⋅)\sigma(\cdot)σ(⋅)为Sigmoid激活函数;α\alphaα、β\betaβ、λ\lambdaλ为可学习的缩放系数,用于平衡各子路径的特征贡献;非线性项tanh(log(1+exp(⋅)))\tanh(\log(1+\exp(\cdot)))tanh(log(1+exp(⋅)))引入平滑门控机制,稳定模型早期训练的梯度传播,提升骨干层特征表示F0F_{0}F0的表达能力。输出特征F0F_{0}F0将输入至EnhancedBasicBlock,其内部结构的计算过程如下。
3.2.1 深度可分离卷积
受残差网络和深度可分离卷积的启发,本文设计了残差深度可分离卷积(ResDWConv)块,以保留局部细节并增强细粒度特征表示,计算过程如下:
Z=BN(Wd∗dwF0)+ϵ⋅BN(Wp∗pwF0)(4)Z=B N\left(W_{d} *{d w} F{0}\right)+\epsilon \cdot B N\left(W_{p} *{p w} F{0}\right) \tag{4}Z=BN(Wd∗dwF0)+ϵ⋅BN(Wp∗pwF0)(4)
Fresdw=F0+η⋅tanh(log(1+exp(Z)))(5)F_{r e s d w}=F_{0}+\eta \cdot \tanh (log (1+exp (Z))) \tag{5}Fresdw=F0+η⋅tanh(log(1+exp(Z)))(5)
其中,WdW_{d}Wd和WpW_{p}Wp分别为深度卷积核和点卷积核;BN(⋅)BN(\cdot)BN(⋅)为批量归一化操作;∗dw*{dw}∗dw和∗pw*{pw}∗pw分别表示深度卷积和点卷积操作;超参数ϵ\epsilonϵ和η\etaη为可学习的缩放系数,用于控制空间分支和通道分支的融合强度;tanh(log(1+exp(⋅)))\tanh(\log(1+\exp(\cdot)))tanh(log(1+exp(⋅)))变换引入平滑非线性,稳定模型早期训练的梯度;残差连接则保证了跨层的信息保留和特征高效复用。
3.2.2 空洞重参数化卷积
受空洞卷积的启发,本文引入空洞重参数化卷积(DRConv),在不显著增加计算成本的前提下扩大有效感受野,使网络能捕捉长距离依赖关系,计算过程如下:
R(X)=∑r∈Dαr⋅BN(Cr(d)(Fresdw))(6)\mathcal{R}(X)=\sum_{r \in D} \alpha_{r} \cdot B N\left(C_{r}^{(d)}\left(F_{resdw }\right)\right) \tag{6}R(X)=r∈D∑αr⋅BN(Cr(d)(Fresdw))(6)
Fdrconv=G(R(Fresdw))+β⋅C1×1(R(Fresdw))(7)F_{drconv}=\mathcal {G}\big (\mathcal {R}(F_{resdw})\big )+\beta \cdot C_{1× 1}\big (\mathcal {R}(F_{resdw})\big ) \tag{7}Fdrconv=G(R(Fresdw))+β⋅C1×1(R(Fresdw))(7)
其中,XXX为输入特征图;r∈{1,2,3}r \in\{1,2,3\}r∈{1,2,3}为空洞率;∗r*{r}∗r表示空洞率为rrr的空洞卷积;Wr(d)W{r}^{(d)}Wr(d)为第rrr个分支的可学习卷积核;αr≥0\alpha_{r} ≥0αr≥0为自适应融合权重,满足∑αr=1\sum\alpha_{r}=1∑αr=1;BN(⋅)BN(\cdot)BN(⋅)为批量归一化操作;R\mathcal{R}R为多尺度融合后的中间特征;log(1+exp(⋅))\log(1+\exp(\cdot))log(1+exp(⋅))为软加激活函数;tanh(⋅)\tanh(\cdot)tanh(⋅)提供有界的非线性门控响应;β\betaβ为可学习的缩放因子;Conv1×1(⋅)Conv_{1×1}(\cdot)Conv1×1(⋅)为点卷积操作;FdrconvF_{drconv}Fdrconv为DRConv模块的最终输出。
3.2.3 挤压激励(SE)注意力
为自适应强化有效通道特征、抑制无关通道响应,本文采用改进的挤压激励(SE)注意力机制。与传统仅结合全局池化和Sigmoid门控的SE模块不同,本文的方法融合了双非线性变换(软加和软最大化),同时捕捉平滑激活特征和通道间竞争关系,计算过程如下:
zc=1H×W∑H∑WFdrconv,c,i,j,z^=LN(ReLU(W1z))(8)z_{c}=\frac{1}{H × W} \sum^{H} \sum^{W} F_{d r c o n v, c, i, j}, \hat{z}=L N\left(Re L U\left(W_{1} z\right)\right) \tag{8}zc=H×W1∑H∑WFdrconv,c,i,j,z^=LN(ReLU(W1z))(8)
Fse=Fdrconv⊙σ(log(1+exp(W2z^))+Softmax(Wgz^))(9)F_{s e}=F_{d r c o n v} \odot \sigma\left(log \left(1+exp \left(W_{2} \hat{z}\right)\right)+Softmax\left(W_{g} \hat{z}\right)\right) \tag{9}Fse=Fdrconv⊙σ(log(1+exp(W2z^))+Softmax(Wgz^))(9)
其中,X∈RC×H×WX \in \mathbb{R}^{C ×H ×W}X∈RC×H×W为输入特征图;zcz_{c}zc为经全局平均池化得到的通道描述符;z^\hat{z}z^为非线性变换后的中间隐嵌入特征;W1W_{1}W1和W2W_{2}W2为瓶颈全连接层,实现通道压缩与扩展(C→Cr→CC \to \frac{C}{r} \to CC→rC→C);LN(⋅)LN(\cdot)LN(⋅)为层归一化操作;σ(⋅)\sigma(\cdot)σ(⋅)为通道门控的Sigmoid激活函数;log(1+exp(⋅))\log(1+\exp(\cdot))log(1+exp(⋅))为实现平滑激活的软加函数;新增的Softmax(Wgz^)Softmax(W_{g}\hat{z})Softmax(Wgz^)项引入通道间竞争,进一步优化判别性特征的选择;⊙\odot⊙为逐元素乘法操作,用于对特征响应进行重新校准。
3.2.4 多尺度卷积融合
受双向特征金字塔网络的启发,本文提出多尺度卷积融合(MSC)机制,整合不同感受野的上下文信息。具体而言,该机制并行使用3×3、5×5、7×7卷积核捕捉从局部到全局的依赖关系,同时通过软注意力加权自适应强化更具信息量的尺度特征,融合过程如下:
Fms=∑k∈{3,5,7}ak⋅tanh(log(1+exp(Wk∗Fse)))(10)F_{m s}=\sum_{k \in\{3,5,7\}} a_{k} \cdot \tanh \left(log \left(1+exp \left(W_{k} * F_{s e}\right)\right)\right) \tag{10}Fms=k∈{3,5,7}∑ak⋅tanh(log(1+exp(Wk∗Fse)))(10)
Fagg=BN(Wproj∗Fms)+λGELU(Fse)(11)F_{agg}=B N\left(W_{proj } * F_{m s}\right)+\lambda G E L U\left(F_{se}\right) \tag{11}Fagg=BN(Wproj∗Fms)+λGELU(Fse)(11)
其中,WkW_{k}Wk为多尺度卷积核;αk\alpha_{k}αk为可学习的融合对数;WprojW_{proj}Wproj为1×1投影卷积核;λ\lambdaλ为平衡骨干特征FseF_{se}Fse残差增强作用的系数。
3.2.5 全局关系归一化(GRN)与视觉注意力网络块(VANBlock)
最后,为增强语义区分能力并保持空间一致性,融合后的特征将通过全局关系归一化(GRN)和视觉注意力网络块(VANBlock)进行细化。GRN通过特征级的关系归一化捕捉全局依赖,VANBlock则利用自适应卷积核建模细粒度的空间变化。同时,通过DropPath和LayerScale正则化进一步稳定特征表示,计算过程如下:
G(X)=γ⋅FaggE[∣Fagg∣2](12)\mathcal {G}(X)=\gamma \cdot \frac {F_{agg }}{\sqrt{\mathbb{E}\left[\left|F_{agg}\right|^{2}\right]}} \tag{12}G(X)=γ⋅E[∣Fagg∣2] Fagg(12)
Fout=VANBlock(G(Fagg))+Fagg(13)F_{out }=VANBlock(\mathcal{G}(F_{agg})) + F_{agg} \tag{13}Fout=VANBlock(G(Fagg))+Fagg(13)
其中,γ\gammaγ和β\betaβ为可学习的缩放和平移系数;WgW_{g}Wg为GRN中使用的全局投影核;VANBlock(⋅)VANBlock(\cdot)VANBlock(⋅)为捕捉各向异性空间关系的视觉注意力网络;DropPath(⋅)DropPath(\cdot)DropPath(⋅)为引入随机深度的正则化操作;FaggF_{agg}Fagg与细化分支之间的残差连接构成模块的最终输出FoutF_{out}Fout。
3.3 聚焦块(FocusBlock)模块
在实际视觉环境中,受遮挡、尺度变化、形变和复杂背景的影响,目标的外观特征存在显著差异,这一问题在目标遮挡频繁、目标密度高、小目标多的工业环境中尤为突出。因此,在计算资源有限的前提下,如何同时建模局部空间结构和捕捉全局语义信息,仍是亟待解决的重要难题。
为解决该问题,同时提升模型在工业密集遮挡场景中的特征提取能力,本文设计了FocusBlock------一款受人类视觉注意力机制启发的紧凑且高效的模块,能让模型的感知过程更好地实现从粗粒度布局到细粒度细节的聚焦。FocusBlock的核心设计思路是构建一个由注意力驱动的特征细化单元,在局部到全局的语义层级引入空间信息、多尺度上下文和门控注意力。
与标准卷积不同,FocusBlock通过位置编码(CoordConv)融入空间信息,利用层级平均池化(GlobalContextFusion)提取上下文特征;为增强特征表示能力,该模块引入轻量化的通道级多层感知器(MLP)对融合特征进行细化,并添加两个归一化层稳定特征分布、提升梯度传播效率。该模块可视为一个高效的语义显著性编码器,能将浅层特征转化为语义聚焦性更强的特征表示。
具体而言,FocusBlock遵循结构化的五步处理流程,各步骤设计如下:
3.3.1 位置增强
本文利用坐标图在特征表示中保留显式的空间信息,与Transformer中的位置嵌入不同,该二维位置增强通过卷积直接编码,能更好地适应空间形变,计算过程如下:
Fcoord=σ(Convcoord([X,log(1+αPx),e−βPy2]))+λX(14)F_{coord }=\sigma\left( Conv_{coord }\left(\left[X, \log \left(1+\alpha P_{x}\right), e^{-\beta P_{y}^{2}}\right]\right)\right)+\lambda X \tag{14}Fcoord=σ(Convcoord([X,log(1+αPx),e−βPy2]))+λX(14)
其中,XXX为输入特征图;PxP_{x}Px、Py∈R1×H×WP_{y} \in \mathbb{R}^{1 ×H ×W}Py∈R1×H×W分别为水平和垂直方向的归一化坐标编码;α\alphaα和β\betaβ控制空间坐标的对数和指数缩放;λ\lambdaλ为残差平衡因子;σ(⋅)\sigma(\cdot)σ(⋅)为激活函数。
3.3.2 层级上下文融合
本文采用多尺度自适应池化捕捉层级上下文依赖,同时保持空间一致性。在每个池化尺度w∈{1,3,5}w \in \{1,3,5\}w∈{1,3,5}上,通过指数调制的非线性变换强化语义丰富的激活特征、抑制冗余响应,计算过程如下:
Fctx=Cp[∑w∈{1,3,5}σ(exp(Pw(X)τ))⊙Cw(Pw(X))](15)F_{c t x}=C_{p}\left[\sum_{w \in\{1,3,5\}} \sigma\left(exp \left(\frac{P_{w}(X)}{\tau}\right)\right) \odot C_{w}\left(P_{w}(X)\right)\right] \tag{15}Fctx=Cp w∈{1,3,5}∑σ(exp(τPw(X)))⊙Cw(Pw(X)) (15)
其中,τ\tauτ为指数温度系数;σ(⋅)\sigma(\cdot)σ(⋅)为保证上下文权重有界的Sigmoid归一化函数;XXX为输入特征图;Pw(⋅)P_{w}(\cdot)Pw(⋅)为窗口大小为www的自适应平均池化操作,后续接1×1卷积Cw(⋅)C_{w}(\cdot)Cw(⋅)完成通道压缩;拼接后的特征经Cp(⋅)C_{p}(\cdot)Cp(⋅)融合,生成全局-局部混合表示特征FctxF_{ctx}Fctx。
3.3.3 门控注意力融合
本文采用受挤压激励机制启发的门控注意力融合(GAF)机制,并新增指数语义调制项。该机制同时建模语义上下文和结构特征,实现特征响应的自适应重新校准:语义分支通过全局平均池化(GAP)聚合全局描述符,经高斯误差线性单元(GELU)非线性投影和指数加权后强化高激活通道;结构分支通过深度卷积保留局部特征。两条路径通过可学习的门控系数自适应融合,计算过程如下:
G=σ(exp(W2δ(W1GAP(Fcoord+αFctx))τ))(16)G=\sigma \Bigg (exp \Bigg (\frac {W_{2}\delta (W_{1} GAP(F_{coord}+\alpha F_{ctx}))}{\tau }\Bigg )\Bigg ) \tag{16}G=σ(exp(τW2δ(W1GAP(Fcoord+αFctx))))(16)
Fgattn=(Fcoord+Fctx)⊙G+λDWConv(log(1+∣Fcoord∣))(17)F_{g a t t n}=\left( F_{coord}+F_{ctx}\right) \odot G+\lambda D W C o n v \left( \log \left( 1+\left| F_{coord }\right| \right) \right) \tag{17}Fgattn=(Fcoord+Fctx)⊙G+λDWConv(log(1+∣Fcoord∣))(17)
其中,α\alphaα为语义-上下文权重系数;τ\tauτ为调整门控锐度的温度系数;λ\lambdaλ为平衡结构反馈的残差强度因子;σ(⋅)\sigma(\cdot)σ(⋅)和δ(⋅)\delta(\cdot)δ(⋅)分别为Sigmoid和GELU激活函数;⊙\odot⊙为实现通道门控的逐元素乘法操作;深度卷积DWConv(⋅)DWConv(\cdot)DWConv(⋅)保留局部拓扑结构,对数压缩则稳定梯度流动;最终输出的FgattnF_{gattn}Fgattn同时编码通道重要性和空间相关性,实现语义注意力与结构注意力的自适应融合。
3.3.4 稀疏注意力细化
本文采用对角线掩码稀疏注意力机制,在降低计算复杂度的同时保留局部归纳偏置。与稠密自注意力不同,该稀疏注意力变体选择性关注非对角线位置,能在不产生过高计算成本的前提下实现长距离依赖建模,计算过程如下:
Q,K,V\]=Split(Convqkv(Fgattn))(18)\[Q,K,V\]=Split\\big (Conv_{qkv}(F_{gattn})) \\tag{18}\[Q,K,V\]=Split(Convqkv(Fgattn))(18) Sij=log(1+exp(Qi⊤Kj/d))τ⋅exp(−∥i−j∥222σ2)+βMij(19)S_{i j}=\\frac{\\log \\left(1+\\exp \\left(Q_{i}\^{\\top} K_{j} / \\sqrt{d}\\right)\\right)}{\\tau} \\cdot \\exp \\left(-\\frac{\\\| i-j\\\| _{2}\^{2}}{2 \\sigma\^{2}}\\right)+\\beta M_{i j} \\tag{19}Sij=τlog(1+exp(Qi⊤Kj/d ))⋅exp(−2σ2∥i−j∥22)+βMij(19) Aij=exp(Sij)∑k≠iexp(Sik)+ϵ,Lsparse=λ∑i,j∣Aij∣(20)A_{i j}=\\frac{\\exp \\left(S_{i j}\\right)}{\\sum_{k \\neq i} exp \\left(S_{i k}\\right)+\\epsilon}, \\mathcal{L}_{sparse }=\\lambda \\sum_{i, j}\\left\|A_{i j}\\right\| \\tag{20}Aij=∑k=iexp(Sik)+ϵexp(Sij),Lsparse=λi,j∑∣Aij∣(20) Fsattn=γWδ(AV)+ηFgattn(21)F_{sattn}=\\gamma W_{\\delta}(A V)+\\eta F_{g a t t n} \\tag{21}Fsattn=γWδ(AV)+ηFgattn(21) 其中,τ\\tauτ为控制注意力锐度的温度参数;σ\\sigmaσ为空间距离的高斯衰减率;β\\betaβ为对角线掩码惩罚的缩放系数;γ\\gammaγ和η\\etaη为平衡注意力分支和残差分支的可学习缩放因子;Lsparse\\mathcal{L}_{sparse}Lsparse为通过L1正则化项(权重为λ\\lambdaλ)增强注意力选择性的稀疏损失;ϵ\\epsilonϵ为数值稳定因子。 ##### 3.3.5 多层感知器(MLP)增强与残差融合 本文采用轻量化的多层感知器(MLP)块对注意力特征进行细化,融合非线性变换和随机残差正则化机制;在MLP的前后各插入一个归一化层,以实现模型的稳定优化,计算过程如下: A=σ(W3⋅log(1+exp(W2δ(W1BN1(Fgattn+Fsattn)))))(22)A=\\sigma \\big (W_{3}\\cdot \\log \\big (1+\\exp (W_{2} \\delta (W_{1} B N_{1}(F_{gattn}+F_{sattn})))\\big )\\big ) \\tag{22}A=σ(W3⋅log(1+exp(W2δ(W1BN1(Fgattn+Fsattn)))))(22) Fout=BN2((1+λ1)Fgattn+λ2Fsattn+γA)+DropPath(ηA)(23)F_{out}=BN_{2}\\big ((1+\\lambda _{1})F_{gattn}+\\lambda _{2}F_{sattn}+\\gamma A\\big )+DropPath(\\eta A) \\tag{23}Fout=BN2((1+λ1)Fgattn+λ2Fsattn+γA)+DropPath(ηA)(23) 其中,δ(⋅)\\delta(\\cdot)δ(⋅)为GELU激活函数;σ(⋅)\\sigma(\\cdot)σ(⋅)为Sigmoid门控函数;log(1+exp(⋅))\\log(1+\\exp(\\cdot))log(1+exp(⋅))为实现通道平滑激活的软加函数;W1W_{1}W1、W2W_{2}W2、W3W_{3}W3为MLP的可学习投影矩阵;λ1\\lambda_{1}λ1、λ2\\lambda_{2}λ2、γ\\gammaγ、η\\etaη为控制融合平衡的可学习残差权重;DropPath(⋅)DropPath(\\cdot)DropPath(⋅)为引入随机深度正则化的操作,用于提升模型的泛化能力。最终输出的FoutF_{out}Fout通过自适应门控和残差融合,同时保留局部和全局语义特征。 ##### 3.3.6 损失函数 为优化整个ICSD-YOLO框架,本文采用复合损失函数,同时监督定位精度、置信度校准和类别区分能力。在FocusBlock生成细化的特征表示后,最终的损失函数将空间对齐、语义一致性和上下文加权整合为统一的优化目标,整体优化目标如下: Ltotal=λboxLreg+λclsLcls+λobjLobj(24)\\mathcal{L}_{total }=\\lambda_{box } \\mathcal{L}_{reg }+\\lambda_{cls } \\mathcal{L}_{cls }+\\lambda_{obj } \\mathcal{L}_{obj } \\tag{24}Ltotal=λboxLreg+λclsLcls+λobjLobj(24) 其中,λbox\\lambda_{box}λbox、λcls\\lambda_{cls}λcls、λobj\\lambda_{obj}λobj为各损失项的平衡系数。 对于边界框回归,本文采用基于指数交并比(IoU)的平滑损失公式,提升梯度稳定性: Lreg=1−2 e−α(1−IoU)⋅IoU1+e−α(1−IoU)(25)\\mathcal {L}_{reg}=1-\\frac {2\\, e\^{-\\alpha (1-IoU)}\\cdot IoU}{1+e\^{-\\alpha (1-IoU)}} \\tag{25}Lreg=1−1+e−α(1−IoU)2e−α(1−IoU)⋅IoU(25) 其中,α\\alphaα为控制错位框惩罚锐度的系数。与标准的完全交并比(CIoU)损失相比,该形式的梯度更平滑,能有效稳定工业密集场景下模型的早期训练。 对于分类和目标存在性预测,本文采用温度缩放的焦点损失变体: Lcls=−1N∑i(1−pi)γlog(epi/T∑jepj/T)(26)\\mathcal{L}_{c l s}=-\\frac{1}{N} \\sum_{i}\\left(1-p_{i}\\right)\^{\\gamma} \\log \\left(\\frac{e\^{p_{i} / T}}{\\sum_{j} e\^{p_{j} / T}}\\right) \\tag{26}Lcls=−N1i∑(1−pi)γlog(∑jepj/Tepi/T)(26) 其中,pip_{i}pi为类别iii的预测概率;γ\\gammaγ为调整焦点强度的系数;TTT为控制置信度校准的温度因子。 目标存在性损失结合FocusBlock生成的语义注意力权重AsattnA_{sattn}Asattn,进一步优化检测置信度: Lobj=−∑iAsattn(i)⋅\[yilogσ(oi)+(1−yi)log(1−σ(oi))\](27)\\mathcal{L}_{o b j}=-\\sum_{i} A_{s a t t n}\^{(i)} \\cdot\\left\[y_{i} \\log \\sigma\\left(o_{i}\\right)+\\left(1-y_{i}\\right) \\log \\left(1-\\sigma\\left(o_{i}\\right)\\right)\\right\] \\tag{27}Lobj=−i∑Asattn(i)⋅\[yilogσ(oi)+(1−yi)log(1−σ(oi))\](27) 其中,Asattn(i)A_{sattn}\^{(i)}Asattn(i)为稀疏注意力细化模块输出的第iii个空间位置的注意力系数,表征该位置的重要性;yi∈{0,1}y_{i} \\in\\{0,1\\}yi∈{0,1}为第iii个位置的目标存在性真实标签;oio_{i}oi为目标存在性的预测对数;σ(⋅)\\sigma(\\cdot)σ(⋅)为将对数映射至概率空间的Sigmoid激活函数。该损失项为注意力加权的二值交叉熵损失,注意力权重Asattn(i)A_{sattn}\^{(i)}Asattn(i)越高的区域,对梯度更新的贡献越大,使模型能聚焦于关键目标区域并抑制背景噪声。 整体而言,指数交并比回归损失、温度缩放分类损失和注意力引导的置信度优化损失相结合,实现了模型定位精度与语义感知能力的平衡收敛。由此,FocusBlock将位置感知的输入特征转化为语义增强的输出特征。综上,上述方法共同构建了一套模拟人类视觉行为的层级注意力机制,实现了空间信息与语义特征的融合。 ### 4 实验验证 #### 4.1 实现细节 本文在两个数据集上开展全面的目标检测实验:主基准数据集为公开的COCO数据集,用于评估模型的泛化能力和鲁棒性;为进一步验证模型在实际部署场景中的有效性,本文还构建了一套采集自多个石油钻井现场的工业安全数据集,该数据集包含17类常见的工业检测目标,具体信息见4.3节。 为适应不同的应用场景和计算约束,本文设计了ICSD-YOLO的五种架构变体:超轻量版(Nano,N)、轻量版(Small,S)、中等规模版(Medium,M)、大规模版(Large,L)和超大规模版(Extra-Large,X)。这些变体采用统一的骨干网络设计,在模块组成、网络深度和卷积核配置上存在差异。 如表2所示,小尺度变体(N和S)主要由AKConv和基础卷积层构成;随着模型尺度增大,本文引入ConvStemBlock和FocusBlock等高级组件,增强模型的上下文感知能力和特征表示能力;网络深度也随之增加,主要体现为多尺度模块的堆叠和核心块的重复使用。此外,大尺度变体采用更宽的卷积核和更强的注意力机制,能更好地捕捉长距离依赖和细粒度空间特征,从而提升检测性能。所有模型均采用640×640的输入分辨率,在两台NVIDIA RTX 3090显卡上完成训练。 在性能对比中,PPP表示精确率,即所有正预测结果中正确正预测的比例;RRR表示召回率,即模型检测出所有相关目标的能力;mAP50mAP_{50}mAP50和mAP50:95mAP_{50:95}mAP50:95为标准的平均精度均值指标,分别在交并比阈值0.50和0.50\~0.95范围内计算,综合衡量模型的定位精度和分类性能;Params为可训练参数量(单位:百万),表征模型的规模和内存占用;FLOPs为计算复杂度(单位:十亿次浮点运算),表征模型推理过程中的浮点运算次数;F1 Score为精确率和召回率的调和平均数,综合平衡模型的假阳性和假阴性预测。 #### 4.2 COCO数据集实验结果 为评估ICSD-YOLO在大规模基准数据集上的泛化能力,本文首先在COCO2017数据集上开展实验。该数据集包含80类目标,涵盖遮挡、多尺度目标、密集场景、复杂背景等多种挑战性场景,由train2017(118287张图像)、val2017(5000张图像)和test-dev2017(20288张图像)三部分构成,本文所有模型均在train2017上训练,在val2017上评估。 如表1所示,ICSD-YOLO的五个尺度版本在性能上均优于YOLOv8、YOLOv10、YOLOv12等对比模型。其中,ICSD-YOLO-X取得最优的整体性能,mAP50:95mAP_{50:95}mAP50:95达54.7%、mAP75mAP_{75}mAP75达65.1%、mAP50mAP_{50}mAP50达75.4%,相比性能最优的YOLOv12-X,分别提升0.7、0.4、0.4个百分点。这一结果证明,本文提出的层级语义细化方法在COCO数据集上同样有效。 对于ICSD-YOLO-N和S等轻量化变体,在参数量和浮点运算量与YOLOv8-N/S、YOLOv10-N/S相当的前提下,mAP50:95mAP_{50:95}mAP50:95和mAP75mAP_{75}mAP75指标均实现明显提升,体现了FocusBlock模块的高效性------即使在计算资源有限的情况下,仍能增强模型的特征感知能力。此外,ICSD-YOLO-M和L等中大规模变体也表现出更优的性能,持续优于同系列YOLO模型,证明本文提出的空间编码、多尺度上下文融合和稀疏注意力设计在不同模型容量下均具有鲁棒性和有效性。 为保证实验结果的可靠性,降低随机初始化的影响,本文在COCO数据集上采用5个不同的随机种子开展独立训练,最终的mAP50:95mAP_{50:95}mAP50:95结果为5次训练的平均值,且各次训练结果高度一致,证明ICSD-YOLO-X相比YOLOv12-X提升的0.7个百分点具有稳定性,并非由随机因素导致。所有实验均采用相同的训练条件和超参数配置,COCO数据集的实验结果验证了ICSD-YOLO能在保证强泛化能力的同时,实现检测精度的实质性提升。 #### 4.3 工业现场数据集实验结果 现有目标检测数据集(如COCO、ImageNet)难以真实反映石油钻井工业现场的复杂环境,该场景下的目标检测器常面临人员密集、光照剧烈变化、目标遮挡、背景复杂等挑战。为弥补这一缺陷,本文构建了工业现场数据集(Industrial Field Dataset,IFD)------一套面向工业石油钻井安全关键检测任务的大规模领域专属数据集,如表4所示。 该数据集采集自多个石油钻井现场,涵盖室内外环境及多种天气、光照条件,包含44073张训练图像和11018张验证图像,所有图像均采用YOLO格式标注,检测目标包括个人防护装备、危险源、作业车辆等。为更清晰地解读表4,对数据集属性说明如下:**可见性** 表示图像中目标未被遮挡的比例(高:\>80%;中:40%\~80%;低:\<40%);**遮挡程度** 表示目标是否被其他物体或场景元素部分遮挡(无/部分);**检测难度**表示目标的平均检测复杂度,由目标尺度、光照条件和背景复杂度共同决定(易/中/难)。 为评估ICSD-YOLO在实际应用中的鲁棒性和部署可行性,本文在包含17类目标(作业人员、安全帽、防护背心、机械设备等工业实体)的工业现场数据集(IFD)上开展实验。与COCO等基准数据集不同,IFD数据集存在光照不均、相机视角多变、目标部分遮挡、目标分布密集等问题,对轻量化检测框架提出了更高要求。 如表3所示,ICSD-YOLO-X在所有关键指标上均取得最优性能,精确率达87.6%、mAP50:95mAP_{50:95}mAP50:95达68.1%、召回率达79.4%、F1分数达83.0%,显著优于所有YOLOv8/10/11/12变体。具体而言,ICSD-YOLO-N和S表现出显著优势:与YOLOv10-N相,ICSD-YOLO-N的精确率提升7.4个百分点,浮点运算量降低10%,适用于边缘设备部署;同理,ICSD-YOLO-S在保持检测精度竞争力的同时降低了浮点运算量,是移动终端或嵌入式系统的理想选择。这一结果验证了本文提出的层级感知机制的有效性------ConvStemBlock实现高效的早期全局感知,FocusBlock完成由粗到细的局部特征细化,二者结合提升了模型对目标的鲁棒性定位能力。 为进一步强化评估结果,本文将ICSD-YOLO与多款轻量化检测器对比,包括YOLO-NAS-S/M/L、MobileDet、PP-YOLOE+,以及Jujube-YOLO、MFEL-YOLO等近期的场景专属轻量化模型,所有模型均在相同条件下训练以保证对比的公平性。 如表5所示,ICSD-YOLO全尺度变体在保持更低计算复杂度的同时,检测精度均持续高于对比模型。其中,ICSD-YOLO-L的mAP50:95mAP_{50:95}mAP50:95相比YOLO-NAS-L提升5.4个百分点;ICSD-YOLO-N的mAP50:95mAP_{50:95}mAP50:95(55.5%)和F1分数(75.3%)相比MobileDet分别提升2.0和0.5个百分点;ICSD-YOLO-M的精确率(86.6%)相比PP-YOLOE+提升1.7个百分点。此外,与Jujube-YOLO、MFEL-YOLO等领域专属检测器相比,ICSD-YOLO-S/M的mAP50:95mAP_{50:95}mAP50:95提升4.6\~6.7个百分点,证明模型在目标遮挡、光照变化、背景复杂的场景中具有更优的鲁棒性。 综上,实验结果验证了ICSD-YOLO在检测精度、计算效率和部署可行性之间实现了优异平衡,性能优于基于神经架构搜索(NAS)优化和人工设计的各类检测器,适用于多样化的工业视觉场景。本文提出的ICSD-YOLO框架兼具高检测精度和部署可扩展性,在复杂工业环境的实时安全监测中具有良好的应用前景。 #### 4.4 推理效率分析 为进一步评估ICSD-YOLO在实际场景中的部署可行性,本文对代表性检测器的推理效率(每秒帧数,FPS)和检测精度开展详细对比,结果如表6所示。ICSD-YOLO-M实现了175.4 FPS的最高推理速度,在所有对比模型中表现最优,同时保持了均衡的检测精度;与YOLOv10-M、YOLO-NAS-M等更复杂的基准模型相,ICSD-YOLO-M在参数量相当或更少的前提下,推理速度提升至1.7倍。 这种精度与速度的优异平衡,体现了本文架构设计的高效性,尤其是轻量化的ConvStemBlock和FocusBlock模块,优化了计算流程并减少了冗余的卷积操作。因此,ICSD-YOLO具备出色的实时性能和部署灵活性,非常适合对延迟敏感、资源受限的工业应用场景。 #### 4.5 消融实验 为验证ICSD-YOLO中各核心模块的有效性,本文在工业现场数据集上开展了一系列消融实验。所有消融实验均基于轻量化变体ICSD-YOLO-N,通过移除或修改ConvStemBlock、FocusBlock内部子模块(如CoordConv、GlobalContextFusion、Sparse Attention)等关键组件,采用控制变量法分离各模块对模型性能的影响;除目标结构的调整外,所有配置均保持一致。为保证公平性,所有模型均采用640×640的输入分辨率进行训练和评估,具体实验如下。 为评估FocusBlock中各组件的有效性,本文以ICSD-YOLOv11-N为基准,在其基础上构建多种模型变体开展消融实验,结果如表8所示。基准模型的精确率为85.4%、召回率为67.4%、mAP50:95mAP_{50:95}mAP50:95为55.5%。本文首先分析单一组件的影响:添加CoordConv后,模型各指标均有提升,尤其是mAP50mAP_{50}mAP50(75.1%)和mAP50:95mAP_{50:95}mAP50:95(56.5%),证明建模空间坐标有助于提升检测精度;GCF模块也带来了中等程度的性能提升,尤其是召回率,体现了其更优的目标定位能力;添加门控融合注意力后,模型性能进一步提升,证明其能实现特征融合的自适应细化。值得注意的是,稀疏注意力模块使两个mAP指标均实现显著提升(77.1%和60.3%),但代价是计算复杂度的增加。 在组合变体中,CoordConv+GCF的配置实现了更优的平衡,精确率达86.2%、召回率达75.1%、mAP50:95mAP_{50:95}mAP50:95达63.1%,同时计算需求适中(357亿次浮点运算)。最终,整合了四个组件的完整FocusBlock取得了最优的整体性能,精确率87.6%、召回率79.4%、$mAP_{50}78.678.6%、78.6mAP_{50:95}$68.1%,F1分数达83.3%。 上述结果体现了各子模块的互补优势:CoordConv实现位置信息提取,GCF增强多尺度上下文融合,门控融合注意力有效融合语义和结构特征,稀疏自注意力捕捉长距离关系。各模块的整合实现了检测精度的大幅提升,验证了各模块设计的有效性,尽管伴随一定的计算代价。 这些结果清晰地证明了FocusBlock内部设计和策略性部署的累积效应,CoordConv、GCF和注意力机制的融合对语义细化起到了重要作用。FocusBlock不仅在三个核心指标上实现了性能超越,还表现出比主流轻量化模块更优的泛化能力和鲁棒性。但需要注意的是,完整的FocusBlock会带来显著的计算成本,浮点运算量增至1168亿次,参数量达8618.5万。因此,可根据应用场景的需求,为资源受限的环境选择轻量化版本的FocusBlock。 ### 5 ICSD-YOLO的深入研究 为更深入地分析ICSD-YOLO两个核心组件的贡献,本文对ConvStemBlock和FocusBlock开展全面的性能分析。 #### 5.1 卷积骨干块(ConvStemBlock)的效果 为全面验证本文提出的ConvStemBlock的必要性和有效性,本文在工业现场数据集上,将其与多种代表性的骨干网络结构对比,包括YOLOv8中的普通卷积骨干层、重参数化卷积骨干层、ConvNeXt大核骨干层、EfficientNet的MBConv骨干层,以及YOLOv7中的CSP骨干层,结果如表7所示。 本文提出的ConvStemBlock在效率和精度之间实现了最优平衡:单纯的大核卷积虽能扩大感受野,但易丢失细粒度空间细节;MobileOne、MBConv等轻量化重参数化变体提升了效率,却降低了语义丰富度;CSP型骨干层增强了梯度流动,但缺乏早期的全局感知能力。与之相对,本文提出的ConvStemBlock整合了残差深度卷积、空洞重参数化和SE增强的多尺度融合,能以最小的成本实现全局感知,因此在计算复杂度相当的前提下,相比基准模型,mAP50:95mAP_{50:95}mAP50:95和精确率分别提升3.9和2.4个百分点。实验结果为5次独立训练的平均值,mAP50:95mAP_{50:95}mAP50:95稳定提升2.2%\~3.9%,证明了ConvStemBlock的鲁棒性,也体现了该模块在实现早期全局感知平衡上的优势。 本文还分析了ConvStemBlock在网络不同阶段插入的影响,如表11所示:仅在输入层插入ConvStemBlock,能提升模型的早期特征编码能力;将其添加至骨干网络的早期阶段,模型性能进一步提升,证明增强低层纹理和边缘特征至关重要;在输入骨干层和骨干网络早期同时插入ConvStemBlock时,模型取得最优性能。这一结果验证了融合空间信息和层级特征提取的重要性。 #### 5.2 聚焦块(FocusBlock)的效果 为进一步验证FocusBlock中关键超参数设置的合理性,本文从五个方面开展细粒度的消融实验:全局上下文融合(GCF)中的池化尺度、稀疏注意力中的注意力头数、MLP增强器的扩展比、DropPath正则化率,以及CoordConv中的空间编码策略。所有实验均基于ICSD-YOLO-S变体,在本文提出的工业现场数据集上完成评估。 ##### (1)全局上下文融合(GCF)中池化尺度的影响 为评估感受野多样性的影响,本文探索了全局上下文融合中不同的池化尺度组合,结果如表9所示。仅使用单一的1×1池化(即全局平均池化)会限制模型捕捉层级上下文的能力,导致性能欠佳;引入1、3、5核尺寸的多尺度融合,显著提升了模型的上下文感知能力,取得最优性能;新增7×7尺度则略微增加了特征冗余,导致性能小幅下降。 ##### (2)稀疏注意力中注意力头数的影响 本文进一步研究了稀疏注意力模块中注意力头数对长距离依赖建模的影响,结果如表10所示。单注意力头的方向表达能力有限,限制了全局交互的有效性;注意力头数增加至2和4时,模型性能逐步提升,其中4头变体取得最优的mAP50:95mAP_{50:95}mAP50:95(61.6%)和召回率(72.9%),证明该设置能实现更丰富、更多样的注意力分布;但将注意力头数扩展至8时,精确率虽有小幅提升(84.6%),但整体检测精度下降,这可能是由于注意力图冗余和特征表示过度碎片化导致。 ##### (3)MLP增强器扩展比的影响 MLP增强器的扩展比决定了通道级非线性变换的能力,如表14所示。扩展比过小(如2)会限制模型捕捉复杂特征的能力,扩展比过大(如8)则可能导致计算冗余和过拟合风险。实验证明,扩展比为4时,模型在特征表示能力和正则化之间实现了良好平衡,更适合用于轻量化增强模块。 ##### (4)FocusBlock中DropPath率的影响 DropPath是一种正则化技术,通过在训练过程中随机丢弃特征路径缓解过拟合,在数据量有限的场景中尤为有效。如表12所示,将DropPath率从0.00逐步提升至0.10时,模型的mAP50:95mAP_{50:95}mAP50:95、精确率和召回率均持续提升,证明适度的随机正则化能防止过拟合,促进更鲁棒的特征学习;DropPath率为0.10时模型取得最优性能,mAP50:95mAP_{50:95}mAP50:95达61.5%、精确率达85.4%、召回率达72.4%;但将DropPath率进一步提升至0.20时,模型性能下降,这可能是由于信息过度破坏导致。 ##### (5)空间编码策略的对比 本文在FocusBlock中对比了三种空间编码策略:无位置编码、正弦位置编码和CoordConv,结果如表13所示。CoordConv在mAP50:95mAP_{50:95}mAP50:95、精确率和召回率上均持续表现出更优性能。与固定频率的正弦嵌入不同,CoordConv引入归一化的坐标通道作为显式的空间信息,使模型能更好地捕捉位置和几何特征,这对于目标检测这类对空间敏感的任务尤为重要。实验结果证明,CoordConv能提供更具自适应性和信息量的空间表示。 ##### (6)FocusBlock的插入位置 为确定FocusBlock的最优插入位置,本文评估了其在网络不同阶段(骨干网络浅层、中层、深层,以及与颈部网络结合)的性能,结果如表15所示。仅在骨干网络浅层或中层插入该模块,性能提升有限;在深层插入时,模型的语义建模能力得到明显提升,mAP50:95mAP_{50:95}mAP50:95增至61.1%;在骨干网络所有阶段同时插入,或在骨干网络与颈部网络中联合插入时,模型取得最优性能,精确率达86.2%、召回率达74.9%、mAP50:95mAP_{50:95}mAP50:95达64.0%。 上述结果体现了层级语义增强的重要性,早期空间特征和深层语义细化共同提升了模型的检测精度。 综上,全面的实验验证了FocusBlock和ICSD-YOLO整体设计中各关键模块的有效性:子模块级的研究证明,CoordConv、GCF、双路径注意力和MLP增强能以最小的开销共同增强语义表示;超参数分析表明,池化尺度、注意力头数、MLP扩展比和DropPath率需要精心平衡以实现最优学习;空间编码策略的对比凸显了CoordConv在保留位置先验信息上的优势。 此外,本文还研究了模块部署策略的影响:稀疏自注意力FocusBlock的插入位置对语义增强性能影响显著,深层网络能从更丰富的上下文聚合中获益;同理,在输入层部署ConvStemBlock,对捕捉初始空间语义、降低下游计算复杂度至关重要。这些结果共同凸显了本文提出的设计在模块可扩展性和泛化鲁棒性上的优势。 #### 5.3 案例分析 为进一步验证ICSD-YOLO在实际工业安全场景中的有效性,本文选取三个代表性的检测挑战开展全面对比,结果如图5\~图7所示,所选案例包括:(1)小目标检测(如小型安全帽、远距离作业人员、细长推拉杆);(2)光照变化场景(强光逆光和过曝);(3)目标遮挡与密集场景(人员紧密聚集、设备部分遮挡)。 每个案例均展示四组水平对齐的结果:输入图像、基准模型(YOLOv8、YOLOv11等)的检测结果,以及本文ICSD-YOLO的检测结果。黄色边界框标注了基准模型漏检、而ICSD-YOLO成功检测的目标。在小目标检测场景中,ICSD-YOLO能捕捉到其他检测器忽略的目标细节;在极端光照变化场景下,本文模型能生成更完整、准确的边界框;在目标密集或遮挡场景中,本文模型能准确识别每名人员、安全帽等目标。所有结果均证明了ICSD-YOLO的鲁棒性、适应性和工业适用性。 ### 6 结论与未来工作 本文提出了一套面向安全关键型工业应用的实时目标检测器ICSD-YOLO,在公开的COCO数据集和实际的工业现场数据集上开展的大量实验表明,ICSD-YOLO在多项指标上均表现出更优性能;详细的消融实验进一步验证了模型设计中各子模块和超参数选择的独立贡献。整体而言,ICSD-YOLO在检测精度、效率和可扩展性之间实现了良好平衡,是边缘设备和工业环境中实时视觉感知任务的理想解决方案。 尽管ICSD-YOLO已表现出优异的性能,但仍有多个方向值得进一步探索:一个极具潜力的扩展方向是将该框架从目标检测拓展至实例分割、全景分割等稠密预测任务,以实现工业环境中更丰富的场景理解;此外,面向边缘设备的轻量化神经架构搜索(NAS)等硬件感知优化,可进一步提升模型的实时部署效率。 #### 图表说明(补充) **图1** :ICSD-YOLO与其他检测器在浮点运算量(GFLOPs)和参数量上的对比,本文方法的性能与其他检测器相比具有竞争力。 **图2** :本文提出的ICSD-YOLO检测框架整体架构,由四个核心组件构成:(a)骨干网络,采用ConvStemBlock和AKConv扩大感受野并编码粗粒度特征;(b)颈部网络,通过上采样和拼接实现多尺度特征融合;©聚焦网络,整合FocusNetBlock和AKConv,通过层级注意力增强语义表示;(d)检测头,输出预测结果以实现目标的精确定位和分类。 **图3** :本文提出的ConvStemBlock整体架构。 **图4** :本文提出的FocusBlock整体架构,由五个协同子模块构成:(a)位置增强,通过坐标感知卷积编码空间先验信息,保留几何关系;(b)层级上下文融合,通过金字塔卷积聚合多尺度上下文特征,增强全局感知能力;©门控注意力融合,采用挤压激励式门控机制实现通道重校准,平衡语义和结构特征响应;(d)稀疏注意力细化,引入对角线掩码稀疏注意力,在保持局部归纳偏置的同时高效捕捉长距离依赖;(e)MLP增强与残差融合,通过轻量化MLP变换和残差反馈细化融合特征,稳定模型学习并提升泛化能力。上述子模块将全局上下文信息逐步转化为细粒度的判别特征,构建了一套由粗到细的语义聚焦机制。 **图5** :小目标检测结果可视化:工业现场数据集上的检测结果,包括遮挡人员、红色安全帽、推拉杆、密集人群和远距离目标,黄色区域标注了本文方法相比基准模型的性能提升。 **图6** :光照变化场景(强光逆光和过曝)检测结果可视化:工业现场数据集上的检测结果,包括过曝人员和红色安全帽,黄色区域标注了本文方法相比基准模型的性能提升。 **图7**:目标遮挡与密集场景检测结果可视化:工业现场数据集上的检测结果,包括被设备遮挡的人员、冬季安全帽、穿着与背景颜色相近衣物的人员及密集人群,黄色区域标注了本文方法相比基准模型的性能提升。 **表1** :COCO2017数据集上实时检测器的性能对比,所有模型均在train2017上训练、在val2017上评估,浮点运算量基于640×640输入分辨率计算。 **表2** :本文ICSD-YOLO各尺度变体的配置参数。 **表3** :工业现场数据集上不同实时检测器的性能对比,P为精确率、R为召回率、F1为F1分数、FLOPs为十亿次浮点运算,所有指标均以百分比表示。 **表4** :YOLO格式的工业现场数据集(IFD)统计信息,图像原始分辨率1920×1080,训练分辨率640×640。 **表5** :工业现场数据集上ICSD-YOLO与轻量化SOTA检测器的性能对比,所有模型均在相同设置下训练(输入分辨率640×640、批次大小32、训练轮数500)。 **表6** :工业现场数据集上检测器的推理效率与精度对比(基于RTX 4090、输入分辨率640×640)。 **表7** :工业现场数据集上ICSD-YOLO-S的ConvStemBlock中不同骨干结构的消融实验,浮点运算量基于640×640输入分辨率计算。 **表8** :FocusBlock各子模块有效性的消融实验,通过逐步整合CoordConv、全局上下文融合(GCF)、门控融合注意力和稀疏自注意力,量化各模块对检测精度和效率的贡献。 **表9** :全局上下文融合(GCF)模块中池化尺度的影响,更大的尺度组合能提升语义聚合能力和整体检测精度。 **表10** :稀疏注意力中注意力头数的影响,增加注意力头数能提升建模粒度,但头数过大则收益递减。 **表11** :ConvStemBlock插入阶段的影响,评估不同部署位置对模型早期编码和整体检测性能的作用。 **表12** :FocusBlock中DropPath正则化率的影响,评估其在数据量有限的条件下对训练稳定性和泛化能力提升的作用。 **表13** :不同空间编码策略的对比,将CoordConv与正弦位置嵌入、无位置编码对比,评估其对空间感知和定位精度的影响。 **表14** :MLP增强器中扩展比的影响,扩展比越高特征表示能力越强,但过度扩展易引发过拟合并增加计算量。 **表15**:FocusBlock插入阶段的影响,对比模型在网络不同深度部署时的性能。