SCI核心论文剖析：ICSD-YOLO：面向工业现场安全的实时智能检测算法

前言：

**SCI精读是一项高投入、高回报的科研投资。它初期看似缓慢，但从长远看，它是构建你深厚学术功底、敏锐科研嗅觉和强大创新能力的唯一捷径。将精读养成习惯，它最终会从一项"任务"变成一种能带给你巨大成就感和乐趣的"能力"，介于此，本Up主开设sci领读课程，旨在让小伙伴们在快乐中快速具备论文写作能力！**本专栏为视频课程中的文章翻译！

ICSD-YOLO：面向工业现场安全的实时智能检测算法

摘要

在工业环境中实现全面、准确的目标检测对保障生产作业安全至关重要。然而，以YOLO系列为代表的现有基于卷积神经网络的实时检测器，存在早期特征提取能力不足的问题，且缺乏应对目标遮挡、形变和尺度变化的有效感知机制。基于Transformer的检测器通过自注意力机制强化全局上下文建模，在复杂基准数据集上取得了更优性能，但这类模型计算成本高、参数量大，使其在资源受限的工业环境中的适用性受到限制。为解决上述问题，本文提出了一套目标检测器ICSD-YOLO（信息卷积骨干聚焦块检测器），这是一款可增强特征编码与层级感知能力的轻量化检测框架。本文设计了卷积骨干块（ConvStemBlock）以提升低层特征提取效果、扩大感受野，同时设计了聚焦块（FocusBlock）实现多尺度语义细化。本研究基于YOLO系列算法搭建ICSD-YOLO模型，并在COCO基准数据集和一套工业现场数据集上，对该模型的5个尺度版本（超轻量版Nano、轻量版Small、中等规模版Medium、大规模版Large、超大规模版Extra-Large）开展性能评估。实验结果表明，与原始YOLOv12-X相比，ICSD-YOLO-X的平均精度均值mAP50:95mAP_{50:95}mAP50:95从66.9%提升至68.1%（提升1.2个百分点），F1分数从80.8%提升至83.0%（提升2.2个百分点），同时浮点运算量（FLOPs）降低41.3%（从1990亿次降至1168亿次）。这一结果证明，该模型在复杂场景下具备更优的感知能力，适用于安全关键型工业场景的部署。本文相关代码开源地址为：https://github.com/PrintSC/code。

1 引言

目标检测是计算机视觉领域的核心任务之一，广泛应用于工业安全监测、智能交通、无人系统、医学影像分析等高风险感知场景。在这些实际应用中，检测系统不仅需要具备高精度和强鲁棒性，以实现关键目标的准确识别和稳定响应，还需兼顾实时性和资源效率，满足在线处理与快速反馈的需求。尤其是在边缘计算设备、移动终端或嵌入式系统中，受计算资源、存储容量和能耗的限制，传统高性能模型因计算成本过高而面临部署难题。因此，设计一款能在检测精度、推理速度、计算成本和参数量之间实现良好平衡的高效目标检测模型，成为当前该领域的开放性研究课题。

近年来，主流的目标检测方法逐渐形成两大技术路线：其一为基于卷积神经网络的特征提取模型（如YOLO系列、EfficientDet），通过堆叠卷积层提取空间特征，具备结构紧凑、推理速度快的优势；其二为基于Transformer的建模方法（如DETR、ViTDet、DN-DETR、Swin-Transformer），通过注意力机制构建语义关联，显著提升了目标识别的上下文理解能力，且该类模型在参数效率和结构灵活性上表现突出。

目前，基于卷积神经网络的模型因卷积运算高效，仍是工业部署和边缘设备的主流选择；而基于Transformer的模型擅长全局上下文建模，在复杂场景和长距离依赖任务中表现优异。但卷积神经网络模型存在早期网络层感受野有限的问题，在目标遮挡、形变或小目标检测场景中易丢失细粒度特征；与之相对，Transformer模型的全局自注意力机制会带来极高的计算复杂度和庞大的参数量，导致模型推理延迟高、内存开销大，难以在资源受限的边缘设备上部署。由此可见，基于卷积神经网络的检测器受限于低层特征提取能力不足，基于Transformer的检测器则受困于计算成本和模型规模过大，二者在复杂且资源受限的工业环境中均存在适用性问题。

为解决上述挑战，众多研究尝试引入注意力机制、多尺度特征融合、分支路径建模等策略，以增强模型的特征表达能力和上下文感知能力。例如，双向特征金字塔网络（BiFPN）通过加权多尺度路径融合优化特征金字塔，YOLOv7借助E-ELAN架构实现自适应特征融合，视觉Transformer模型则利用深度注意力机制强化语义建模。尽管这些方法在一定程度上缓解了模型精度与效率之间的固有矛盾，但多数方法仅聚焦于特征融合或语义表示的优化，忽略了人类视觉系统"由粗到细"的感知这一核心特征。

受人类视觉认知机制的启发，本文提出全新的检测框架ICSD-YOLO（信息卷积骨干聚焦块检测器），该架构专为解决工业环境中的检测难题设计，可应对工业场景中光照剧烈变化、目标频繁遮挡、目标分布密集及小目标检测等问题。为此，ICSD-YOLO设计了两个核心模块：卷积骨干块（ConvStemBlock），通过空洞重参数化卷积和多尺度聚合增强模型的早期全局感知能力和光照鲁棒性；聚焦块（FocusBlock），基于由粗到细的感知逻辑，通过门控融合和稀疏注意力实现密集与遮挡目标的特征细化。

搭建该框架需解决若干具体技术难题：

（1）基于卷积神经网络的模型早期感受野有限：轻量化架构易丢失细粒度空间信息，导致小目标、遮挡目标和重叠目标的检测性能下降。本文设计的ConvStemBlock采用轻量化重参数化卷积扩大感受野，在保证效率的同时实现模型的早期全局感知。

（2）基于Transformer的模型计算成本高、参数量大：全局自注意力机制带来大量计算和庞大参数量，引发高推理延迟和内存消耗，阻碍其在资源受限边缘设备上的部署。本文提出的FocusBlock引入分阶段稀疏注意力和门控融合，以由粗到细的方式捕捉细粒度细节，与全自注意力机制相比，计算开销大幅降低，同时实现自适应局部特征细化。

（3）多尺度特征融合存在冗余和噪声：未经语义筛选的直接特征融合会引入无关的背景信息，降低模型在复杂工业环境中的鲁棒性。本文引入带信息约束的跨层语义交互机制，选择性传递有效特征并抑制无关特征，从而提升模型在复杂场景下的特征区分能力。

综上，ICSD-YOLO针对工业检测场景提出了多项核心设计和结构创新。在结构上，ICSD-YOLO在标准YOLOv11架构的基础上完成三项关键改进：

（1）将原始卷积骨干层替换为本文提出的ConvStemBlock，通过空洞重参数化卷积和多尺度融合扩大感受野，实现模型的早期全局感知，同时提升模型在光照变化场景下的鲁棒性；

（2）将骨干网络中的多个标准卷积单元替换为FocusBlock------这一细粒度特征细化单元融合了门控注意力、稀疏注意力和多层感知器增强机制，提升小目标、遮挡目标和密集分布目标的检测性能；

（3）重新设计骨干网络与检测头之间的特征传递方式，采用双向语义交互机制，让高层上下文信息指导浅层空间特征提取。

上述创新共同构建了一套由粗到细的感知层级：ConvStemBlock捕捉全局结构特征，FocusBlock细化局部语义细节，二者的交互作用提升了模型对光照不均、目标遮挡和人群密集场景的鲁棒性。这种层级化的协同设计在提升检测精度的同时降低了部署门槛，使ICSD-YOLO成为工业安全实时检测的理想选择。

本文的主要研究贡献如下：

提出一套面向工业安全图像分析的实时检测器ICSD-YOLO，涵盖Nano、Small、Medium、Large、Extra-Large五种尺度，在检测精度、推理效率和计算成本之间实现了良好平衡；
设计高效的输入特征提取模块ConvStemBlock，融合大核卷积和残差语义增强机制，在扩大感受野的同时降低模型早期的计算冗余；
提出FocusBlock模块，整合显式位置编码（CoordConv）、多尺度上下文融合、稀疏自注意力和多层感知器增强机制，显著提升模型深层网络的结构表示能力和尺度自适应能力。

2 相关工作

2.1 轻量化目标检测

随着模型在边缘设备和移动平台的部署需求快速增长，轻量化目标检测成为研究热点。YOLO系列算法始终在感受野设计、推理速度和检测精度之间寻求平衡：例如，YOLOv5利用跨阶段部分网络（CSPNet）实现高效特征提取；YOLOv8引入解耦检测头提升模型适应性；YOLOv11采用双分支C3k2模块增强特征提取能力，并优化空间金字塔池化快速模块（SPPF）以降低计算量，同时结合分布焦点损失（DFL）的轻量化解耦检测头提升了回归精度。

除YOLO系列外，EfficientDet提出复合缩放策略和双向特征金字塔网络融合策略；PicoDet和PP-YOLOE针对工业场景优化了骨干网络并实现端到端部署。但多数轻量化方法仍依赖静态结构堆叠，缺乏细粒度的动态感知和区域注意力机制，在复杂背景、小目标等检测挑战中表现不佳。

2.2 注意力机制

注意力机制已成为提升目标检测性能的重要组件。通道注意力（如ECA-NET、SENet）、空间注意力（如CBAM）和混合注意力模块（如ECA、坐标注意力）提升了网络捕捉显著特征和细节的能力，但这类机制计算成本较高，在资源受限环境中的应用受到限制。

为进一步提升特征表示能力，稀疏注意力机制（如稀疏注意力、局部注意力）在保证低计算复杂度的同时扩大了感受野；动态检测头（DyHead）融合多尺度注意力与动态路由机制，提升了模型在复杂场景下的鲁棒性。但多数注意力机制仍独立依附于静态骨干网络，缺乏全局语义指导和协同建模，无法实现自上而下、由粗到细的动态注意力感知，从而限制了其在实际场景中的性能潜力。

2.3 多尺度信息提取与表示

多尺度建模策略是解决检测任务中目标尺寸和位置分布多样性问题的关键。经典方法如特征金字塔网络（FPN）通过自下而上的层级特征提取实现多尺度感知；路径聚合网络（PANet）引入自上而下的特征路径增强跨层交互；双向特征金字塔网络（BiFPN）则通过可学习的加权融合和跨层连接，进一步提升特征的一致性和表达能力。

近期的模型如RT-DETR和RT-DETRV2，通过扩大感受野或引入层级标注机制提升特征粒度。尽管上述方法增强了模型的多尺度表示能力，但均依赖层叠结构或通道加权策略，在小目标、密集目标、遮挡/重叠目标检测中效果有限，且难以模拟本文提出的人类视觉"由粗到细"的感知过程。

与现有方法不同，本文提出的ICSD-YOLO融合了自上而下的注意力指导、多尺度动态感知和稀疏上下文建模，模拟人类视觉认知过程，实现从全局概览到局部区域的逐步聚焦，有效提升了复杂场景下的检测精度和全面性。

3 方法设计

3.1 网络整体架构

在工业目标检测中，能否高效融合全局上下文信息与细粒度局部细节提取能力，是实现小目标、遮挡目标和重叠目标准确检测的关键。然而，现有多数基于卷积神经网络的模型存在早期网络层感受野有限的问题，导致全局信息提取不足；而基于Transformer的模型通过自注意力机制建模全局和长距离依赖时，计算复杂度过高，不适合实时边缘部署。这种全局感知与局部细节提取的融合缺失，会导致模型在复杂工业场景中的检测性能下降。

为模拟人类由粗到细的感知机制，本文提出ICSD-YOLO模型，其架构采用模块化骨干网络，在多个层级融合卷积和注意力建模机制。本文设计的ConvStemBlock能以较低计算成本提取粗粒度特征，后续的FocusBlock则通过稀疏性和门控注意力对重要特征进行针对性细粒度增强，在不提升空间分辨率的前提下提高语义区分能力。

本文提出的ICSD-YOLO由四个核心组件构成：（1）骨干网络（Backbone）；（2）颈部网络（Neck）；（3）聚焦网络（Focus-Net）；（4）检测头（Detection Head）。其中，骨干网络采用ConvStemBlock和任意形状采样卷积（AKConv），通过大核卷积完成早期空间下采样和低层特征提取；聚焦网络作为最终的特征处理模块，通过上下文聚合和多路径卷积捕捉更细致的语义信息，并结合本文提出的FocusBlock进一步细化特征表示------该模块整合了坐标感知卷积、多尺度上下文融合、门控注意力和稀疏自注意力，使模型能动态识别并增强显著区域特征，尤其有利于小目标、遮挡目标和形变目标的检测。

需要说明的是，本框架并非依赖静态的模块堆叠，而是模拟自上而下的逐步特征细化过程。网络的每个阶段在结构上解耦、在语义上关联，支持灵活的信息流动和层级化信息聚合。该架构在精度和效率之间实现了更优平衡，适合在资源受限的环境中部署。

3.2 卷积骨干块（ConvStemBlock）模块

现有多数目标检测方法采用小核卷积提取特征，限制了模型的上下文信息捕捉能力，导致空间编码不足、语义表示能力薄弱。这一缺陷在光照条件剧烈变化、背景复杂的工业环境中尤为突出。为解决该问题，同时提升模型在强光反射和暗光环境中的特征提取能力，本文设计了ConvStemBlock------一款实现大核下采样和层级特征增强的轻量化模块。该模块在完成空间下采样的同时，保持轻量化特性，并提升浅层特征的语义质量。

ConvStemBlock由两个核心组件构成：（1）卷积块层，由7×7卷积构成，扩大感受野以增强早期空间建模能力，提升浅层网络的语义抽象水平；（2）增强基础块（EnhancedBasicBlock），显著丰富特征表示能力------该模块先通过深度残差卷积（ResDWConv）保留细粒度细节，再通过空洞重参数化块（DilatedReparamBlock，不使用空洞卷积时替换为标准深度卷积）扩大感受野。同时，EnhancedBasicBlock整合了挤压激励（SE）注意力块实现通道重加权，引入多尺度卷积层（采用3×3、5×5、7×7深度卷积）提取上下文信息，并加入全局响应归一化（GRN）层。整个EnhancedBasicBlock还引入了可选的层缩放（LayerScale）和随机路径丢弃（DropPath）机制，以稳定模型训练并提升正则化效果。该设计使ConvStemBlock输出的特征图兼具丰富的语义信息和结构感知能力。

输入图像X∈RCin×H×WX \in \mathbb{R}^{C_{in} ×H ×W}X∈RCin×H×W经7×7卷积核（步长为2）进行下采样和信息提取，计算过程如下：
S=BN(Wstem∗X)(1)S=BN\big (W_{stem}*X\big ) \tag{1}S=BN(Wstem∗X)(1)
H=X+α⋅(Wd∗ReLU(X))+β⋅Conv(X)(2)H=X+\alpha \cdot \left( W_{d}\ast ReLU(X)\right) +\beta \cdot Conv(X) \tag{2}H=X+α⋅(Wd∗ReLU(X))+β⋅Conv(X)(2)
F0=σ(S)⊙H+λtanh⁡(log⁡(1+exp⁡(Ws∗X)))(3)F_{0}=\sigma(S) \odot H+\lambda \tanh \left(\log \left(1+\exp \left(W_{s} * X\right)\right)\right) \tag{3}F0=σ(S)⊙H+λtanh(log(1+exp(Ws∗X)))(3)

其中，X∈RC×H×WX \in \mathbb{R}^{C ×H ×W}X∈RC×H×W为输入特征图；WstemW_{stem}Wstem、WdW_{d}Wd、WsW_{s}Ws分别为骨干层、深度卷积层和空间变换路径的可学习卷积核；BN(⋅)BN(\cdot)BN(⋅)为批量归一化操作；σ(⋅)\sigma(\cdot)σ(⋅)为Sigmoid激活函数；α\alphaα、β\betaβ、λ\lambdaλ为可学习的缩放系数，用于平衡各子路径的特征贡献；非线性项tanh⁡(log⁡(1+exp⁡(⋅)))\tanh(\log(1+\exp(\cdot)))tanh(log(1+exp(⋅)))引入平滑门控机制，稳定模型早期训练的梯度传播，提升骨干层特征表示F0F_{0}F0的表达能力。输出特征F0F_{0}F0将输入至EnhancedBasicBlock，其内部结构的计算过程如下。

3.2.1 深度可分离卷积

受残差网络和深度可分离卷积的启发，本文设计了残差深度可分离卷积（ResDWConv）块，以保留局部细节并增强细粒度特征表示，计算过程如下：
Z=BN(Wd∗dwF0)+ϵ⋅BN(Wp∗pwF0)(4)Z=B N\left(W_{d} *{d w} F{0}\right)+\epsilon \cdot B N\left(W_{p} *{p w} F{0}\right) \tag{4}Z=BN(Wd∗dwF0)+ϵ⋅BN(Wp∗pwF0)(4)
Fresdw=F0+η⋅tanh⁡(log(1+exp(Z)))(5)F_{r e s d w}=F_{0}+\eta \cdot \tanh (log (1+exp (Z))) \tag{5}Fresdw=F0+η⋅tanh(log(1+exp(Z)))(5)

其中，WdW_{d}Wd和WpW_{p}Wp分别为深度卷积核和点卷积核；BN(⋅)BN(\cdot)BN(⋅)为批量归一化操作；∗dw*{dw}∗dw和∗pw*{pw}∗pw分别表示深度卷积和点卷积操作；超参数ϵ\epsilonϵ和η\etaη为可学习的缩放系数，用于控制空间分支和通道分支的融合强度；tanh⁡(log⁡(1+exp⁡(⋅)))\tanh(\log(1+\exp(\cdot)))tanh(log(1+exp(⋅)))变换引入平滑非线性，稳定模型早期训练的梯度；残差连接则保证了跨层的信息保留和特征高效复用。

3.2.2 空洞重参数化卷积

受空洞卷积的启发，本文引入空洞重参数化卷积（DRConv），在不显著增加计算成本的前提下扩大有效感受野，使网络能捕捉长距离依赖关系，计算过程如下：
R(X)=∑r∈Dαr⋅BN(Cr(d)(Fresdw))(6)\mathcal{R}(X)=\sum_{r \in D} \alpha_{r} \cdot B N\left(C_{r}^{(d)}\left(F_{resdw }\right)\right) \tag{6}R(X)=r∈D∑αr⋅BN(Cr(d)(Fresdw))(6)
Fdrconv=G(R(Fresdw))+β⋅C1×1(R(Fresdw))(7)F_{drconv}=\mathcal {G}\big (\mathcal {R}(F_{resdw})\big )+\beta \cdot C_{1× 1}\big (\mathcal {R}(F_{resdw})\big ) \tag{7}Fdrconv=G(R(Fresdw))+β⋅C1×1(R(Fresdw))(7)

其中，XXX为输入特征图；r∈{1,2,3}r \in\{1,2,3\}r∈{1,2,3}为空洞率；∗r*{r}∗r表示空洞率为rrr的空洞卷积；Wr(d)W{r}^{(d)}Wr(d)为第rrr个分支的可学习卷积核；αr≥0\alpha_{r} ≥0αr≥0为自适应融合权重，满足∑αr=1\sum\alpha_{r}=1∑αr=1；BN(⋅)BN(\cdot)BN(⋅)为批量归一化操作；R\mathcal{R}R为多尺度融合后的中间特征；log⁡(1+exp⁡(⋅))\log(1+\exp(\cdot))log(1+exp(⋅))为软加激活函数；tanh⁡(⋅)\tanh(\cdot)tanh(⋅)提供有界的非线性门控响应；β\betaβ为可学习的缩放因子；Conv1×1(⋅)Conv_{1×1}(\cdot)Conv1×1(⋅)为点卷积操作；FdrconvF_{drconv}Fdrconv为DRConv模块的最终输出。

3.2.3 挤压激励（SE）注意力

为自适应强化有效通道特征、抑制无关通道响应，本文采用改进的挤压激励（SE）注意力机制。与传统仅结合全局池化和Sigmoid门控的SE模块不同，本文的方法融合了双非线性变换（软加和软最大化），同时捕捉平滑激活特征和通道间竞争关系，计算过程如下：
zc=1H×W∑H∑WFdrconv,c,i,j,z^=LN(ReLU(W1z))(8)z_{c}=\frac{1}{H × W} \sum^{H} \sum^{W} F_{d r c o n v, c, i, j}, \hat{z}=L N\left(Re L U\left(W_{1} z\right)\right) \tag{8}zc=H×W1∑H∑WFdrconv,c,i,j,z^=LN(ReLU(W1z))(8)
Fse=Fdrconv⊙σ(log(1+exp(W2z^))+Softmax(Wgz^))(9)F_{s e}=F_{d r c o n v} \odot \sigma\left(log \left(1+exp \left(W_{2} \hat{z}\right)\right)+Softmax\left(W_{g} \hat{z}\right)\right) \tag{9}Fse=Fdrconv⊙σ(log(1+exp(W2z^))+Softmax(Wgz^))(9)

其中，X∈RC×H×WX \in \mathbb{R}^{C ×H ×W}X∈RC×H×W为输入特征图；zcz_{c}zc为经全局平均池化得到的通道描述符；z^\hat{z}z^为非线性变换后的中间隐嵌入特征；W1W_{1}W1和W2W_{2}W2为瓶颈全连接层，实现通道压缩与扩展（C→Cr→CC \to \frac{C}{r} \to CC→rC→C）；LN(⋅)LN(\cdot)LN(⋅)为层归一化操作；σ(⋅)\sigma(\cdot)σ(⋅)为通道门控的Sigmoid激活函数；log⁡(1+exp⁡(⋅))\log(1+\exp(\cdot))log(1+exp(⋅))为实现平滑激活的软加函数；新增的Softmax(Wgz^)Softmax(W_{g}\hat{z})Softmax(Wgz^)项引入通道间竞争，进一步优化判别性特征的选择；⊙\odot⊙为逐元素乘法操作，用于对特征响应进行重新校准。

3.2.4 多尺度卷积融合

受双向特征金字塔网络的启发，本文提出多尺度卷积融合（MSC）机制，整合不同感受野的上下文信息。具体而言，该机制并行使用3×3、5×5、7×7卷积核捕捉从局部到全局的依赖关系，同时通过软注意力加权自适应强化更具信息量的尺度特征，融合过程如下：
Fms=∑k∈{3,5,7}ak⋅tanh⁡(log(1+exp(Wk∗Fse)))(10)F_{m s}=\sum_{k \in\{3,5,7\}} a_{k} \cdot \tanh \left(log \left(1+exp \left(W_{k} * F_{s e}\right)\right)\right) \tag{10}Fms=k∈{3,5,7}∑ak⋅tanh(log(1+exp(Wk∗Fse)))(10)
Fagg=BN(Wproj∗Fms)+λGELU(Fse)(11)F_{agg}=B N\left(W_{proj } * F_{m s}\right)+\lambda G E L U\left(F_{se}\right) \tag{11}Fagg=BN(Wproj∗Fms)+λGELU(Fse)(11)

其中，WkW_{k}Wk为多尺度卷积核；αk\alpha_{k}αk为可学习的融合对数；WprojW_{proj}Wproj为1×1投影卷积核；λ\lambdaλ为平衡骨干特征FseF_{se}Fse残差增强作用的系数。

3.2.5 全局关系归一化（GRN）与视觉注意力网络块（VANBlock）

最后，为增强语义区分能力并保持空间一致性，融合后的特征将通过全局关系归一化（GRN）和视觉注意力网络块（VANBlock）进行细化。GRN通过特征级的关系归一化捕捉全局依赖，VANBlock则利用自适应卷积核建模细粒度的空间变化。同时，通过DropPath和LayerScale正则化进一步稳定特征表示，计算过程如下：
G(X)=γ⋅FaggE[∣Fagg∣2](12)\mathcal {G}(X)=\gamma \cdot \frac {F_{agg }}{\sqrt{\mathbb{E}\left[\left|F_{agg}\right|^{2}\right]}} \tag{12}G(X)=γ⋅E[∣Fagg∣2] Fagg(12)
Fout=VANBlock(G(Fagg))+Fagg(13)F_{out }=VANBlock(\mathcal{G}(F_{agg})) + F_{agg} \tag{13}Fout=VANBlock(G(Fagg))+Fagg(13)

其中，γ\gammaγ和β\betaβ为可学习的缩放和平移系数；WgW_{g}Wg为GRN中使用的全局投影核；VANBlock(⋅)VANBlock(\cdot)VANBlock(⋅)为捕捉各向异性空间关系的视觉注意力网络；DropPath(⋅)DropPath(\cdot)DropPath(⋅)为引入随机深度的正则化操作；FaggF_{agg}Fagg与细化分支之间的残差连接构成模块的最终输出FoutF_{out}Fout。

3.3 聚焦块（FocusBlock）模块

在实际视觉环境中，受遮挡、尺度变化、形变和复杂背景的影响，目标的外观特征存在显著差异，这一问题在目标遮挡频繁、目标密度高、小目标多的工业环境中尤为突出。因此，在计算资源有限的前提下，如何同时建模局部空间结构和捕捉全局语义信息，仍是亟待解决的重要难题。

为解决该问题，同时提升模型在工业密集遮挡场景中的特征提取能力，本文设计了FocusBlock------一款受人类视觉注意力机制启发的紧凑且高效的模块，能让模型的感知过程更好地实现从粗粒度布局到细粒度细节的聚焦。FocusBlock的核心设计思路是构建一个由注意力驱动的特征细化单元，在局部到全局的语义层级引入空间信息、多尺度上下文和门控注意力。

与标准卷积不同，FocusBlock通过位置编码（CoordConv）融入空间信息，利用层级平均池化（GlobalContextFusion）提取上下文特征；为增强特征表示能力，该模块引入轻量化的通道级多层感知器（MLP）对融合特征进行细化，并添加两个归一化层稳定特征分布、提升梯度传播效率。该模块可视为一个高效的语义显著性编码器，能将浅层特征转化为语义聚焦性更强的特征表示。

具体而言，FocusBlock遵循结构化的五步处理流程，各步骤设计如下：

3.3.1 位置增强

本文利用坐标图在特征表示中保留显式的空间信息，与Transformer中的位置嵌入不同，该二维位置增强通过卷积直接编码，能更好地适应空间形变，计算过程如下：
Fcoord=σ(Convcoord([X,log⁡(1+αPx),e−βPy2]))+λX(14)F_{coord }=\sigma\left( Conv_{coord }\left(\left[X, \log \left(1+\alpha P_{x}\right), e^{-\beta P_{y}^{2}}\right]\right)\right)+\lambda X \tag{14}Fcoord=σ(Convcoord([X,log(1+αPx),e−βPy2]))+λX(14)

其中，XXX为输入特征图；PxP_{x}Px、Py∈R1×H×WP_{y} \in \mathbb{R}^{1 ×H ×W}Py∈R1×H×W分别为水平和垂直方向的归一化坐标编码；α\alphaα和β\betaβ控制空间坐标的对数和指数缩放；λ\lambdaλ为残差平衡因子；σ(⋅)\sigma(\cdot)σ(⋅)为激活函数。

3.3.2 层级上下文融合

本文采用多尺度自适应池化捕捉层级上下文依赖，同时保持空间一致性。在每个池化尺度w∈{1,3,5}w \in \{1,3,5\}w∈{1,3,5}上，通过指数调制的非线性变换强化语义丰富的激活特征、抑制冗余响应，计算过程如下：
Fctx=Cp[∑w∈{1,3,5}σ(exp(Pw(X)τ))⊙Cw(Pw(X))](15)F_{c t x}=C_{p}\left[\sum_{w \in\{1,3,5\}} \sigma\left(exp \left(\frac{P_{w}(X)}{\tau}\right)\right) \odot C_{w}\left(P_{w}(X)\right)\right] \tag{15}Fctx=Cp w∈{1,3,5}∑σ(exp(τPw(X)))⊙Cw(Pw(X)) (15)

其中，τ\tauτ为指数温度系数；σ(⋅)\sigma(\cdot)σ(⋅)为保证上下文权重有界的Sigmoid归一化函数；XXX为输入特征图；Pw(⋅)P_{w}(\cdot)Pw(⋅)为窗口大小为www的自适应平均池化操作，后续接1×1卷积Cw(⋅)C_{w}(\cdot)Cw(⋅)完成通道压缩；拼接后的特征经Cp(⋅)C_{p}(\cdot)Cp(⋅)融合，生成全局-局部混合表示特征FctxF_{ctx}Fctx。

3.3.3 门控注意力融合

本文采用受挤压激励机制启发的门控注意力融合（GAF）机制，并新增指数语义调制项。该机制同时建模语义上下文和结构特征，实现特征响应的自适应重新校准：语义分支通过全局平均池化（GAP）聚合全局描述符，经高斯误差线性单元（GELU）非线性投影和指数加权后强化高激活通道；结构分支通过深度卷积保留局部特征。两条路径通过可学习的门控系数自适应融合，计算过程如下：
G=σ(exp(W2δ(W1GAP(Fcoord+αFctx))τ))(16)G=\sigma \Bigg (exp \Bigg (\frac {W_{2}\delta (W_{1} GAP(F_{coord}+\alpha F_{ctx}))}{\tau }\Bigg )\Bigg ) \tag{16}G=σ(exp(τW2δ(W1GAP(Fcoord+αFctx))))(16)
Fgattn=(Fcoord+Fctx)⊙G+λDWConv(log⁡(1+∣Fcoord∣))(17)F_{g a t t n}=\left( F_{coord}+F_{ctx}\right) \odot G+\lambda D W C o n v \left( \log \left( 1+\left| F_{coord }\right| \right) \right) \tag{17}Fgattn=(Fcoord+Fctx)⊙G+λDWConv(log(1+∣Fcoord∣))(17)

其中，α\alphaα为语义-上下文权重系数；τ\tauτ为调整门控锐度的温度系数；λ\lambdaλ为平衡结构反馈的残差强度因子；σ(⋅)\sigma(\cdot)σ(⋅)和δ(⋅)\delta(\cdot)δ(⋅)分别为Sigmoid和GELU激活函数；⊙\odot⊙为实现通道门控的逐元素乘法操作；深度卷积DWConv(⋅)DWConv(\cdot)DWConv(⋅)保留局部拓扑结构，对数压缩则稳定梯度流动；最终输出的FgattnF_{gattn}Fgattn同时编码通道重要性和空间相关性，实现语义注意力与结构注意力的自适应融合。

3.3.4 稀疏注意力细化

本文采用对角线掩码稀疏注意力机制，在降低计算复杂度的同时保留局部归纳偏置。与稠密自注意力不同，该稀疏注意力变体选择性关注非对角线位置，能在不产生过高计算成本的前提下实现长距离依赖建模，计算过程如下：