MetaFormer架构改进YOLOv26自适应稀疏注意力与卷积门控双重突破

摘要

目标检测领域的发展日新月异，YOLOv26作为YOLO系列的最新成员，在速度与精度之间取得了良好的平衡。然而，在复杂场景下的特征提取能力仍有提升空间。本文提出一种基于MetaFormer架构的改进方案，通过引入自适应稀疏注意力机制（AdaptiveSparseSA）和卷积门控线性单元（ConvolutionalGLU），在保持模型轻量化的同时显著提升特征表达能力。实验表明，该改进方法在COCO数据集上相比基线模型提升了2.3% mAP，同时计算复杂度仅增加8.7%。

1. 引言

深度学习在计算机视觉领域取得了突破性进展，目标检测作为其核心任务之一，广泛应用于自动驾驶、智能监控、工业检测等场景。YOLOv26通过优化网络架构和训练策略，在实时性和准确性方面表现出色。然而，传统卷积神经网络在捕获长距离依赖关系方面存在局限性，而纯Transformer架构又面临计算复杂度过高的问题。

MetaFormer架构提出了一种通用的视觉模型设计范式，通过解耦Token Mixer和Channel Mixer，为模型设计提供了更大的灵活性。本文将MetaFormer的设计理念引入YOLOv26，结合自适应稀疏注意力机制和卷积门控线性单元，构建了一种高效的特征提取模块。

2. 相关工作

2.1 YOLO系列演进

YOLO（You Only Look Once）系列自2015年提出以来，经历了多次迭代升级。YOLOv26在继承前代优势的基础上，引入了更高效的特征金字塔网络和改进的检测头设计。然而，其骨干网络主要依赖卷积操作，在处理全局上下文信息时存在感受野受限的问题。

2.2 Transformer在视觉任务中的应用

Vision Transformer（ViT）证明了纯Transformer架构在图像分类任务上的有效性。Swin Transformer通过引入窗口注意力机制，降低了计算复杂度，使Transformer在密集预测任务中成为可能。然而，标准的Softmax注意力机制在处理大规模特征图时仍然面临计算瓶颈。

2.3 MetaFormer架构

MetaFormer提出了一种通用的视觉模型设计框架，其核心思想是将模型分解为Token Mixer和Channel Mixer两个独立的组件。Token Mixer负责空间信息的交互，Channel Mixer负责通道维度的特征变换。这种设计使得不同的注意力机制和MLP变体可以灵活组合，为模型优化提供了更大的设计空间。

3. 方法

3.1 MetaFormer Block整体架构

MetaFormer Block采用双分支结构，每个分支包含归一化层、特征变换层、DropPath和Layer Scale。整体架构如图1所示：

MetaFormer Block的数学表达式为：

X ′ = Res_Scale 1 ( X ) + Layer_Scale 1 ( DropPath 1 ( TokenMixer ( Norm 1 ( X ) ) ) ) Y = Res_Scale 2 ( X ′ ) + Layer_Scale 2 ( DropPath 2 ( MLP ( Norm 2 ( X ′ ) ) ) ) \begin{aligned} \mathbf{X}' &= \text{Res\_Scale}_1(\mathbf{X}) + \text{Layer\_Scale}_1(\text{DropPath}_1(\text{TokenMixer}(\text{Norm}_1(\mathbf{X})))) \\ \mathbf{Y} &= \text{Res\_Scale}_2(\mathbf{X}') + \text{Layer\_Scale}_2(\text{DropPath}_2(\text{MLP}(\text{Norm}_2(\mathbf{X}')))) \end{aligned} X′Y=Res_Scale1(X)+Layer_Scale1(DropPath1(TokenMixer(Norm1(X))))=Res_Scale2(X′)+Layer_Scale2(DropPath2(MLP(Norm2(X′))))

其中， X ∈ R B × C × H × W \mathbf{X} \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W 为输入特征， Y \mathbf{Y} Y 为输出特征。Res_Scale和Layer_Scale为可学习的缩放参数，用于稳定训练过程。

3.2 自适应稀疏注意力机制（AdaptiveSparseSA）

传统的Softmax注意力机制在计算注意力权重时，会为所有位置分配非零权重，这导致了不必要的计算开销。自适应稀疏注意力机制通过引入ReLU²分支，实现了注意力权重的自适应稀疏化。

3.2.1 窗口注意力机制

为了降低计算复杂度，AdaptiveSparseSA采用窗口注意力机制，将特征图划分为不重叠的窗口，在每个窗口内独立计算注意力。对于输入特征 X ∈ R B × C × H × W \mathbf{X} \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W，首先将其划分为 H M × W M \frac{H}{M} \times \frac{W}{M} MH×MW 个大小为 M × M M \times M M×M 的窗口。

窗口划分操作定义为：

X win = WindowPartition ( X , M ) \mathbf{X}_{\text{win}} = \text{WindowPartition}(\mathbf{X}, M) Xwin=WindowPartition(X,M)

其中 X win ∈ R ( B ⋅ H W M 2 ) × M 2 × C \mathbf{X}_{\text{win}} \in \mathbb{R}^{(B \cdot \frac{HW}{M^2}) \times M^2 \times C} Xwin∈R(B⋅M2HW)×M2×C。

3.2.2 自适应稀疏机制

标准的Softmax注意力计算为：

Attn 0 = Softmax ( Q K T d k + B ) \text{Attn}_0 = \text{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}} + \mathbf{B}\right) Attn0=Softmax(dk QKT+B)

其中 B \mathbf{B} B 为相对位置偏置。自适应稀疏注意力引入ReLU²分支：

Attn 1 = ReLU ( Q K T d k + B ) 2 \text{Attn}_1 = \text{ReLU}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}} + \mathbf{B}\right)^2 Attn1=ReLU(dk QKT+B)2

最终的注意力权重通过可学习参数 w 1 , w 2 w_1, w_2 w1,w2 进行加权融合：

Attn = e w 1 e w 1 + e w 2 ⋅ Attn 0 + e w 2 e w 1 + e w 2 ⋅ Attn 1 \text{Attn} = \frac{e^{w_1}}{e^{w_1} + e^{w_2}} \cdot \text{Attn}_0 + \frac{e^{w_2}}{e^{w_1} + e^{w_2}} \cdot \text{Attn}_1 Attn=ew1+ew2ew1⋅Attn0+ew1+ew2ew2⋅Attn1

ReLU²分支的引入使得注意力权重具有更强的稀疏性，因为ReLU会将负值置零，平方操作进一步增强了这种稀疏性。这种设计在保持模型表达能力的同时，显著降低了计算复杂度。

3.2.3 循环移位机制

为了实现跨窗口的信息交互，AdaptiveSparseSA采用了Swin Transformer中的循环移位策略。在连续的两个Block中，第一个Block使用标准窗口划分，第二个Block在划分前对特征图进行 ⌊ M / 2 ⌋ \lfloor M/2 \rfloor ⌊M/2⌋ 个像素的循环移位：

X shifted = Roll ( X , ( − ⌊ M / 2 ⌋ , − ⌊ M / 2 ⌋ ) ) \mathbf{X}_{\text{shifted}} = \text{Roll}(\mathbf{X}, (-\lfloor M/2 \rfloor, -\lfloor M/2 \rfloor)) Xshifted=Roll(X,(−⌊M/2⌋,−⌊M/2⌋))

这种设计使得相邻窗口的信息可以在下一层进行交互，有效扩大了感受野。

3.3 卷积门控线性单元（ConvolutionalGLU）

传统的MLP采用两层全连接层进行通道维度的特征变换，缺乏对空间信息的建模能力。ConvolutionalGLU通过引入深度可分离卷积和门控机制，在通道变换的同时捕获局部空间特征。

3.3.1 门控线性单元（GLU）

门控线性单元最早在语言模型中提出，其核心思想是通过门控信号调制特征的激活。对于输入 X ∈ R B × C × H × W \mathbf{X} \in \mathbb{R}^{B \times C \times H \times W} X∈RB×C×H×W，首先通过1×1卷积将通道数扩展为 2 ⋅ C h 2 \cdot C_h 2⋅Ch，然后分割为两部分：