CSP-EBlock-Mamba融合架构改进YOLOv26跨阶段空洞卷积与状态空间模型协同建模

摘要

本文提出了一种创新的CSP-EBlock-Mamba融合架构用于改进YOLOv26目标检测模型。该方法将跨阶段部分网络(CSP)、扩展块(EBlock)和Mamba状态空间模型三种先进技术有机结合，实现了多尺度特征提取、频域增强和长程依赖建模的协同优化。EBlock通过多分支空洞卷积和频域多层感知机(FreMLP)实现空间-频率双域特征增强，Mamba模块则利用选择性状态空间模型高效捕获全局上下文信息，而CSP结构确保了梯度流动的稳定性和计算效率。实验表明，该融合架构在保持实时性的同时显著提升了检测精度，特别是在多尺度目标和复杂场景下表现优异。

1. 引言

目标检测作为计算机视觉的核心任务，在自动驾驶、智能监控、工业检测等领域具有广泛应用。YOLO系列模型以其优异的速度-精度平衡成为实时目标检测的首选方案。然而，现有模型在处理多尺度目标、复杂背景和长程依赖关系时仍面临挑战。

传统卷积神经网络受限于固定感受野，难以同时捕获局部细节和全局上下文。虽然注意力机制能够建模长程依赖，但其二次复杂度限制了在高分辨率特征图上的应用。近年来，状态空间模型(SSM)因其线性复杂度和强大的序列建模能力受到关注，Mamba模型通过选择性机制进一步提升了SSM的表达能力。

本文提出的CSP-EBlock-Mamba融合架构充分发挥三种技术的优势：

EBlock扩展块：通过多分支空洞卷积实现多尺度感受野，结合频域处理增强特征表达
Mamba状态空间模型：以线性复杂度高效建模全局依赖关系
CSP跨阶段结构：优化梯度传播，降低计算冗余

这种融合设计在YOLOv26框架下实现了局部-全局、空间-频域、短程-长程的多维度特征建模，为目标检测任务提供了新的解决方案。

2. 相关工作

2.1 跨阶段部分网络(CSP)

CSPNet由Wang等人提出，通过将特征图分为两部分并在不同路径处理后融合，有效缓解了深度网络的梯度消失问题。CSP结构的核心思想是：

CSP ( x ) = Concat ( Part 1 ( x ) , Transform ( Part 2 ( x ) ) ) \text{CSP}(x) = \text{Concat}(\text{Part}_1(x), \text{Transform}(\text{Part}_2(x))) CSP(x)=Concat(Part1(x),Transform(Part2(x)))

其中 Part 1 \text{Part}_1 Part1和 Part 2 \text{Part}_2 Part2是输入特征的两个分割部分， Transform \text{Transform} Transform表示一系列卷积操作。这种设计降低了计算量，同时保持了丰富的梯度组合。

2.2 空洞卷积与多尺度特征提取

空洞卷积(Dilated Convolution)通过在卷积核中插入空洞来扩大感受野，而不增加参数量。对于空洞率为 d d d的卷积，其有效感受野为：

RF eff = k + ( k − 1 ) ( d − 1 ) \text{RF}_{\text{eff}} = k + (k-1)(d-1) RFeff=k+(k−1)(d−1)

其中 k k k为卷积核大小。多分支空洞卷积可以同时捕获不同尺度的上下文信息，这对于检测不同大小的目标至关重要。

2.3 状态空间模型与Mamba

状态空间模型将输入序列映射到连续状态空间，其离散形式可表示为：

h t = A ˉ h t − 1 + B ˉ x t y t = C h t \begin{aligned} h_t &= \bar{A}h_{t-1} + \bar{B}x_t \\ y_t &= Ch_t \end{aligned} htyt=Aˉht−1+Bˉxt=Cht

Mamba通过引入选择性机制，使参数 A ˉ \bar{A} Aˉ、 B ˉ \bar{B} Bˉ、 C C C依赖于输入，实现了内容感知的状态转换：

A ˉ = exp ⁡ ( Δ ⋅ A ) B ˉ = Δ ⋅ B Δ = softplus ( Linear ( x ) ) \begin{aligned} \bar{A} &= \exp(\Delta \cdot A) \\ \bar{B} &= \Delta \cdot B \\ \Delta &= \text{softplus}(\text{Linear}(x)) \end{aligned} AˉBˉΔ=exp(Δ⋅A)=Δ⋅B=softplus(Linear(x))

这种设计使模型能够根据输入动态调整状态转换，在保持线性复杂度的同时获得强大的表达能力。

3. 方法

3.1 整体架构

CSP-EBlock-Mamba融合架构的整体流程如图1所示。该架构将输入特征首先通过CSP结构分为两个路径，其中一个路径经过EBlock处理后与另一路径拼接，随后输入Mamba模块进行全局建模。

3.2 EBlock扩展块设计

EBlock是本架构的核心组件之一，其设计包含两个关键阶段：空间域多尺度特征提取和频域特征增强。

3.2.1 多尺度空洞卷积分支

EBlock首先通过 1 × 1 1\times1 1×1卷积将通道数扩展至 2 C 2C 2C，然后分配到多个并行的空洞卷积分支。每个分支使用不同的空洞率 d i d_i di：

F i = DWConv d i ( x ) , i ∈ { 1 , 2 , ... , N } F_i = \text{DWConv}_{d_i}(x), \quad i \in \{1, 2, \ldots, N\} Fi=DWConvdi(x),i∈{1,2,...,N}

多分支特征通过逐元素相加融合：

F multi = ∑ i = 1 N F i F_{\text{multi}} = \sum_{i=1}^{N} F_i Fmulti=i=1∑NFi

在本实现中，使用 d 1 = 1 d_1=1 d1=1和 d 2 = 3 d_2=3 d2=3两个分支，分别捕获局部细节和中等范围的上下文信息。

3.2.2 SimpleGate门控机制

融合后的特征通过SimpleGate进行门控激活。SimpleGate将特征沿通道维度分为两部分并进行逐元素乘法：

SimpleGate ( x ) = x 1 ⊙ x 2 \text{SimpleGate}(x) = x_1 \odot x_2 SimpleGate(x)=x1⊙x2

其中 x 1 , x 2 ∈ R B × C × H × W x_1, x_2 \in \mathbb{R}^{B \times C \times H \times W} x1,x2∈RB×C×H×W是 x ∈ R B × 2 C × H × W x \in \mathbb{R}^{B \times 2C \times H \times W} x∈RB×2C×H×W的两个分割部分。这种门控机制能够自适应地选择重要特征。

3.2.3 空间通道注意力(SCA)

门控后的特征经过空间通道注意力模块增强。SCA首先通过全局平均池化获取通道统计信息：

s = GAP ( F ) = 1 H W ∑ i = 1 H ∑ j = 1 W F : , i , j \mathbf{s} = \text{GAP}(F) = \frac{1}{HW}\sum_{i=1}^{H}\sum_{j=1}^{W}F_{:,i,j} s=GAP(F)=HW1i=1∑Hj=1∑WF:,i,j

然后通过 1 × 1 1\times1 1×1卷积生成注意力权重：

a = Conv 1 × 1 ( s ) \mathbf{a} = \text{Conv}_{1\times1}(\mathbf{s}) a=Conv1×1(s)

最终特征为：

F att = F ⊙ a F_{\text{att}} = F \odot \mathbf{a} Fatt=F⊙a
301种YOLOv26源码点击获取

3.2.4 频域多层感知机(FreMLP)

EBlock的第二阶段在频域进行特征增强。首先对归一化后的特征进行二维实数快速傅里叶变换(RFFT)：

F ( x ) = RFFT2D ( x ) \mathcal{F}(x) = \text{RFFT2D}(x) F(x)=RFFT2D(x)

将复数频谱分解为幅度谱和相位谱：

∣ F ( x ) ∣ = Re ( F ( x ) ) 2 + Im ( F ( x ) ) 2 ∠ F ( x ) = arctan ⁡ ( Im ( F ( x ) ) Re ( F ( x ) ) ) \begin{aligned} |\mathcal{F}(x)| &= \sqrt{\text{Re}(\mathcal{F}(x))^2 + \text{Im}(\mathcal{F}(x))^2} \\ \angle\mathcal{F}(x) &= \arctan\left(\frac{\text{Im}(\mathcal{F}(x))}{\text{Re}(\mathcal{F}(x))}\right) \end{aligned} ∣F(x)∣∠F(x)=Re(F(x))2+Im(F(x))2 =arctan(Re(F(x))Im(F(x)))

对幅度谱应用MLP变换：

∣ F ′ ( x ) ∣ = MLP ( ∣ F ( x ) ∣ ) |\mathcal{F}'(x)| = \text{MLP}(|\mathcal{F}(x)|) ∣F′(x)∣=MLP(∣F(x)∣)

其中MLP由两个 1 × 1 1\times1 1×1卷积和LeakyReLU激活函数组成。重构复数频谱并进行逆变换：

F ′ ( x ) = ∣ F ′ ( x ) ∣ ⋅ e j ∠ F ( x ) x freq = IRFFT2D ( F ′ ( x ) ) \begin{aligned} \mathcal{F}'(x) &= |\mathcal{F}'(x)| \cdot e^{j\angle\mathcal{F}(x)} \\ x_{\text{freq}} &= \text{IRFFT2D}(\mathcal{F}'(x)) \end{aligned} F′(x)xfreq=∣F′(x)∣⋅ej∠F(x)=IRFFT2D(F′(x))

最终输出结合空间域和频域特征：

Output = y + γ ⋅ ( y ⊙ x freq ) \text{Output} = y + \gamma \cdot (y \odot x_{\text{freq}}) Output=y+γ⋅(y⊙xfreq)

其中 y y y是第一阶段的输出， γ \gamma γ是可学习的缩放参数。

3.3 Mamba状态空间模型

Mamba模块负责建模特征图的全局依赖关系。其核心是选择性状态空间模型(Selective SSM)。

3.3.1 输入投影与卷积

输入特征首先通过线性投影扩展维度：