MixFormer: A Mixed CNN–Transformer Backbone

MixFormer: A Mixed CNN--Transformer Backbone

摘要

尽管基于自注意力机制的Transformer模型近年来通过建模长程语义依赖关系推动了医学影像分析的发展，但其在捕捉局部空间细节方面的能力仍逊于卷积神经网络（CNN）。本研究提出了一种新型分割网络（SEG），其核心是基于CNN-Transformer混合架构（MixFormer）的特征提取主干网络，旨在提升医学图像分割性能。MixFormer在网络下采样过程中有机融合了Transformer的全局信息建模能力和CNN的局部特征提取优势。为全面捕捉跨尺度特征，我们设计了多尺度空间感知融合（MSAF）模块，有效实现了粗细粒度特征表征的交互。此外，我们提出混合多分支空洞注意力（MMDA）模块来弥合编码与解码阶段的语义鸿沟，同时强化关键区域的关注。最后采用基于CNN的上采样方法重建底层特征，显著提升了分割精度。

在主流医学影像数据集上的实验验证表明MixFormer具有卓越性能：在Synapse数据集上取得82.64%的平均Dice相似系数（DSC）和12.67mm的平均豪斯多夫距离（HD）；在ACDC心脏数据集上DSC达91.01%；在ISIC2018皮肤影像数据集上获得0.841的平均交并比（mIoU）、0.958准确率、0.910精确率、0.934召回率及0.913 F1分数；在Kvasir-SEG数据集上实现0.9247平均Dice、0.8615 mIoU、0.9181精确率和0.9463召回率；在CVC-ClinicDB数据集上达到0.9441平均Dice、0.8922 mIoU、0.9437精确率和0.9458召回率。这些结果充分证明，相较于主流CNN分割网络及其他基于Transformer的结构，MixFormer具有更优异的分割性能。

INTRODUCTION

医学图像分割（SEG）是医学图像处理中不可或缺的关键环节[1][2]。该方法通过提取器官、病灶区域等目标组织的本质特征，为临床诊断和病理研究提供可靠依据。然而，特定器官和病灶区域的标注过程存在耗时费力、效率低下等问题，需要专业人员参与完成[3][4]。由于数据集稀缺、定位标注困难等突出问题[5]，医学图像分割任务变得尤为复杂。因此，该领域广泛探索如何运用计算机视觉技术构建精准且高鲁棒性的医学图像分割系统，以应对数据匮乏、标注精度等复杂挑战[6][7][8]。

凭借卓越的特征提取能力，卷积神经网络（CNN）近年来在医学图像分割应用中取得显著成就[9][10][11]。例如U-Net[12]、3D-UNet[10]、ResUNet[13]、UNet++[14]和DenseUNet[15]在精细医疗任务中的多器官分割方面表现优异。尽管基于CNN的网络具备出色的分割能力，但由于卷积操作感受野的固有局限，这些网络难以建立特征信息间的全局依赖关系，导致远程语义信息交互受阻，上下文特征提取不充分。研究者虽通过注意力机制[16]、金字塔模型[17]等技术试图扩大CNN的感受野以获取全局信息，但这些操作需要叠加多层卷积并持续下采样，随着网络深度增加可能引发梯度消失/爆炸问题，造成局部信息丢失，尤其在小数据集场景下带来训练挑战[18]。

为弥补卷积在长程依赖建模的不足，研究者将自然语言处理（NLP）领域的Transformer技术引入计算机视觉领域[19][20]。该技术通过独特的自注意力机制根据输入内容动态调整感受野[21][22]，在获取全局语义信息方面优于卷积操作。例如Dosovitskiy等[20]采用Transformer进行图像识别，效果可比肩当时最先进（SOTA）技术。为建立局部连接并解决视觉2元素尺度变化问题，Liu等[23]提出基于移位窗口多头自注意力（SWMSA）的分层Swin Transformer。然而，Transformer虽擅长捕捉全局语义依赖，却在封装细节特征和长序列计算效率方面存在局限。近期Mamba[24]及其变体[25][26]通过结合结构化状态空间模型（SSM）与Transformer的MLP机制，能沿序列维度选择性传递/遗忘信息，提升了长序列计算效率。但与Transformer显式注意力机制相比，此类方法的SSM机制处理长程依赖时缺乏直观性，在密集分割任务中性能受限。

最新研究尝试融合CNN与Transformer以发挥各自优势，从而有效缓解单一模块的局限性[2][27][28][29]。当前主流医学图像分割技术多采用U型编解码设计，虽取得显著成功，但分割性能仍有优化空间，主要因为编码与解码阶段间的语义鸿沟未得到全面解决[2][23][30]。存在语义鸿沟时，由于深层特征对目标识别与浅层特征对边缘分割的双重重要性，特征融合将面临挑战[31]。

综上所述，本研究提出名为MixFormer的新型CNN-Transformer混合主干网络用于医学图像分割。该框架不仅解决了上述挑战，更在多项评估指标上超越现有最优方法。本文的主要创新与贡献可归纳如下：

先进MixFormer架构：混合编码器网络在下采样过程的每个尺度上，创新性地融合了Transformer的全局上下文信息与CNN的局部细节特征，实现二者的协同增强。
多尺度空间感知融合（MSAF）模型：通过智能整合不同尺度共识区域的信息，确保粗粒度与细粒度特征表征间的语义一致性，有效捕捉跨尺度特征依赖关系。
混合多分支空洞注意力（MMDA）机制：在跳跃连接步骤中引入该机制，既能过滤冗余语义信息，又可强化关键语义特征，显著缩小编码器与解码器间的特征语义鸿沟。
实验验证：在五大主流医学图像分割数据集上的测试表明，MixFormer具有卓越的效能与泛化能力。实验结果清晰证明，该模型在分割性能上持续超越现有最先进模型。

本节综述了医学图像分割领域的相关研究进展，涵盖基于Transformer和CNN的两大类分割技术，并简要探讨了多尺度结构在医学图像分割中的作用。

A. CNN-Based Segmentation Networks

随着深度学习的演进，图像分割领域涌现出众多基于CNN的经典网络。全卷积网络（FCN）的出现显著加速了分割网络的发展进程[32]，但其分割结果往往较为粗糙。针对这一局限，Ronneberger等人[12]提出性能更优的U-Net网络，通过采用能捕获更丰富特征的U型编解码结构，显著提升了分割精度。此后，研究者们致力于改进U型编解码架构[图1(a)]以获得更精细的结果。例如Li等人[15]采用DenseNet模块构建U型结构网络，结合二维与三维切片信息生成更具鲁棒性的特征表征；UNet 3+[33]通过聚合多尺度特征来优化特征表达。尽管现有创新工作已部分解决了CNN的局限性，但上下文依赖关系的捕捉仍是挑战，卷积操作的固有缺陷可能导致医学图像的欠分割与过分割现象。

B. Transformer-Based Segmentation Networks

视觉Transformer（ViT）凭借其出色的长程依赖建模能力，在计算机视觉领域引发了巨大反响[20]。然而，为达到预期效果，Transformer需首先在海量数据上进行训练。Touvron等人[40]提出一种训练方法与知识蒸馏技术，使ViT即使在小数据集上也能高效运行，有效克服了这一局限。此外，为缓解ViT中多头自注意力机制（MSA）带来的计算负担，Liu等人[23]提出Swin Transformer。这种基于SW-MSA的分层ViT在局部窗口内执行自注意力运算，既解决了输入数据的大尺度变化问题，又显著提升了计算性能。

针对Transformer获取局部细节信息不足的缺陷，研究者提出了TransUNet[2]。该方法将Transformer与CNN相结合，通过U-Net结构同步获取全局语义与局部特征。其他先进的基于Transformer的分割网络还包括TransFuse[29]、MedT[41]、脑肿瘤分割专用Transformer（TransBTS）[42]以及UNEt Transformer（UNETR）[43]。

C. Multiscale Architectures for Medical Image Segmentation

多尺度语义信息在图像分割中是一项至关重要的技术[44]。以往的大多数研究都利用卷积神经网络（CNN）或Transformer进行多尺度特征提取。然而，这些方法固有的缺陷通常会导致特征映射效果不佳，缺乏显著信息。在基于CNN的图像分割方法中，金字塔场景解析网络（PSPNet）[16]通过引入金字塔池化模块（PPM）实现了多尺度特征提取，该模块使用不同大小的池化核对输入特征图进行分层池化，以从不同子区域提取特征。UNet++[14]和UNet 3+[33]则通过简单的跳跃连接充分利用了多尺度信息。在基于Transformer的图像分割方法中，MedT[41]通过两个分支结合长距离依赖和局部依赖来提取多尺度特征，而SwinPA-Net[45]则通过密集乘法特征融合级联多尺度语义特征信息，以减少浅层背景噪声的干扰。具体而言，这些方法的缺陷可归因于两个关键障碍：1）它们无法在保持特征一致性的同时无缝集成低级和高级语义特征；2）它们提取分层编码器生成的多尺度信息的能力不足。受多尺度特征表示的启发，我们提出了MixFormer，这是一种基于CNN-Transformer的混合架构网络，能够保持多尺度特征的多样性和一致性。

III. METHOD

图1。（a）典型医学图像分割网络的结构。（b）所提出的MixFormer网络示意图。此外，Trans代表基于Transformer的架构。MSAF、Res-Conv和MMDA模型是我们所提方法中使用的模块。

图2. 所提出的MixFormer概述。在解码器的跳跃连接部分，MMDA模块被用于抑制冗余的语义信息，同时增强有价值的语义特征，并缓解采样过程造成的信息损失。此外，MSAF模块被用于充分提取由分层编码器生成的多尺度信息。

A. Network Structure

所提出的MixFormer采用了典型的U形架构，该架构主要由编码器、解码器和跳跃连接组成[如图1(b)所示]。该方法的全局框架如图2所示。编码器包含两部分：基于CNN-Transformer的混合特征提取主干网络和一个多尺度注意力融合（MSAF）模型。解码器则由基本的卷积神经网络（CNN）单元构成。此外，在跳跃连接部分引入了一个混合多分支空洞注意力（MMDA）模块。在该方法中，混合特征提取器用于从Transformer和CNN中分别获取包含全局和局部线索的多层视觉特征。MSAF机制进一步与多尺度语义信息进行交互，以获得增强的特征表示。为了实现更优的上采样性能，我们在编码器的最深层实施了残差卷积（Res-Conv）块，以进一步加强全局特征表示。最后，我们将MMDA机制集成到跳跃连接中，有效地将融合后的语义特征传输到解码器，以进行最终的分割预测。

B. Mixed Feature Extraction Backbone

在所提出的MixFormer中，我们采用了一种混合编码器框架，该框架由Swin Transformer和Res2Net50[46]组成，用于在编码阶段提取特征。这种设计使得编码器能够在每个尺度上有效地捕捉局部细节和全局上下文信息。与传统的卷积神经网络（CNN）相比，Res2Net50在提取多尺度特征方面表现更优。此外，Swin Transformer在定义好的窗口内对图像块执行自注意力计算，其计算开销随图像大小呈线性增长，这与视觉Transformer（ViT）在整个图像块集合上进行自注意力计算的方式形成了鲜明对比。

Res2Net50 Model:

标准卷积核只能从给定图像中提取相同尺度的特征，因此需要构建不同大小的卷积核以获取多尺度特征。Gao等人[46]提出了Res2Net，该模型专门设计用于获取多尺度特征图。对于包括ResNet和ResNeXt[47]在内的许多卷积神经网络(CNN)架构而言，瓶颈块(bottleneck block)是基本组件。Res2Net寻求一种替代设计，在保留与瓶颈块相当的计算负担的同时，具备更强大的多尺度特征提取能力。Res2Net块与瓶颈块之间的差异如图3所示。

具体而言，在经过1×11\times11×1卷积之后，输入特征图被均匀地分割成SSS个子集，用xix_ixi表示，其中i∈{1,2,...,S}i\in\{1,2,\ldots,S\}i∈{1,2,...,S}。与输入特征图不同的是，每个子集xix_ixi具有相同的空间大小，但通道数仅为原来的1/S (除了x1x_{1}x1)。对于每个xix_ixi (i≠1i\neq1i=1 ),都对应一个由 Ki(⋅)K_i(\cdot)Ki(⋅)表示的3×33\times33×3卷积操作。Ki(⋅)K_i(\cdot)Ki(⋅)的结果用符号yiy_iyi表示。然后，将yi−1y_i-1yi−1(此处原文yi−1(⋅)y_i-1(\cdot)yi−1(⋅)应理解为yi−1y{i-1}yi−1,因为yi−1y_{i-1}yi−1 是前一个卷积操作的结果，而非函数)与子集 xix_ixi 相结合，再输入到Ki(⋅)K_i(\cdot)Ki(⋅)中。因此，yiy_iyi可以表示为以下形式：
yi={xi,i=1Ki(xi),i=2Ki(xi+yi−1),2<i≤S. y_i = \begin{cases} x_i, & i = 1 \\ K_i(x_i), & i = 2 \\ K_i(x_i + y_{i-1}), & 2 < i \leq S. \end{cases} yi=⎩ ⎨ ⎧xi,Ki(xi),Ki(xi+yi−1),i=1i=22<i≤S.

在本研究中，我们利用Res2Net50网络作为局部细节提取器，对原始图像(尺寸为H×WH\times WH×W)进行有效分割，以获得不同分辨率下的特征金字塔输出F1F_1F1-F4F_4F4。随后，通过1×11\times11×1卷积操作，将这些输出的通道维度映射到与相应Swin Transformer块相同的嵌入维度。接下来，将它们输入到Swin Transformer模块中，以此作为对Res2Net 模型的补充，因为Res2Net模型在不同阶段会遗漏长距离依赖关系。在我们的方法中，共有四个下采样阶段用于获取局部语义信息。每个阶段输出的特征图尺寸分别为H/4×W/4H/4\times W/4H/4×W/4、H/8×W/8H/8\times W/8H/8×W/8、H/16×W/16H/16\times W/16H/16×W/16和H/32×W/32H/32\times W/32H/32×W/32,对应的通道数分别为DDD、2DDD、4DDD和8DDD。

Swin Transformer Model:

如图4所示，视觉Transformer（ViT）对整体嵌入的图像块执行自注意力计算。在典型的多头自注意力（MSA）模块中，一个主要问题是其计算复杂度是图像空间维度的二次函数。为了缓解这一限制，Swin Transformer[23]引入了窗口多头自注意力（W-MSA）和移位窗口多头自注意力（SW-MSA）技术。图5(b)展示了两个连续的Swin Transformer块，每个块都包含层归一化（LayerNorm，LN）层、MSA模块、多层感知机（MLP）层和残差连接。此外，两个相邻的MSA块被替换为W-MSA块和SW-MSA块。W-MSA的计算开销与图像大小呈线性相关，因为它在定义好的窗口内执行自注意力计算。然而，由于这些窗口之间缺乏信息交换，其建模长距离依赖关系的能力受到限制。相比之下，SW-MSA引入了一种循环移位操作，将每个窗口向左上方向移动。这一策略性步骤使得各种不相邻的子窗口能够高效地相互交互。因此，Swin Transformer能够有效地建模上下文依赖关系，并获取高效的层次化特征表示。

在Swin Transformer中，输入特征图被划分为不重叠的窗口，每个窗口包含M×MM\times MM×M(本文中设置为7)个图像块。作为 (移位)窗口多头自注意力 ((S)W-MSA)的输入，Zl−1∈RL×D\mathbf{Z}^{l-1}\in\mathbb{R}^{L\times D}Zl−1∈RL×D 是一个长度为LLL、维度为DDD的图像块序列。基于这种窗口划分策略，Swin Transformer块的输入和输出可以表示为：
Z^l=W-MSA(LN(Zl−1))+Zl−1 \hat{\mathbf{Z}}^l=\text{W-MSA}\left(\mathrm{LN}(\mathbf{Z}^{l-1})\right)+\mathbf{Z}^{l-1} Z^l=W-MSA(LN(Zl−1))+Zl−1

Zl=MLP(LN(Z^l))+Z^l \mathbf{Z}^{l} = \text{MLP}(\text{LN}(\hat{\mathbf{Z}}^{l})) + \hat{\mathbf{Z}}^{l} Zl=MLP(LN(Z^l))+Z^l

Z^l+1=SW-MSA(LN(Zl))+Zl \hat{\mathbf{Z}}^{l+1}=\text{SW-MSA}\left(\mathrm{LN}(\mathbf{Z}^l)\right)+\mathbf{Z}^l Z^l+1=SW-MSA(LN(Zl))+Zl

Zl+1=MLP(LN(Z^l+1))+Z^l+1 \mathbf{Z}^{l+1}=\mathrm{MLP}\big(\mathrm{LN}(\hat{\mathbf{Z}}^{l+1})\big)+\hat{\mathbf{Z}}^{l+1} Zl+1=MLP(LN(Z^l+1))+Z^l+1

其中，Z^l\hat{Z}^lZ^l和ZlZ^lZl分别表示第ι\iotaι个块的窗口多头自注意力 (W-MSA) 和多层感知机 (MLP) 的输出。类似地Z^l+1\hat{\mathbf{Z}}^{l+1}Z^l+1和Zl+1\mathbf{Z}^{l+1}Zl+1分别表示第(l+1)(l+1)(l+1)个块的移位窗口多头自注意力 (SW-MSA) 和多层感知机 (MLP)的结果。LN(-) 表示层归一化操作符。根据之前的研究工作[20],[23],自注意力计算方式如下：
Q=zlWQ,K=zlWK,V=zlWV Q = z^l \mathbf{W}_Q, \quad K = z^l \mathbf{W}_K, \quad V = z^l \mathbf{W}_V Q=zlWQ,K=zlWK,V=zlWV

Attention(Q,K,V)=SoftMax(QKTd+B)V \text{Attention}(Q,K,V)=\text{SoftMax}{\left(\frac{QK^T}{\sqrt{d}}+B\right)}V Attention(Q,K,V)=SoftMax(d QKT+B)V

其中，QQQ、KKK和V∈RL×dV\in\mathbb{R}^{L\times d}V∈RL×d分别代表查询 (query)、键 (key)和值 (value)矩阵；ddd表示查询或键的维度。WQ、WK\mathbf{W}_Q、\mathbf{W}_KWQ、WK和WV∈RD×d\mathbf{W}_V\in\mathbb{R}^{D\times d}WV∈RD×d代表三个投影矩阵的可学习参数。此外，B∈RL×LB\in\mathbb{R}^L\times LB∈RL×L表示偏置矩阵。

为了弥补Res2Net模型中缺失的全局上下文信息，我们将局部细节特征图Fi(i=1,2,3,4)F_i(i=1,2,3,4)Fi(i=1,2,3,4)划分为图像块，并将其输入到Swin Transformer中。Swin Transformer包含四个阶段，每个阶段都有特定数量的块，这使得模型能够建模长距离依赖关系。通过这种方式，我们能够推导出四个阶段的特征表示S1−S4S_1-S_4S1−S4 ,这些表示包含了全局上下文信息。此外，我们在每个阶段采用了块合并(patch merging)方法，将特征图Sj(j=1,2,3)S_j(j=1,2,3)Sj(j=1,2,3)的通道维度加倍，同时降低分辨率，然后将处理后的特征图输入到下一阶段的Swin Transformer块中。Swin Transformer中四个阶段的特征图分辨率分别为H/4×W/4H/4\times W/4H/4×W/4、H/8×W/8H/8\times W/8H/8×W/8、H/16×W/16H/16\times W/16H/16×W/16和H/32×W/32H/32\times W/32H/32×W/32,对应的通道数分别为D′D^{\prime}D′、2D′D^{\prime}D′、4D′D^{\prime}D′和 8D′D^{\prime}D′。

最后，我们将局部空间信息FiF_iFi (i=1,2,3,4)i=1,2,3,4)i=1,2,3,4)和全局语义信息SjS_jSj (j=1,2,3,4)j=1,2,3,4)j=1,2,3,4)在相应层级进行连接，以获取四个尺度上的增强特征表示L1−L4L_1-L_4L1−L4。然后，将这些特征表示输入到多尺度注意力融合(MSAF)模型中，以实现不同尺度之间的信息通信。

C. MSAF Model

已有研究表明，多尺度信号在分割位置复杂且大小各异的器官时极具价值。为了应对多尺度特征间语义信息交互的挑战，我们利用了多尺度注意力融合 (MSAF) 模块的功能。该模块针对编码后的特征包含四个步骤：块匹配(patch matching)、尺度融合 (scale fusing)、尺度分离 (scale splitting) 和块逆变换 (patch inversing),这些步骤共同实现了跨尺度依赖关系的建立。该MSAF模块的网络结构如图6所示。

具体而言，我们首先通过下采样操作，将所有特征图规范化为相同的通道维度D′D^{\prime}D′ [图6(a)],并将它们分配到具有相同颜色(即红色)的对应边界框中。具体来说，我们首先将所有特征图规范化为相同的通道维度D′D^{\prime}D′[图6(a)], 然后通过下采样操作将它们分配到对应颜色(如红色)的边界框中。若将pjip_j^ipji视为第iii个尺度上的第jjj个块，则pji+1p_j^{i+1}pji+1 、pji+2p_j^{i+2}pji+2 和pji+3p_j^{i+3}pji+3 即为与之匹配的下采样块。通过这一步骤，我们能够从第 iii个尺度到第(i+3)\left(i+3\right)(i+3) 个尺度的四个连续特征映射中定位到相关的空间感知块，同时保留最相关块之间的空间对应关系。

然后，我们通过尺度融合（scale fusing）的方法，将不同尺度上空间相关的块进行聚合，以生成一系列的标记（tokens）。这一过程可以描述如下：

MixFormer: A Mixed CNN–Transformer Backbone