【MIA2026】用“混合专家”重构 Mamba！Switch-UMamba如何破局2D 图像动态扫描

【MIA2026】用"混合专家"重构 Mamba！Switch-UMamba如何破局2D 图像动态扫描

本文解读一篇由中科院深圳先进院、北大、鹏城实验室等机构联手打造的 Switch-UMamba，发表在医学人工智能顶刊Medical Image Analysis。这篇论文直接从大语言模型（LLM）的爆款技术"混合专家（MoE, Mixture-of-Experts）"中汲取灵感，从机制底层重构了 Mamba 的扫描逻辑！

1.研究背景：Mamba 的"一维直线思维"与 2D 图像的冲突

自从 Vision Mamba 爆火后，大家发现它有一个难以克服的基因缺陷："方向敏感性问题（Directional sensitivity problem）"。

静态扫描的死板：Mamba 本质上是处理 1D 序列的。为了处理 2D 图片，现有模型（如 VMamba、Mamba-UNet）只能用预先设定好的、死板的路线（比如从左到右、或者固定 4 个方向交叉扫描）把图片拉平。

计算灾难：复杂的医学解剖结构千变万化，单一的扫描路线肯定会漏掉空间特征。但如果把所有可能的方向（比如 16 个方向）都扫一遍，计算量就会爆炸，彻底失去 Mamba "线性复杂度"的优势。

图1直观对比了传统Mamba固定的交叉扫描方式（Cross-Scan VSS）与本文提出的动态混合扫描机制（Switch VSS），展示了模型如何通过"路由器（Router）"为每张输入图像自适应挑选最合适的扫描轨迹并进行加权融合。

2.核心创新：借用大模型 MoE 魔法的 Switch-UMamba

为了打破这个僵局，作者提出了极具想象力的解法：混合扫描机制（MoS, Mixture-of-Scans）。整个网络架构可以拆解为两大绝招：

创新1：Switch VSS Block 动态路由扫描（全篇灵魂）

这是这篇论文最重要的底层魔改，复刻了 LLM 中 Mixtral 的稀疏激活（Sparse Activation）逻辑：

第一步：注册"专家池" ：模块内部并行放置了 NNN 个（默认 16 个）不同的扫描头（Scan heads），每个头对应一种极其独特的扫描轨迹（水平、垂直、各种角度的对角线折返等）以及专属的 SS2D 算子。

第二步 ：动态路由器（Router）：当输入一张特征图时，网络首先经过一个轻量级的 Router 算出一个概率分布（Logits）。

这步在论文中是公式（10）：hl(x)=(x⋅Wr)l+StandardNormal()⋅Softplus((x⋅Wn)l)h_l(x) = (x \cdot W_r)_l + \text{StandardNormal}() \cdot \text{Softplus}((x \cdot W_n)_l)hl(x)=(x⋅Wr)l+StandardNormal()⋅Softplus((x⋅Wn)l)。当一个特征 xxx 进入路由器（Router）时，这个公式负责计算第 lll 个扫描头（专家）的原始匹配得分 hl(x)h_l(x)hl(x)。

(x⋅Wr)l(x \cdot W_r)_l(x⋅Wr)l是真实的"实力得分"，由路由器权重 WrW_rWr 经过线性变换计算得出，代表该扫描头有多适合处理当前特征。StandardNormal()⋅Softplus((x⋅Wn)l)\text{StandardNormal}() \cdot \text{Softplus}((x \cdot W_n)_l)StandardNormal()⋅Softplus((x⋅Wn)l)是"动态噪声项"。网络通过另一个可学习的权重 WnW_nWn 结合 Softplus 激活函数，生成一个动态方差，再乘以标准正态分布采样的随机数。加入这部分噪声的核心目的是为了促进负载均衡（Load balancing），给那些平时得分不高（冷门）的扫描头一个被选中的机会，防止少数扫描头"赢家通吃"。

第三步:Top-K 稀疏激活 ：极其巧妙的一步！网络并不会运行所有的 16 个扫描头，而是加上噪声后，只激活概率最高的前 KKK 个（默认 K=4K=4K=4）最适合当前图像结构的扫描头。

这步在论文中是公式（11）：KeepTopK(v,K)={viif vi is in the top K elements of v−∞otherwise\text{KeepTopK}(v, K) = \begin{cases} v_i & \text{if } v_i \text{ is in the top K elements of } v \\ -\infty & \text{otherwise} \end{cases}KeepTopK(v,K)={vi−∞if vi is in the top K elements of votherwise

系统会将上一步算出的所有 NNN 个扫描头的带噪得分（记为向量 vvv）进行排名。只保留排名前 KKK 的得分，而将其余未入选的 (N−K)(N-K)(N−K) 个扫描头的得分直接粗暴地设为负无穷大 (−∞-\infty−∞) 。这确保了后续只有 KKK 个扫描头会被真正激活计算，从而极大地节省了算力。

第四步：加权融合：最后，把这 4 个"被选中"的专家输出的结果，按照 Router 给出的权重相加。既实现了多方向的特征捕捉，又把计算量死死控制在了很低的水平！

这步在论文中先由公式(9)：p(x)=Softmax(KeepTopK(h(x),K))p(x) = \text{Softmax}(\text{KeepTopK}(h(x), K))p(x)=Softmax(KeepTopK(h(x),K))对经过 KeepTopK 过滤后的得分向量进行 Softmax 归一化操作。数学上有一个极其巧妙的特性：由于落选专家的得分被设为了 −∞-\infty−∞，而 e−∞=0e^{-\infty} = 0e−∞=0，因此所有未被选中的扫描头分配到的权重 pi(x)p_i(x)pi(x) 精确为 0 。被选中的 KKK 个扫描头则瓜分了 100% 的权重。

然后由公式（8）y=∑i=1Npi(x)SS2Di(x)y = \sum_{i=1}^{N} p_i(x) SS2D_i(x)y=∑i=1Npi(x)SS2Di(x)得到最终的加权输出。

图4通过柱状图展示了单个 Switch VSSBlock 内 16 个扫描头的任务分配（负载）分布情况，直观证明了混合扫描机制（MoS）在根据不同样本特征差异化选择扫描轨迹的同时，成功实现了整体的负载均衡，避免了部分扫描头被"饿死"的现象。

核心创新2：CNN + Mamba 的混血 U-Net 架构

除了底层的 MoS 机制，在宏观架构上，作者抛弃了"纯 Mamba"的执念：

浅层网络使用 CNN（深度可分离卷积）来提取极其细微的底层纹理（防止把原始图像切成 Patch 时丢失细节）。深层网络则交给刚刚提到的 Switch VSS Block，利用其强大的多方向全局建模能力提取高层语义。

Table 5 是这篇论文中关于 "网络组件搭配（Model Components）" 的核心消融实验。作者试图回答一个极其关键的架构问题：既然框架采用了 CNN + Mamba 的混合架构，那么 CNN 模块和 Mamba 模块到底按什么比例分配，才能达到性能和算力的完美平衡？可以看到：

纯 Mamba (C=0,M=4C=0, M=4C=0,M=4)属于算力灾难，且并非最优。背后原因在于如果浅层特征也让 Mamba 来提取，面对未降采样的高分辨率图像，Mamba 的序列长度会极其庞大，产生巨大的计算开销。此外，Mamba 擅长全局长程依赖建模，但在抓取极细微的底层纹理、器官边缘时，反而不如传统卷积（CNN）高效。

纯 CNN (C=4,M=0C=4, M=0C=4,M=0)倒是极度轻量，但精度垫底。缺乏 Mamba 的全局建模能力，CNN 的感受野受限。面对形态各异的解剖结构，纯 CNN 无法理解复杂的器官全局空间位置关系，导致分割精度上限被锁死。

黄金比例："五五开"的 C=2,M=2C=2, M=2C=2,M=2（模型最终方案）

3.实验结果

作者在腹部 MRI（器官）、内窥镜（医疗器械）、显微镜（细胞）三大跨度极大的数据集上进行了测试，不仅碾压了老牌的 nnU-Net，更是把最近大火的 Mamba-UNet、Swin-UMamba 和 U-Mamba 全面挑落马下。

最可怕的是它的参数量。U-Mamba_Enc 有 92M 参数，Swin-UMamba 有 60M，而 Switch-UMamba 仅仅只有 25M 参数！：Swin-UMamba 极度依赖 ImageNet 的预训练权重，而 Switch-UMamba 是完全从零开始训练（Train from scratch）就拿到了 SOTA。

4.批判性分析

这篇论文把大语言模型领域最成熟的 MoE 机制平移到视觉 Mamba 的扫描序列上，是一个极其 Smart 且 Make sense 的做法。**用"选考"代替"必考"，完美化解了精度与算力的矛盾。**但如果仔细推敲，存在如下一些局限性，下面是一些不成熟的思考：

现在的 Switch-UMamba，虽然路由器（Router）是动态的，但底层的 16 种扫描轨迹（专家）依然是人类预先手工设计、写死在代码里的（Rule-based scanning policies） ！对于极其不规则的医学病灶，这种横平竖直、对角线的扫描依然存在信息冗余。能不能彻底废弃手工设计的扫描线？结合强化学习（RL）或者可变形卷积（Deformable Convolution）的思想，设计一个 "Deformable-Scan Mamba" ，让网络根据当前病灶的形状，自适应地、像贪吃蛇一样自动生成最贴合病灶边缘的扫描轨迹？