【MIA2026】用“混合专家”重构 Mamba!Switch-UMamba如何破局2D 图像动态扫描

【MIA2026】用"混合专家"重构 Mamba!Switch-UMamba如何破局2D 图像动态扫描

本文解读一篇由中科院深圳先进院、北大、鹏城实验室等机构联手打造的 Switch-UMamba,发表在医学人工智能顶刊Medical Image Analysis。这篇论文直接从大语言模型(LLM)的爆款技术"混合专家(MoE, Mixture-of-Experts)"中汲取灵感,从机制底层重构了 Mamba 的扫描逻辑

1.研究背景:Mamba 的"一维直线思维"与 2D 图像的冲突

自从 Vision Mamba 爆火后,大家发现它有一个难以克服的基因缺陷:"方向敏感性问题(Directional sensitivity problem)"

静态扫描的死板:Mamba 本质上是处理 1D 序列的。为了处理 2D 图片,现有模型(如 VMamba、Mamba-UNet)只能用预先设定好的、死板的路线(比如从左到右、或者固定 4 个方向交叉扫描)把图片拉平。

计算灾难:复杂的医学解剖结构千变万化,单一的扫描路线肯定会漏掉空间特征。但如果把所有可能的方向(比如 16 个方向)都扫一遍,计算量就会爆炸,彻底失去 Mamba "线性复杂度"的优势。

图1直观对比了传统Mamba固定的交叉扫描方式(Cross-Scan VSS)与本文提出的动态混合扫描机制(Switch VSS),展示了模型如何通过"路由器(Router)"为每张输入图像自适应挑选最合适的扫描轨迹并进行加权融合。

2.核心创新:借用大模型 MoE 魔法的 Switch-UMamba

为了打破这个僵局,作者提出了极具想象力的解法:混合扫描机制(MoS, Mixture-of-Scans)。整个网络架构可以拆解为两大绝招:

创新1:Switch VSS Block 动态路由扫描(全篇灵魂)

这是这篇论文最重要的底层魔改,复刻了 LLM 中 Mixtral 的稀疏激活(Sparse Activation)逻辑:

第一步:注册"专家池" :模块内部并行放置了 NNN 个(默认 16 个)不同的扫描头(Scan heads),每个头对应一种极其独特的扫描轨迹(水平、垂直、各种角度的对角线折返等)以及专属的 SS2D 算子。

第二步动态路由器(Router):当输入一张特征图时,网络首先经过一个轻量级的 Router 算出一个概率分布(Logits)。

这步在论文中是公式(10):hl(x)=(x⋅Wr)l+StandardNormal()⋅Softplus((x⋅Wn)l)h_l(x) = (x \cdot W_r)_l + \text{StandardNormal}() \cdot \text{Softplus}((x \cdot W_n)_l)hl(x)=(x⋅Wr)l+StandardNormal()⋅Softplus((x⋅Wn)l)。当一个特征 xxx 进入路由器(Router)时,这个公式负责计算第 lll 个扫描头(专家)的原始匹配得分 hl(x)h_l(x)hl(x)​。

(x⋅Wr)l(x \cdot W_r)_l(x⋅Wr)l是真实的"实力得分",由路由器权重 WrW_rWr 经过线性变换计算得出,代表该扫描头有多适合处理当前特征。StandardNormal()⋅Softplus((x⋅Wn)l)\text{StandardNormal}() \cdot \text{Softplus}((x \cdot W_n)_l)StandardNormal()⋅Softplus((x⋅Wn)l)是"动态噪声项"。网络通过另一个可学习的权重 WnW_nWn 结合 Softplus 激活函数,生成一个动态方差,再乘以标准正态分布采样的随机数。加入这部分噪声的核心目的是为了促进负载均衡(Load balancing),给那些平时得分不高(冷门)的扫描头一个被选中的机会,防止少数扫描头"赢家通吃"。

第三步:Top-K 稀疏激活 :极其巧妙的一步!网络并不会运行所有的 16 个扫描头,而是加上噪声后,只激活概率最高的前 KKK 个(默认 K=4K=4K=4)最适合当前图像结构的扫描头

这步在论文中是公式(11):KeepTopK(v,K)={viif vi is in the top K elements of v−∞otherwise\text{KeepTopK}(v, K) = \begin{cases} v_i & \text{if } v_i \text{ is in the top K elements of } v \\ -\infty & \text{otherwise} \end{cases}KeepTopK(v,K)={vi−∞if vi is in the top K elements of votherwise

系统会将上一步算出的所有 NNN 个扫描头的带噪得分(记为向量 vvv)进行排名。只保留排名前 KKK 的得分,而将其余未入选的 (N−K)(N-K)(N−K) 个扫描头的得分直接粗暴地设为负无穷大 (−∞-\infty−∞) 。这确保了后续只有 KKK 个扫描头会被真正激活计算,从而极大地节省了算力。

第四步:加权融合:最后,把这 4 个"被选中"的专家输出的结果,按照 Router 给出的权重相加。既实现了多方向的特征捕捉,又把计算量死死控制在了很低的水平!

这步在论文中先由公式(9):p(x)=Softmax(KeepTopK(h(x),K))p(x) = \text{Softmax}(\text{KeepTopK}(h(x), K))p(x)=Softmax(KeepTopK(h(x),K))对经过 KeepTopK 过滤后的得分向量进行 Softmax 归一化操作。数学上有一个极其巧妙的特性:由于落选专家的得分被设为了 −∞-\infty−∞,而 e−∞=0e^{-\infty} = 0e−∞=0,因此所有未被选中的扫描头分配到的权重 pi(x)p_i(x)pi(x) 精确为 0 。被选中的 KKK 个扫描头则瓜分了 100% 的权重。

然后由公式(8)y=∑i=1Npi(x)SS2Di(x)y = \sum_{i=1}^{N} p_i(x) SS2D_i(x)y=∑i=1Npi(x)SS2Di(x)得到最终的加权输出。

图4通过柱状图展示了单个 Switch VSSBlock 内 16 个扫描头的任务分配(负载)分布情况,直观证明了混合扫描机制(MoS)在根据不同样本特征差异化选择扫描轨迹的同时,成功实现了整体的负载均衡,避免了部分扫描头被"饿死"的现象 。

核心创新2:CNN + Mamba 的混血 U-Net 架构

除了底层的 MoS 机制,在宏观架构上,作者抛弃了"纯 Mamba"的执念:

浅层网络使用 CNN(深度可分离卷积) 来提取极其细微的底层纹理(防止把原始图像切成 Patch 时丢失细节)。深层网络则交给刚刚提到的 Switch VSS Block,利用其强大的多方向全局建模能力提取高层语义。

Table 5 是这篇论文中关于 "网络组件搭配(Model Components)" 的核心消融实验。作者试图回答一个极其关键的架构问题:既然框架采用了 CNN + Mamba 的混合架构,那么 CNN 模块和 Mamba 模块到底按什么比例分配,才能达到性能和算力的完美平衡?可以看到:

纯 Mamba (C=0,M=4C=0, M=4C=0,M=4)属于算力灾难,且并非最优。背后原因在于如果浅层特征也让 Mamba 来提取,面对未降采样的高分辨率图像,Mamba 的序列长度会极其庞大,产生巨大的计算开销。此外,Mamba 擅长全局长程依赖建模,但在抓取极细微的底层纹理、器官边缘时,反而不如传统卷积(CNN)高效。

纯 CNN (C=4,M=0C=4, M=0C=4,M=0)倒是极度轻量,但精度垫底。缺乏 Mamba 的全局建模能力,CNN 的感受野受限。面对形态各异的解剖结构,纯 CNN 无法理解复杂的器官全局空间位置关系,导致分割精度上限被锁死。

黄金比例:"五五开"的 C=2,M=2C=2, M=2C=2,M=2(模型最终方案)

3.实验结果

作者在腹部 MRI(器官)、内窥镜(医疗器械)、显微镜(细胞)三大跨度极大的数据集上进行了测试,不仅碾压了老牌的 nnU-Net,更是把最近大火的 Mamba-UNet、Swin-UMamba 和 U-Mamba 全面挑落马下。

最可怕的是它的参数量。U-Mamba_Enc 有 92M 参数,Swin-UMamba 有 60M,而 Switch-UMamba 仅仅只有 25M 参数!:Swin-UMamba 极度依赖 ImageNet 的预训练权重,而 Switch-UMamba 是完全从零开始训练(Train from scratch)就拿到了 SOTA。

4.批判性分析

这篇论文把大语言模型领域最成熟的 MoE 机制平移到视觉 Mamba 的扫描序列上,是一个极其 Smart 且 Make sense 的做法。**用"选考"代替"必考",完美化解了精度与算力的矛盾。**但如果仔细推敲,存在如下一些局限性,下面是一些不成熟的思考:

现在的 Switch-UMamba,虽然路由器(Router)是动态的,但底层的 16 种扫描轨迹(专家)依然是人类预先手工设计、写死在代码里的(Rule-based scanning policies) ! 对于极其不规则的医学病灶,这种横平竖直、对角线的扫描依然存在信息冗余。能不能彻底废弃手工设计的扫描线?结合强化学习(RL)或者可变形卷积(Deformable Convolution)的思想,设计一个 "Deformable-Scan Mamba" ,让网络根据当前病灶的形状,自适应地、像贪吃蛇一样自动生成最贴合病灶边缘的扫描轨迹

相关推荐
da_vinci_x1 天前
告别“纸片树冠”:SpeedTree 10的次世代 Nanite 植被透射与程序化季相重构工作流
游戏·3d·重构·aigc·材质·技术美术·游戏策划
无代码专家1 天前
轻流用 AI 无代码重构制造企业产品全生命周期管理
人工智能·重构·制造
热点速递1 天前
AI招聘重构人才入口:用友大易以大模型驱动全流程智能升级!
大数据·人工智能·重构·业界资讯
2601_950965371 天前
破局“数字围城”:在返利浪潮中重构就业主动权
重构·求职·互联网求职·蜂媒返利人才网
福客AI智能客服2 天前
电商店铺效率升级:智能客服系统如何重构服务与转化逻辑
大数据·重构
zach01272 天前
GEO优化的算力贫困悖论:基于数字地缘政治的量子搜索语义重构
人工智能·python·重构
飞Link2 天前
别再被异常数据骗了:深度解析 TSTD 异常检测中的重构模型(AutoEncoder 实战)
人工智能·算法·重构·回归
小猿君2 天前
AGI理想褪色:OpenAI战略转向背后,AI编程范式的重构与博弈
重构·ai编程·agi
呆码科技2 天前
从仓储到配送:商贸物流软件如何重构供应链效率
重构