Mamba与UNet融合的创新架构方向

大象耶2025-10-24 11:59

多域变换Mamba编码器

基于最新的MTMU架构，我们探索了在编码器阶段引入多域特征提取机制，涵盖频域、小波域与空间域，每个域由专用Mamba模块处理，并通过跨域融合机制实现信息整合。该方法在医学图像分割任务中取得约8%的性能提升，其关键在于设计有效的跨域交互机制，避免各分支孤立运行，确保多域特征的协同增强。

KAN增强的线性注意力Mamba

受VMKLA-UNet启发，我们将KOL（Kolmogorov--Arnold Network）中的可学习激活函数引入Mamba的线性注意力机制，替代传统固定激活函数，使模型能自适应不同类型医学图像的特征分布。该改进在皮肤病变、脑肿瘤等边界不规则病灶的分割任务中表现优异，在比传统Transformer-UNet降低60%计算量的同时，分割精度获得进一步提升。

图神经网络增强的Mamba-UNet（GM-UNet）

为克服Mamba在复杂拓扑结构建模中的局限性，我们在UNet瓶颈层引入图卷积模块，将像素关系建模为图结构，并采用图Mamba处理全局依赖。该架构在血管分割、神经纤维追踪等需理解复杂连接关系的任务中表现突出，在保持Mamba高效性的基础上，显著提升了对结构关系的建模能力。

高阶视觉Mamba架构（H-vmunet）

现有Mamba多停留于一阶建模，我们进一步提出递归高阶Mamba模块，使当前状态不仅依赖前一时刻，还融合前多个时刻的组合信息。该设计在参数仅增加30%的情况下，分割性能提升约15%，特别适用于需要复杂时空关系建模的3D医学图像分割任务。