【感知·算法】一文综述医学图像分割：从经典 U-Net 到 Mamba 的范式跃迁

标签：最新感知算法 / 经典感知算法 / 计算机视觉 / 深度学习
首发：探物 AI

医学图像分割（Medical Image Segmentation）是连接底层像素与高层语义的桥梁，也是智能辅助诊断（CAD）、手术导航及预后分析的基石。与自然图像相比，医学影像存在高噪声、低对比度、器官形态拓扑多变、以及 3D 空间依赖强等极端挑战。

近年来，随着感知算法的狂飙突进，医学分割领域经历了从 CNN 到 Transformer，再到如今 State Space Models (SSM) 的范式跃迁。本文将从架构演进、核心难点到前沿范式，为你呈上一份全景式的硬核综述。

01 基石与霸主：全卷积神经网络（CNNs）

自 2015 年起，U 型结构几乎统治了医学分割的半壁江山。其核心思想是通过编码器提取高维语义，解码器恢复空间分辨率，并通过跳跃连接（Skip Connection）融合浅层细节与深层语义。

1. 结构演化：深挖局部归纳偏置

V-Net / 3D U-Net：将 2D 卷积升维至 3D，直接处理体素（Voxel）数据，解决了切片间连续性丢失的问题。
Attention U-Net：引入软注意力门控（Attention Gate），通过深层特征计算注意力系数，自动抑制背景噪声，这在胰腺等边界模糊的小器官分割中表现卓越。
nnU-Net（经验主义的巅峰）：内行人都知道，打败新模型的往往是 nnU-Net。它并非在网络拓扑上做文章，而是提出了一个自适应的框架。它能根据数据集的指纹自动配置预处理、网络超参数和后处理。至今，它仍是各项医学挑战赛的绝对 Baseline。

02 全局建模的觉醒：Transformer 与混合架构

CNN 的致命弱点在于感受野受限（受限于卷积核大小），难以建立长距离的解剖学依赖关系。Vision Transformer (ViT) 的引入打破了这一僵局。

1. 混合架构（CNN-Transformer Hybrid）

为了平衡局部特征提取与全局上下文，混合架构成为主流。

TransUNet：在 CNN 提取的特征图后接入 Transformer 编码器，兼顾了高分辨率的空间细节与全局语义。
UNETR：专为 3D 医学图像设计，直接将 3D 补丁序列化输入 Transformer，然后通过多尺度跳跃连接与 CNN 解码器结合。

2. 纯注意力架构与计算瓶颈

自注意力机制的计算复杂度是序列长度的二次方 O(N2)O(N^2)O(N2)。在 3D 医学高分辨率体素面前，显存消耗呈指数级爆炸。尽管引入了局部窗口计算以降低复杂度，但信息交互的感受野依然受到窗口大小的限制。

03 破局者：Mamba-SSM 架构的降维打击

2024 年，状态空间模型（State Space Models, SSMs）尤其是 Mamba 的崛起，为医学图像分割带来了真正的"降维打击"。它实现了 线性计算复杂度 O(N)O(N)O(N) 与全局感受野的完美统一。

对于医学图像中极其重要的 3D 上下文建模，Mamba-SSM 展现出了无可比拟的优势：

U-Mamba：首次将 Mamba 模块融入 U 型网络。CNN 提取局部空间特征，而 SSM 负责在平展的 1D 序列上进行无损的长程依赖建模。
SegMamba / VMamba：针对 3D 数据，提出了多方向的交叉扫描（Cross-Scan Module, CSM）。CSM 通过前向、后向、水平、垂直等多个维度的同步扫描，完美重建了体素间的拓扑关系，且极大降低了显存限制。

04 策略进阶：级联与多尺度感知

在实际复杂的临床任务中，单一的分割网络往往容易产生较高的假阳性（False Positives）。一种成熟且鲁棒的工程化策略是级联感知（Cascaded Perception）：

Detection-to-Segmentation（先检测后分割）：借鉴目标检测的成熟经验，先利用如 YOLO 等高优化的目标检测器，在全局影像中快速锁定病灶或器官的 Bounding Box。随后将该区域裁剪并送入精细的分割网络（如基于 PointNet 的形态边缘提取或高精度 U-Net）。这种粗到细的策略，有效过滤了背景干扰，大幅降低了假检测率。

05 硬核底座：损失函数（Loss Functions）的数学博弈

医学图像中的病灶往往极度不规则，且正负样本比例经常失衡。传统的交叉熵（CE）在此容易失效。

1. Dice Loss

评估两个样本集合相似度的经典度量，对前景区域高度敏感：
LDice=1−2∑ipigi∑ipi2+∑igi2L_{Dice} = 1 - \frac{2 \sum_{i} p_i g_i}{\sum_{i} p_i^2 + \sum_{i} g_i^2}LDice=1−∑ipi2+∑igi22∑ipigi

2. Tversky Loss

Dice Loss 的进阶版。在医学场景中，漏诊（假阴性，FN）的代价通常远高于误诊（假阳性，FP）。Tversky Loss 引入了权重参数 α\alphaα 和 β\betaβ：
LTversky=1−∑ipigi∑ipigi+α∑ipi(1−gi)+β∑i(1−pi)giL_{Tversky} = 1 - \frac{\sum_{i} p_i g_i}{\sum_{i} p_i g_i + \alpha \sum_{i} p_i (1-g_i) + \beta \sum_{i} (1-p_i) g_i}LTversky=1−∑ipigi+α∑ipi(1−gi)+β∑i(1−pi)gi∑ipigi
通过调大 β\betaβ 值，网络会更加激进地捕获病灶，减少漏检。

06 演进之路与未来展望

极低资源下的本地化部署：针对临床医疗数据隐私要求高、科室硬件条件有限（如常见的单卡 12G 显存工作站）的现状，结合量化与局部注意力机制的轻量级 Mamba，或基于本地 Ollama 调用的多模态模型进行辅助诊断，是极具商业与临床落地价值的方向。
大模型"零样本"分割：基于海量通用数据训练的 Segment Anything Model (SAM) 正在被适配于医学领域。通过 Prompt（点、框、文本）引导，打破了特定器官专用模型的限制。

结语

从 U-Net 的空间跳跃，到 Transformer 的全局统筹，再到 Mamba 的线性狂飙，医学图像分割算法的演进，本质上是一场在计算复杂度与感受野之间寻找最优解的博弈。感知算法的每一次微小突破，都在为人类的生命健康构建更精确的数字防线。

深度思考，持续探物。