[TMI 2025] MedicoSAM:拒绝“灾难性遗忘”,医学图像分割基座模型的正确微调姿势

[TMI 2025] MedicoSAM:拒绝"灾难性遗忘",医学图像分割基座模型的正确微调姿势

论文题目 :MedicoSAM: Robust Improvement of SAM for Medical Imaging
发表出处 :IEEE Transactions on Medical Imaging (TMI), 2025 (Accepted)
作者机构 :University of Göttingen (Anwai Archit, Luca Freckmann, Constantin Pape)
项目地址https://github.com/computational-cell-analytics/medico-sam


1. 🚀 省流版摘要 (TL;DR)

MedicoSAM 是一项针对 Segment Anything Model (SAM) 在医学图像领域进行全方位微调的实证研究。作者发现,现有的医学版 SAM(如 MedSAM)由于采用了简化的微调策略(仅使用 Box 提示),导致模型出现了**"灾难性遗忘"**,即丧失了基于点(Point)交互的能力。

本文通过恢复 SAM 原生的迭代式训练目标(Iterative Training Objective),提出了 MedicoSAM。该模型不仅在 2D/3D 交互式分割任务上全面超越 MedSAM 和 SAM-Med2D,还保持了与现有标注工具(如 3D Slicer, napari)的完美兼容性,是目前最鲁棒的医学交互式分割基座模型之一。


2. 🧐 背景与痛点 (Motivation)

2.1 现有问题:SAM 的"水土不服"

Meta 发布的 SAM 虽然在自然图像上表现优异,但在医学图像(CT, MRI, 超声等)上表现往往不尽如人意。医学图像具有低对比度、边界模糊等特性,直接使用预训练的 SAM 往往无法精准分割病灶。

2.2 传统微调方法的"致命缺陷"

为了解决上述问题,社区涌现了大量改进版本(如 MedSAM, SAM-Med2D)。然而,本文作者指出了它们的两个核心痛点:

  1. 训练策略过于简化导致"变笨" :为了节省计算资源,MedSAM 在微调时仅使用了 Bounding Box 作为提示词,且去除了迭代修正步骤(nsteps=0)。这导致模型"遗忘"了如何响应点击(Point prompts)。用户在交互时越点越乱,体验极差。
  2. 架构修改破坏生态兼容性:SAM-Med2D 等方法引入了 Adapter 层或改变了输入尺寸,这使得它们无法直接加载到现有的 SAM 生态工具(如 napari-sam 或 3D Slicer 插件)中,限制了实际临床应用。

3. 💡 核心方法 (Methodology)

3.1 整体架构:保持原汁原味

为了保证与开源工具的兼容性,MedicoSAM 坚持不修改 Image Encoder 的核心架构(不加 Adapter,不改输入尺寸),而是对 ViT-b 版本的 SAM 进行全参数微调。

  • 交互式分割:沿用标准 SAM 架构。
  • 语义分割:额外设计了一个轻量级的卷积解码器(类似 UNETR),用于输出语义掩码。
  • 3D 扩展:通过切片传播(Slice-by-slice propagation)和 3D 卷积融合来实现 3D 数据的分割。

3.2 关键策略:复活"迭代训练" (The "Lost" Training Objective)

这是本文最大的亮点。作者复现并改进了 SAM 原论文中未完全公开的训练算法。

对比维度 MedSAM (现有主流) MedicoSAM (本文方法)
提示词策略 仅 Box (pbox=1) Box + Point 混合 (pbox=0.5)
迭代修正 无 (nsteps=0) 有 (nsteps=8)
Mask Prompt
结果表现 模型只会看框,不会看点 模拟真实用户点击,越点越准

通过这种"模拟真实用户行为"的训练方式,MedicoSAM 成功避免了灾难性遗忘,让模型在面对用户点击时能给出符合预期的反馈。


4. 📊 实验与结果 (Experiments)

4.1 交互式分割:吊打竞品

作者在 16 个独立的外部数据集上进行了测试:

  • 现象 :在模拟用户不断点击修正的过程中,MedSAM 和 SimpleFT 的性能不升反降,说明它们根本不懂如何利用新的点击信息。
  • 结果:MedicoSAM 是唯一一个随着点击次数增加,Dice 分数稳步上升的模型,在 2D 和 3D 任务上均显著优于 SAM 和 MedSAM。

4.2 语义分割:优于基线,但非无敌

作者将 MedicoSAM 作为预训练编码器进行语义分割微调:

  • 2D 任务:MedicoSAM 略优于 nnU-Net。
  • 3D 任务nnU-Net 依然是王者。这表明,虽然 SAM 基础模型很强,但在纯自动分割任务上,专门设计的医学分割网络(如 nnU-Net)依然难以撼动。

4.3 工具兼容性 (Tool Integration)

作者测试了 napari-sam, SegmentWithSAM (Slicer) 等主流插件:

  • SAM-Med2D:❌ 完全无法运行(架构不兼容)。
  • MedSAM:✅ 可运行,但交互体验较差。
  • MedicoSAM :✅ 即插即用,无需修改代码,只需替换权重文件即可享受性能提升。

5. 🧠 总结与思考 (Conclusion)

  1. Training Recipe > Architecture:本文证明了在医学图像微调中,正确的训练策略(保留迭代修正、混合提示)比单纯堆砌数据或修改网络结构更重要。
  2. 实用主义至上:坚持不改动模型核心架构,极大地降低了社区的使用门槛,让医生和研究人员可以直接在现有软件中替换模型。
  3. 局限性:在 3D 语义分割任务上,基于 SAM 的方法依然没能打败 nnU-Net。Transformer 在处理各向异性、体素级医学图像时,可能还需要更适配的解码器设计。
相关推荐
_OP_CHEN1 个月前
【图像分割大模型】医学图像分割的大突破!Pact-Net 双分支网络碾压 SOTA,皮肤癌早筛精度飙升至 86.95%
人工智能·深度学习·计算机视觉·cnn·transformer·医学图像分割·人工智能论文
何如千泷3 个月前
【论文阅读】PathMR: Multimodal Visual Reasoning for Interpretable Pathology Analysis
论文阅读·医学图像分割·病理
烧技湾1 年前
SAM应用:医学图像和视频中的任何内容分割中的基准测试与部署
sam·医学图像分割·分割一切·med2san
罗小罗同学1 年前
人工智能在肿瘤亚型分类领域的研究进展|顶刊速递·24-08-13
人工智能·深度学习·分类·数据挖掘·医学图像分割·医学人工智能·肿瘤亚型分类
沃恩智慧1 年前
实现分割自动化!基于SAM的医学图像分割又双叒叕有新突破
人工智能·深度学习·自动化·sam·医学图像分割
罗小罗同学2 年前
MICS2024|少样本学习、多模态技术以及大语言模型在医学图像处理领域的研究进展|24-07-14
图像处理·学习·语言模型·医学图像分割·影像组学·病理组学·医学人工智能
@TangYi2 年前
MICCAI 2024Centerline Boundary Dice Loss for Vascular Segmentation
python·深度学习·计算机视觉·损失函数·医学图像分割·血管分割
风巽·剑染春水2 年前
【技术追踪】SDSeg:医学图像的 Stable Diffusion 分割(MICCAI-2024)
人工智能·stable diffusion·医学图像分割
北方骑马的萝卜2 年前
U-Net代码复现--utils dice_score.py
python·深度学习·医学图像分割