[TMI 2025] MedicoSAM:拒绝"灾难性遗忘",医学图像分割基座模型的正确微调姿势
论文题目 :MedicoSAM: Robust Improvement of SAM for Medical Imaging
发表出处 :IEEE Transactions on Medical Imaging (TMI), 2025 (Accepted)
作者机构 :University of Göttingen (Anwai Archit, Luca Freckmann, Constantin Pape)
项目地址 :https://github.com/computational-cell-analytics/medico-sam
1. 🚀 省流版摘要 (TL;DR)
MedicoSAM 是一项针对 Segment Anything Model (SAM) 在医学图像领域进行全方位微调的实证研究。作者发现,现有的医学版 SAM(如 MedSAM)由于采用了简化的微调策略(仅使用 Box 提示),导致模型出现了**"灾难性遗忘"**,即丧失了基于点(Point)交互的能力。
本文通过恢复 SAM 原生的迭代式训练目标(Iterative Training Objective),提出了 MedicoSAM。该模型不仅在 2D/3D 交互式分割任务上全面超越 MedSAM 和 SAM-Med2D,还保持了与现有标注工具(如 3D Slicer, napari)的完美兼容性,是目前最鲁棒的医学交互式分割基座模型之一。
2. 🧐 背景与痛点 (Motivation)
2.1 现有问题:SAM 的"水土不服"
Meta 发布的 SAM 虽然在自然图像上表现优异,但在医学图像(CT, MRI, 超声等)上表现往往不尽如人意。医学图像具有低对比度、边界模糊等特性,直接使用预训练的 SAM 往往无法精准分割病灶。
2.2 传统微调方法的"致命缺陷"
为了解决上述问题,社区涌现了大量改进版本(如 MedSAM, SAM-Med2D)。然而,本文作者指出了它们的两个核心痛点:
- 训练策略过于简化导致"变笨" :为了节省计算资源,MedSAM 在微调时仅使用了 Bounding Box 作为提示词,且去除了迭代修正步骤(
nsteps=0)。这导致模型"遗忘"了如何响应点击(Point prompts)。用户在交互时越点越乱,体验极差。 - 架构修改破坏生态兼容性:SAM-Med2D 等方法引入了 Adapter 层或改变了输入尺寸,这使得它们无法直接加载到现有的 SAM 生态工具(如 napari-sam 或 3D Slicer 插件)中,限制了实际临床应用。
3. 💡 核心方法 (Methodology)
3.1 整体架构:保持原汁原味
为了保证与开源工具的兼容性,MedicoSAM 坚持不修改 Image Encoder 的核心架构(不加 Adapter,不改输入尺寸),而是对 ViT-b 版本的 SAM 进行全参数微调。
- 交互式分割:沿用标准 SAM 架构。
- 语义分割:额外设计了一个轻量级的卷积解码器(类似 UNETR),用于输出语义掩码。
- 3D 扩展:通过切片传播(Slice-by-slice propagation)和 3D 卷积融合来实现 3D 数据的分割。
3.2 关键策略:复活"迭代训练" (The "Lost" Training Objective)
这是本文最大的亮点。作者复现并改进了 SAM 原论文中未完全公开的训练算法。
| 对比维度 | MedSAM (现有主流) | MedicoSAM (本文方法) |
|---|---|---|
| 提示词策略 | 仅 Box (pbox=1) |
Box + Point 混合 (pbox=0.5) |
| 迭代修正 | 无 (nsteps=0) |
有 (nsteps=8) |
| Mask Prompt | 无 | 有 |
| 结果表现 | 模型只会看框,不会看点 | 模拟真实用户点击,越点越准 |
通过这种"模拟真实用户行为"的训练方式,MedicoSAM 成功避免了灾难性遗忘,让模型在面对用户点击时能给出符合预期的反馈。
4. 📊 实验与结果 (Experiments)
4.1 交互式分割:吊打竞品
作者在 16 个独立的外部数据集上进行了测试:
- 现象 :在模拟用户不断点击修正的过程中,MedSAM 和 SimpleFT 的性能不升反降,说明它们根本不懂如何利用新的点击信息。
- 结果:MedicoSAM 是唯一一个随着点击次数增加,Dice 分数稳步上升的模型,在 2D 和 3D 任务上均显著优于 SAM 和 MedSAM。
4.2 语义分割:优于基线,但非无敌
作者将 MedicoSAM 作为预训练编码器进行语义分割微调:
- 2D 任务:MedicoSAM 略优于 nnU-Net。
- 3D 任务 :nnU-Net 依然是王者。这表明,虽然 SAM 基础模型很强,但在纯自动分割任务上,专门设计的医学分割网络(如 nnU-Net)依然难以撼动。
4.3 工具兼容性 (Tool Integration)
作者测试了 napari-sam, SegmentWithSAM (Slicer) 等主流插件:
- SAM-Med2D:❌ 完全无法运行(架构不兼容)。
- MedSAM:✅ 可运行,但交互体验较差。
- MedicoSAM :✅ 即插即用,无需修改代码,只需替换权重文件即可享受性能提升。
5. 🧠 总结与思考 (Conclusion)
- Training Recipe > Architecture:本文证明了在医学图像微调中,正确的训练策略(保留迭代修正、混合提示)比单纯堆砌数据或修改网络结构更重要。
- 实用主义至上:坚持不改动模型核心架构,极大地降低了社区的使用门槛,让医生和研究人员可以直接在现有软件中替换模型。
- 局限性:在 3D 语义分割任务上,基于 SAM 的方法依然没能打败 nnU-Net。Transformer 在处理各向异性、体素级医学图像时,可能还需要更适配的解码器设计。