SAMed-2: Selective Memory Enhanced Medical Segment Anything Model
选择性记忆增强的医学任意分割模型
SAMed-2是专为医学影像场景设计的通用分割基础模型,核心是在 "任意分割" 的通用性之上,通过 "选择性记忆增强" 解决医学数据的特殊挑战
"Segment Anything"(任意分割)的核心定位 :不局限于特定器官或病灶,可通过 "提示"(如边界框、点、文本)分割医学影像中任意目标**,无需针对单一任务(如肝脏分割、肿瘤分割)重新训练。
- 区别于传统模型:传统 U-Net 等需为每个任务单独训练,而 "任意分割" 模型通过大规模预训练,具备零样本 / 少样本迁移能力(如预训练后无需额外数据,仅用少量提示即可分割新器官)
- 模型基础:基于 SAM-2(自然图像任意分割模型)架构拓展,保留其 "编码器 - 提示编码器 - 解码器" 的通用框架,适配医学场景的泛化需求
选择性记忆增强:通过筛选高价值特征存储 + 动态检索复用的记忆机制,解决医学分割的两大关键痛点(噪声干扰、灾难性遗忘),同时增强时序关联捕捉能力
- 选择性记忆:模型构建 "记忆库",仅存储训练过程中高置信度的有效特征(而非所有特征)。通过 IoU 置信度评分筛选,过滤噪声标注、低质量影像带来的无效信息;记忆库内容包含 "掩码特征 + 位置编码 + 置信度 + 图像嵌入",确保检索时的精准匹配。
- 增强:相比基础模型(SAM-2)的简单记忆机制,实现两大增强:
- 时序增强:通过 "时序适配器",将记忆库与连续影像帧的时序关联结合(如 CT 切片间的空间衔接、手术视频的帧间关联),提升序列数据分割的一致性;
- 抗遗忘增强:记忆库支持 "置信度驱动的替换"------ 新特征若置信度高于记忆库中相似旧特征,则替换旧特征,既保留有效知识,又避免多任务学习时的 "灾难性遗忘"(即学新任务时忘记旧任务知识)。
以通用任意分割为基础,通过 "时序适配 + 选择性记忆",让模型在医学场景中既保持通用性,又解决噪声、遗忘、时序关联等专属问题
摘要
近年来,"任意分割" 相关研究通过大规模数据学习展现出良好前景,但由于医学数据的复杂性、标注噪声问题,以及跨多样模态和解剖结构的持续学习需求,这类模型直接适配医学图像仍面临挑战。本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。具体而言,我们在图像编码器中引入时序适配器以捕捉图像间的关联关系,并设计置信驱动记忆机制,用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题,并在遭遇新任务或新模态时缓解灾难性遗忘。为训练和评估 SAMed-2,我们构建了综合数据集 MedBank-100k,该数据集涵盖 7 类成像模态和 21 项医学分割任务。在内部基准数据集和 10 个外部数据集上的实验表明,SAMed-2 在多任务场景下的性能优于当前最先进的基准模型。代码已开源,获取地址:https://github.com/ZhilingYan/Medical-SAM-Bench。
理解1
本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。
SAM与 SAM-2
- SAM 是 2023 年 Meta 推出的 "分割一切" 初代模型,核心聚焦单帧 2D 图像分割;
- SAM-2 是 2024 年发布的升级版本,核心突破是实现图像与视频的统一分割;
- 两者本质差异是 "单帧独立分割" 与 "序列关联分割" 的技术路线区别
差异:
- 编码器与特征提取:
- SAM :采用 ViT(Vision Transformer)系列骨干网络(如 ViT-B/ViT-L),仅提取单帧 2D 空间特征,无时序关联处理能力,每帧图像独立编码,无特征复用。
- SAM-2 :采用 Hiera 分层 Transformer 骨干网络(如 Hiera-S/T),支持多尺度特征更高效提取,且兼容 2D/3D 输入;新增时序注意力机制,可捕捉视频帧间、3D 切片间的空间 - 时序关联,为序列分割提供基础。
- 记忆机制:
- SAM :无专门记忆模块,分割连续帧时需逐帧重复编码,无法复用历史帧特征,导致跨帧分割一致性差(如连续医学切片分割时形态抖动),且计算成本高。
- SAM-2:新增"流式记忆库(Streaming Memory Bank)",核心功能包括:存储历史帧的高价值特征(如目标掩码特征、位置编码);通过 "记忆注意力模块" 融合历史特征与当前帧特征,实现跨帧信息复用;支持任意长视频的实时处理(一次处理一帧,仅更新记忆库,无需重复编码全部帧),推理效率大幅提升。
- 解码器与输出优化:
- SAM :解码器仅针对单帧掩码预测优化,输出单帧分割结果;若对象存在模糊性(如点击自行车轮胎可能对应 "轮胎" 或 "整车"),仅输出多组静态掩码,无时序一致性约束。
- SAM-2:解码器支持时序特征融合 ,可生成连续、一致的视频 / 3D 分割结果,减少跨帧抖动;新增 "遮挡头(Occlusion Head)":专门预测当前帧中目标是否可见(如视频中目标被遮挡、消失),解决 SAM 无法处理的 "目标暂缺" 场景;支持 "多掩码动态选择":视频分割中若存在歧义,会生成多组掩码,后续帧可通过提示迭代细化,或自动选择置信度最高的掩码传播。
理解2
具体而言,我们在图像编码器中引入时序适配器以捕捉图像间的关联关系,并设计置信驱动记忆机制,用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题,并在遭遇新任务或新模态时缓解灾难性遗忘。
SAMed-2 的两大核心创新:时序适配器 + 置信驱动记忆机制
时序适配器
时序适配器:捕捉医学数据的 "连续关联";给 SAM-2 的图像编码器加了一个 "序列感知模块",专门处理医学数据的 "连续性"(比如 CT/MRI 的连续切片、手术视频的前后帧)
比如处理 30 张连续的肺部 CT 切片时,时序适配器会通过 3D 卷积、时空注意力,把相邻切片的特征 "串起来"------ 第 10 张切片的肺部边缘特征,会和第 9 张、第 11 张的特征关联,识别出 "肺部是连续的 3D 结构",而不是把每张切片当成独立图像。
医学数据大多是 "序列形式"(不是孤立单张),比如 CT 切片的解剖结构是连续的、手术视频的病灶位置不会突然跳转。传统模型(包括基础 SAM-2)只处理单张图像,容易出现 "跨切片分割不一致"(比如第 10 张切出的肝脏和第 11 张的形态脱节),时序适配器就是为了让分割结果 "连贯、贴合解剖结构"。
置信驱动记忆机制
置信驱动记忆机制:给模型建一个 "高价值特征错题本";模型训练时会搭建一个 "记忆库",但不是什么特征都存,只选择性存储 "高置信度特征"------ 也就是分割结果准确、IoU 分数高、没有噪声干扰的特征(比如清晰的肝脏边界特征、明确的肿瘤掩码特征)。
- 存储阶段:训练时,模型会给每个分割结果打分(IoU 置信度),只有分数达标的特征才会被存入记忆库,低置信的噪声特征(比如成像伪影、标注误差导致的错误特征)直接过滤。
- 检索阶段:遇到新任务(比如之前学过肝脏分割,现在学肾脏分割)或新模态(比如之前处理 CT,现在处理 MRI)时,模型会从记忆库中检索 "和当前任务相似的高置信特征",比如用肝脏分割的 "器官边界特征" 辅助肾脏边界分割,用 CT 的 "软组织特征" 适配 MRI 的同类特征。
医学图像分割的两大痛点:噪声 + 灾难性遗忘
应对大规模医学数据的 "噪声问题"
医学数据的噪声很常见:比如 CT 图像的扫描伪影、病理切片的染色不均、医生手动标注的边界误差(不同医生标注的病灶范围有差异)。
解决方案:置信驱动记忆机制只存 "高置信特征",相当于自动过滤了噪声对应的低质量特征。模型后续推理时,用的是干净、可靠的 "优质记忆",自然减少了噪声对分割结果的干扰 ------ 比如不会把扫描伪影误判为病灶,不会因为标注误差导致分割边界偏移。
缓解 "灾难性遗忘"(学新忘旧)
灾难性遗忘是 AI 的通病:比如模型先学了肝脏分割,再学肾脏分割时,会慢慢忘记肝脏分割的知识,导致后续再做肝脏分割时精度下降。
解决方案:记忆库会长期保留之前任务的 "高置信特征"(比如肝脏的边界、形态特征)。学新任务(肾脏分割)时,模型会检索记忆库,既用新数据学肾脏特征,又通过记忆库复习肝脏特征,避免旧知识被覆盖。而且新任务的高置信特征也会补充进记忆库,让记忆库越来越丰富,适配更多模态 / 任务。