【论文学习】SAMed-2: 选择性记忆增强的医学任意分割模型

SAMed-2: Selective Memory Enhanced Medical Segment Anything Model

选择性记忆增强的医学任意分割模型

SAMed-2是专为医学影像场景设计的通用分割基础模型,核心是在 "任意分割" 的通用性之上,通过 "选择性记忆增强" 解决医学数据的特殊挑战

"Segment Anything"(任意分割)的核心定位 :不局限于特定器官或病灶,可通过 "提示"(如边界框、点、文本)分割医学影像中任意目标**,无需针对单一任务(如肝脏分割、肿瘤分割)重新训练。

  1. 区别于传统模型:传统 U-Net 等需为每个任务单独训练,而 "任意分割" 模型通过大规模预训练,具备零样本 / 少样本迁移能力(如预训练后无需额外数据,仅用少量提示即可分割新器官)
  2. 模型基础:基于 SAM-2(自然图像任意分割模型)架构拓展,保留其 "编码器 - 提示编码器 - 解码器" 的通用框架,适配医学场景的泛化需求

选择性记忆增强:通过筛选高价值特征存储 + 动态检索复用的记忆机制,解决医学分割的两大关键痛点(噪声干扰、灾难性遗忘),同时增强时序关联捕捉能力

  1. 选择性记忆:模型构建 "记忆库",仅存储训练过程中高置信度的有效特征(而非所有特征)。通过 IoU 置信度评分筛选,过滤噪声标注、低质量影像带来的无效信息;记忆库内容包含 "掩码特征 + 位置编码 + 置信度 + 图像嵌入",确保检索时的精准匹配。
  2. 增强:相比基础模型(SAM-2)的简单记忆机制,实现两大增强:
    1. 时序增强:通过 "时序适配器",将记忆库与连续影像帧的时序关联结合(如 CT 切片间的空间衔接、手术视频的帧间关联),提升序列数据分割的一致性;
    2. 抗遗忘增强:记忆库支持 "置信度驱动的替换"------ 新特征若置信度高于记忆库中相似旧特征,则替换旧特征,既保留有效知识,又避免多任务学习时的 "灾难性遗忘"(即学新任务时忘记旧任务知识)。

以通用任意分割为基础,通过 "时序适配 + 选择性记忆",让模型在医学场景中既保持通用性,又解决噪声、遗忘、时序关联等专属问题

摘要

近年来,"任意分割" 相关研究通过大规模数据学习展现出良好前景,但由于医学数据的复杂性、标注噪声问题,以及跨多样模态和解剖结构的持续学习需求,这类模型直接适配医学图像仍面临挑战。本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。具体而言,我们在图像编码器中引入时序适配器以捕捉图像间的关联关系,并设计置信驱动记忆机制,用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题,并在遭遇新任务或新模态时缓解灾难性遗忘。为训练和评估 SAMed-2,我们构建了综合数据集 MedBank-100k,该数据集涵盖 7 类成像模态和 21 项医学分割任务。在内部基准数据集和 10 个外部数据集上的实验表明,SAMed-2 在多任务场景下的性能优于当前最先进的基准模型。代码已开源,获取地址:https://github.com/ZhilingYan/Medical-SAM-Bench

理解1

本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。

SAM与 SAM-2

  1. SAM 是 2023 年 Meta 推出的 "分割一切" 初代模型,核心聚焦单帧 2D 图像分割
  2. SAM-2 是 2024 年发布的升级版本,核心突破是实现图像与视频的统一分割
  3. 两者本质差异是 "单帧独立分割" 与 "序列关联分割" 的技术路线区别

差异:

  1. 编码器与特征提取:
    1. SAM :采用 ViT(Vision Transformer)系列骨干网络(如 ViT-B/ViT-L),仅提取单帧 2D 空间特征,无时序关联处理能力,每帧图像独立编码,无特征复用。
    2. SAM-2 :采用 Hiera 分层 Transformer 骨干网络(如 Hiera-S/T),支持多尺度特征更高效提取,且兼容 2D/3D 输入;新增时序注意力机制,可捕捉视频帧间、3D 切片间的空间 - 时序关联,为序列分割提供基础。
  2. 记忆机制:
    1. SAM无专门记忆模块,分割连续帧时需逐帧重复编码,无法复用历史帧特征,导致跨帧分割一致性差(如连续医学切片分割时形态抖动),且计算成本高。
    2. SAM-2:新增"流式记忆库(Streaming Memory Bank)",核心功能包括:存储历史帧的高价值特征(如目标掩码特征、位置编码);通过 "记忆注意力模块" 融合历史特征与当前帧特征,实现跨帧信息复用;支持任意长视频的实时处理(一次处理一帧,仅更新记忆库,无需重复编码全部帧),推理效率大幅提升。
  3. 解码器与输出优化:
    1. SAM :解码器仅针对单帧掩码预测优化,输出单帧分割结果;若对象存在模糊性(如点击自行车轮胎可能对应 "轮胎" 或 "整车"),仅输出多组静态掩码,无时序一致性约束。
    2. SAM-2:解码器支持时序特征融合 ,可生成连续、一致的视频 / 3D 分割结果,减少跨帧抖动;新增 "遮挡头(Occlusion Head)":专门预测当前帧中目标是否可见(如视频中目标被遮挡、消失),解决 SAM 无法处理的 "目标暂缺" 场景;支持 "多掩码动态选择":视频分割中若存在歧义,会生成多组掩码,后续帧可通过提示迭代细化,或自动选择置信度最高的掩码传播。

理解2

具体而言,我们在图像编码器中引入时序适配器以捕捉图像间的关联关系,并设计置信驱动记忆机制,用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题,并在遭遇新任务或新模态时缓解灾难性遗忘。

SAMed-2 的两大核心创新:时序适配器 + 置信驱动记忆机制

时序适配器

时序适配器:捕捉医学数据的 "连续关联";给 SAM-2 的图像编码器加了一个 "序列感知模块",专门处理医学数据的 "连续性"(比如 CT/MRI 的连续切片、手术视频的前后帧)

比如处理 30 张连续的肺部 CT 切片时,时序适配器会通过 3D 卷积、时空注意力,把相邻切片的特征 "串起来"------ 第 10 张切片的肺部边缘特征,会和第 9 张、第 11 张的特征关联,识别出 "肺部是连续的 3D 结构",而不是把每张切片当成独立图像。

医学数据大多是 "序列形式"(不是孤立单张),比如 CT 切片的解剖结构是连续的、手术视频的病灶位置不会突然跳转。传统模型(包括基础 SAM-2)只处理单张图像,容易出现 "跨切片分割不一致"(比如第 10 张切出的肝脏和第 11 张的形态脱节),时序适配器就是为了让分割结果 "连贯、贴合解剖结构"。

置信驱动记忆机制

置信驱动记忆机制:给模型建一个 "高价值特征错题本";模型训练时会搭建一个 "记忆库",但不是什么特征都存,只选择性存储 "高置信度特征"------ 也就是分割结果准确、IoU 分数高、没有噪声干扰的特征(比如清晰的肝脏边界特征、明确的肿瘤掩码特征)。

  1. 存储阶段:训练时,模型会给每个分割结果打分(IoU 置信度),只有分数达标的特征才会被存入记忆库,低置信的噪声特征(比如成像伪影、标注误差导致的错误特征)直接过滤。
  2. 检索阶段:遇到新任务(比如之前学过肝脏分割,现在学肾脏分割)或新模态(比如之前处理 CT,现在处理 MRI)时,模型会从记忆库中检索 "和当前任务相似的高置信特征",比如用肝脏分割的 "器官边界特征" 辅助肾脏边界分割,用 CT 的 "软组织特征" 适配 MRI 的同类特征。

医学图像分割的两大痛点:噪声 + 灾难性遗忘

应对大规模医学数据的 "噪声问题"

医学数据的噪声很常见:比如 CT 图像的扫描伪影、病理切片的染色不均、医生手动标注的边界误差(不同医生标注的病灶范围有差异)。

解决方案:置信驱动记忆机制只存 "高置信特征",相当于自动过滤了噪声对应的低质量特征。模型后续推理时,用的是干净、可靠的 "优质记忆",自然减少了噪声对分割结果的干扰 ------ 比如不会把扫描伪影误判为病灶,不会因为标注误差导致分割边界偏移。

缓解 "灾难性遗忘"(学新忘旧)

灾难性遗忘是 AI 的通病:比如模型先学了肝脏分割,再学肾脏分割时,会慢慢忘记肝脏分割的知识,导致后续再做肝脏分割时精度下降。

解决方案:记忆库会长期保留之前任务的 "高置信特征"(比如肝脏的边界、形态特征)。学新任务(肾脏分割)时,模型会检索记忆库,既用新数据学肾脏特征,又通过记忆库复习肝脏特征,避免旧知识被覆盖。而且新任务的高置信特征也会补充进记忆库,让记忆库越来越丰富,适配更多模态 / 任务。

相关推荐
cyyt1 小时前
深度学习周报(1.12~1.18)
人工智能·算法·机器学习
范纹杉想快点毕业1 小时前
C语言核心机制全解:内存、地址、数组与指针,共计30000字
算法
摸鱼仙人~1 小时前
深度对比:Prompt Tuning、P-tuning 与 Prefix Tuning 有何不同?
人工智能·prompt
Σίσυφος19001 小时前
RANSAC算法原理与应用
算法
塔能物联运维1 小时前
隧道照明“智能进化”:PLC 通信 + AI 调光守护夜间通行生命线
大数据·人工智能
瑶光守护者1 小时前
【AI经典论文解读】《Denoising Diffusion Implicit Models(去噪扩散隐式模型)》论文深度解读
人工智能
wdfk_prog1 小时前
[Linux]学习笔记系列 -- [drivers][base]cpu
linux·笔记·学习
wwwzhouhui1 小时前
2026年1月18日-Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔记
人工智能·obsidian·skills
我星期八休息2 小时前
MySQL数据可视化实战指南
数据库·人工智能·mysql·算法·信息可视化
wuk9982 小时前
基于遗传算法优化BP神经网络实现非线性函数拟合
人工智能·深度学习·神经网络