【论文学习】SAMed-2: 选择性记忆增强的医学任意分割模型

SAMed-2: Selective Memory Enhanced Medical Segment Anything Model

选择性记忆增强的医学任意分割模型

SAMed-2是专为医学影像场景设计的通用分割基础模型,核心是在 "任意分割" 的通用性之上,通过 "选择性记忆增强" 解决医学数据的特殊挑战

"Segment Anything"(任意分割)的核心定位 :不局限于特定器官或病灶,可通过 "提示"(如边界框、点、文本)分割医学影像中任意目标**,无需针对单一任务(如肝脏分割、肿瘤分割)重新训练。

  1. 区别于传统模型:传统 U-Net 等需为每个任务单独训练,而 "任意分割" 模型通过大规模预训练,具备零样本 / 少样本迁移能力(如预训练后无需额外数据,仅用少量提示即可分割新器官)
  2. 模型基础:基于 SAM-2(自然图像任意分割模型)架构拓展,保留其 "编码器 - 提示编码器 - 解码器" 的通用框架,适配医学场景的泛化需求

选择性记忆增强:通过筛选高价值特征存储 + 动态检索复用的记忆机制,解决医学分割的两大关键痛点(噪声干扰、灾难性遗忘),同时增强时序关联捕捉能力

  1. 选择性记忆:模型构建 "记忆库",仅存储训练过程中高置信度的有效特征(而非所有特征)。通过 IoU 置信度评分筛选,过滤噪声标注、低质量影像带来的无效信息;记忆库内容包含 "掩码特征 + 位置编码 + 置信度 + 图像嵌入",确保检索时的精准匹配。
  2. 增强:相比基础模型(SAM-2)的简单记忆机制,实现两大增强:
    1. 时序增强:通过 "时序适配器",将记忆库与连续影像帧的时序关联结合(如 CT 切片间的空间衔接、手术视频的帧间关联),提升序列数据分割的一致性;
    2. 抗遗忘增强:记忆库支持 "置信度驱动的替换"------ 新特征若置信度高于记忆库中相似旧特征,则替换旧特征,既保留有效知识,又避免多任务学习时的 "灾难性遗忘"(即学新任务时忘记旧任务知识)。

以通用任意分割为基础,通过 "时序适配 + 选择性记忆",让模型在医学场景中既保持通用性,又解决噪声、遗忘、时序关联等专属问题

摘要

近年来,"任意分割" 相关研究通过大规模数据学习展现出良好前景,但由于医学数据的复杂性、标注噪声问题,以及跨多样模态和解剖结构的持续学习需求,这类模型直接适配医学图像仍面临挑战。本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。具体而言,我们在图像编码器中引入时序适配器以捕捉图像间的关联关系,并设计置信驱动记忆机制,用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题,并在遭遇新任务或新模态时缓解灾难性遗忘。为训练和评估 SAMed-2,我们构建了综合数据集 MedBank-100k,该数据集涵盖 7 类成像模态和 21 项医学分割任务。在内部基准数据集和 10 个外部数据集上的实验表明,SAMed-2 在多任务场景下的性能优于当前最先进的基准模型。代码已开源,获取地址:https://github.com/ZhilingYan/Medical-SAM-Bench

理解1

本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。

SAM与 SAM-2

  1. SAM 是 2023 年 Meta 推出的 "分割一切" 初代模型,核心聚焦单帧 2D 图像分割
  2. SAM-2 是 2024 年发布的升级版本,核心突破是实现图像与视频的统一分割
  3. 两者本质差异是 "单帧独立分割" 与 "序列关联分割" 的技术路线区别

差异:

  1. 编码器与特征提取:
    1. SAM :采用 ViT(Vision Transformer)系列骨干网络(如 ViT-B/ViT-L),仅提取单帧 2D 空间特征,无时序关联处理能力,每帧图像独立编码,无特征复用。
    2. SAM-2 :采用 Hiera 分层 Transformer 骨干网络(如 Hiera-S/T),支持多尺度特征更高效提取,且兼容 2D/3D 输入;新增时序注意力机制,可捕捉视频帧间、3D 切片间的空间 - 时序关联,为序列分割提供基础。
  2. 记忆机制:
    1. SAM无专门记忆模块,分割连续帧时需逐帧重复编码,无法复用历史帧特征,导致跨帧分割一致性差(如连续医学切片分割时形态抖动),且计算成本高。
    2. SAM-2:新增"流式记忆库(Streaming Memory Bank)",核心功能包括:存储历史帧的高价值特征(如目标掩码特征、位置编码);通过 "记忆注意力模块" 融合历史特征与当前帧特征,实现跨帧信息复用;支持任意长视频的实时处理(一次处理一帧,仅更新记忆库,无需重复编码全部帧),推理效率大幅提升。
  3. 解码器与输出优化:
    1. SAM :解码器仅针对单帧掩码预测优化,输出单帧分割结果;若对象存在模糊性(如点击自行车轮胎可能对应 "轮胎" 或 "整车"),仅输出多组静态掩码,无时序一致性约束。
    2. SAM-2:解码器支持时序特征融合 ,可生成连续、一致的视频 / 3D 分割结果,减少跨帧抖动;新增 "遮挡头(Occlusion Head)":专门预测当前帧中目标是否可见(如视频中目标被遮挡、消失),解决 SAM 无法处理的 "目标暂缺" 场景;支持 "多掩码动态选择":视频分割中若存在歧义,会生成多组掩码,后续帧可通过提示迭代细化,或自动选择置信度最高的掩码传播。

理解2

具体而言,我们在图像编码器中引入时序适配器以捕捉图像间的关联关系,并设计置信驱动记忆机制,用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题,并在遭遇新任务或新模态时缓解灾难性遗忘。

SAMed-2 的两大核心创新:时序适配器 + 置信驱动记忆机制

时序适配器

时序适配器:捕捉医学数据的 "连续关联";给 SAM-2 的图像编码器加了一个 "序列感知模块",专门处理医学数据的 "连续性"(比如 CT/MRI 的连续切片、手术视频的前后帧)

比如处理 30 张连续的肺部 CT 切片时,时序适配器会通过 3D 卷积、时空注意力,把相邻切片的特征 "串起来"------ 第 10 张切片的肺部边缘特征,会和第 9 张、第 11 张的特征关联,识别出 "肺部是连续的 3D 结构",而不是把每张切片当成独立图像。

医学数据大多是 "序列形式"(不是孤立单张),比如 CT 切片的解剖结构是连续的、手术视频的病灶位置不会突然跳转。传统模型(包括基础 SAM-2)只处理单张图像,容易出现 "跨切片分割不一致"(比如第 10 张切出的肝脏和第 11 张的形态脱节),时序适配器就是为了让分割结果 "连贯、贴合解剖结构"。

置信驱动记忆机制

置信驱动记忆机制:给模型建一个 "高价值特征错题本";模型训练时会搭建一个 "记忆库",但不是什么特征都存,只选择性存储 "高置信度特征"------ 也就是分割结果准确、IoU 分数高、没有噪声干扰的特征(比如清晰的肝脏边界特征、明确的肿瘤掩码特征)。

  1. 存储阶段:训练时,模型会给每个分割结果打分(IoU 置信度),只有分数达标的特征才会被存入记忆库,低置信的噪声特征(比如成像伪影、标注误差导致的错误特征)直接过滤。
  2. 检索阶段:遇到新任务(比如之前学过肝脏分割,现在学肾脏分割)或新模态(比如之前处理 CT,现在处理 MRI)时,模型会从记忆库中检索 "和当前任务相似的高置信特征",比如用肝脏分割的 "器官边界特征" 辅助肾脏边界分割,用 CT 的 "软组织特征" 适配 MRI 的同类特征。

医学图像分割的两大痛点:噪声 + 灾难性遗忘

应对大规模医学数据的 "噪声问题"

医学数据的噪声很常见:比如 CT 图像的扫描伪影、病理切片的染色不均、医生手动标注的边界误差(不同医生标注的病灶范围有差异)。

解决方案:置信驱动记忆机制只存 "高置信特征",相当于自动过滤了噪声对应的低质量特征。模型后续推理时,用的是干净、可靠的 "优质记忆",自然减少了噪声对分割结果的干扰 ------ 比如不会把扫描伪影误判为病灶,不会因为标注误差导致分割边界偏移。

缓解 "灾难性遗忘"(学新忘旧)

灾难性遗忘是 AI 的通病:比如模型先学了肝脏分割,再学肾脏分割时,会慢慢忘记肝脏分割的知识,导致后续再做肝脏分割时精度下降。

解决方案:记忆库会长期保留之前任务的 "高置信特征"(比如肝脏的边界、形态特征)。学新任务(肾脏分割)时,模型会检索记忆库,既用新数据学肾脏特征,又通过记忆库复习肝脏特征,避免旧知识被覆盖。而且新任务的高置信特征也会补充进记忆库,让记忆库越来越丰富,适配更多模态 / 任务。

相关推荐
NAGNIP11 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab13 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab13 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP16 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年16 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼17 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS17 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区18 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈18 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang18 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx