【论文学习】SAMed-2: 选择性记忆增强的医学任意分割模型

SAMed-2: Selective Memory Enhanced Medical Segment Anything Model

选择性记忆增强的医学任意分割模型

SAMed-2是专为医学影像场景设计的通用分割基础模型，核心是在 "任意分割" 的通用性之上，通过 "选择性记忆增强" 解决医学数据的特殊挑战

"Segment Anything"（任意分割）的核心定位：不局限于特定器官或病灶，可通过 "提示"（如边界框、点、文本）分割医学影像中任意目标**，无需针对单一任务（如肝脏分割、肿瘤分割）重新训练。

区别于传统模型：传统 U-Net 等需为每个任务单独训练，而 "任意分割" 模型通过大规模预训练，具备零样本 / 少样本迁移能力（如预训练后无需额外数据，仅用少量提示即可分割新器官）
模型基础：基于 SAM-2（自然图像任意分割模型）架构拓展，保留其 "编码器 - 提示编码器 - 解码器" 的通用框架，适配医学场景的泛化需求

选择性记忆增强：通过筛选高价值特征存储 + 动态检索复用的记忆机制，解决医学分割的两大关键痛点（噪声干扰、灾难性遗忘），同时增强时序关联捕捉能力

选择性记忆：模型构建 "记忆库"，仅存储训练过程中高置信度的有效特征（而非所有特征）。通过 IoU 置信度评分筛选，过滤噪声标注、低质量影像带来的无效信息；记忆库内容包含 "掩码特征 + 位置编码 + 置信度 + 图像嵌入"，确保检索时的精准匹配。
增强：相比基础模型（SAM-2）的简单记忆机制，实现两大增强：
1. 时序增强：通过 "时序适配器"，将记忆库与连续影像帧的时序关联结合（如 CT 切片间的空间衔接、手术视频的帧间关联），提升序列数据分割的一致性；
2. 抗遗忘增强：记忆库支持 "置信度驱动的替换"------ 新特征若置信度高于记忆库中相似旧特征，则替换旧特征，既保留有效知识，又避免多任务学习时的 "灾难性遗忘"（即学新任务时忘记旧任务知识）。

以通用任意分割为基础，通过 "时序适配 + 选择性记忆"，让模型在医学场景中既保持通用性，又解决噪声、遗忘、时序关联等专属问题

摘要

近年来，"任意分割" 相关研究通过大规模数据学习展现出良好前景，但由于医学数据的复杂性、标注噪声问题，以及跨多样模态和解剖结构的持续学习需求，这类模型直接适配医学图像仍面临挑战。本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。具体而言，我们在图像编码器中引入时序适配器以捕捉图像间的关联关系，并设计置信驱动记忆机制，用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题，并在遭遇新任务或新模态时缓解灾难性遗忘。为训练和评估 SAMed-2，我们构建了综合数据集 MedBank-100k，该数据集涵盖 7 类成像模态和 21 项医学分割任务。在内部基准数据集和 10 个外部数据集上的实验表明，SAMed-2 在多任务场景下的性能优于当前最先进的基准模型。代码已开源，获取地址：https://github.com/ZhilingYan/Medical-SAM-Bench。

理解1

本研究提出一种基于 SAM-2 架构的医学图像分割新基础模型 SAMed-2。

SAM与 SAM-2

SAM 是 2023 年 Meta 推出的 "分割一切" 初代模型，核心聚焦单帧 2D 图像分割；
SAM-2 是 2024 年发布的升级版本，核心突破是实现图像与视频的统一分割；
两者本质差异是 "单帧独立分割" 与 "序列关联分割" 的技术路线区别

差异：

编码器与特征提取：
1. SAM ：采用 ViT（Vision Transformer）系列骨干网络（如 ViT-B/ViT-L），仅提取单帧 2D 空间特征，无时序关联处理能力，每帧图像独立编码，无特征复用。
2. SAM-2 ：采用 Hiera 分层 Transformer 骨干网络（如 Hiera-S/T），支持多尺度特征更高效提取，且兼容 2D/3D 输入；新增时序注意力机制，可捕捉视频帧间、3D 切片间的空间 - 时序关联，为序列分割提供基础。
记忆机制：
1. SAM ：无专门记忆模块，分割连续帧时需逐帧重复编码，无法复用历史帧特征，导致跨帧分割一致性差（如连续医学切片分割时形态抖动），且计算成本高。
2. SAM-2：新增"流式记忆库（Streaming Memory Bank）"，核心功能包括：存储历史帧的高价值特征（如目标掩码特征、位置编码）；通过 "记忆注意力模块" 融合历史特征与当前帧特征，实现跨帧信息复用；支持任意长视频的实时处理（一次处理一帧，仅更新记忆库，无需重复编码全部帧），推理效率大幅提升。
解码器与输出优化：
1. SAM ：解码器仅针对单帧掩码预测优化，输出单帧分割结果；若对象存在模糊性（如点击自行车轮胎可能对应 "轮胎" 或 "整车"），仅输出多组静态掩码，无时序一致性约束。
2. SAM-2：解码器支持时序特征融合 ，可生成连续、一致的视频 / 3D 分割结果，减少跨帧抖动；新增 "遮挡头（Occlusion Head）"：专门预测当前帧中目标是否可见（如视频中目标被遮挡、消失），解决 SAM 无法处理的 "目标暂缺" 场景；支持 "多掩码动态选择"：视频分割中若存在歧义，会生成多组掩码，后续帧可通过提示迭代细化，或自动选择置信度最高的掩码传播。

理解2

具体而言，我们在图像编码器中引入时序适配器以捕捉图像间的关联关系，并设计置信驱动记忆机制，用于存储高置信度特征供后续检索。该基于记忆的策略可应对大规模医学数据中普遍存在的噪声问题，并在遭遇新任务或新模态时缓解灾难性遗忘。

SAMed-2 的两大核心创新：时序适配器 + 置信驱动记忆机制

时序适配器

时序适配器：捕捉医学数据的 "连续关联"；给 SAM-2 的图像编码器加了一个 "序列感知模块"，专门处理医学数据的 "连续性"（比如 CT/MRI 的连续切片、手术视频的前后帧）

比如处理 30 张连续的肺部 CT 切片时，时序适配器会通过 3D 卷积、时空注意力，把相邻切片的特征 "串起来"------ 第 10 张切片的肺部边缘特征，会和第 9 张、第 11 张的特征关联，识别出 "肺部是连续的 3D 结构"，而不是把每张切片当成独立图像。

医学数据大多是 "序列形式"（不是孤立单张），比如 CT 切片的解剖结构是连续的、手术视频的病灶位置不会突然跳转。传统模型（包括基础 SAM-2）只处理单张图像，容易出现 "跨切片分割不一致"（比如第 10 张切出的肝脏和第 11 张的形态脱节），时序适配器就是为了让分割结果 "连贯、贴合解剖结构"。

置信驱动记忆机制

置信驱动记忆机制：给模型建一个 "高价值特征错题本"；模型训练时会搭建一个 "记忆库"，但不是什么特征都存，只选择性存储 "高置信度特征"------ 也就是分割结果准确、IoU 分数高、没有噪声干扰的特征（比如清晰的肝脏边界特征、明确的肿瘤掩码特征）。

存储阶段：训练时，模型会给每个分割结果打分（IoU 置信度），只有分数达标的特征才会被存入记忆库，低置信的噪声特征（比如成像伪影、标注误差导致的错误特征）直接过滤。
检索阶段：遇到新任务（比如之前学过肝脏分割，现在学肾脏分割）或新模态（比如之前处理 CT，现在处理 MRI）时，模型会从记忆库中检索 "和当前任务相似的高置信特征"，比如用肝脏分割的 "器官边界特征" 辅助肾脏边界分割，用 CT 的 "软组织特征" 适配 MRI 的同类特征。

医学图像分割的两大痛点：噪声 + 灾难性遗忘

应对大规模医学数据的 "噪声问题"

医学数据的噪声很常见：比如 CT 图像的扫描伪影、病理切片的染色不均、医生手动标注的边界误差（不同医生标注的病灶范围有差异）。

解决方案：置信驱动记忆机制只存 "高置信特征"，相当于自动过滤了噪声对应的低质量特征。模型后续推理时，用的是干净、可靠的 "优质记忆"，自然减少了噪声对分割结果的干扰 ------ 比如不会把扫描伪影误判为病灶，不会因为标注误差导致分割边界偏移。

缓解 "灾难性遗忘"（学新忘旧）

灾难性遗忘是 AI 的通病：比如模型先学了肝脏分割，再学肾脏分割时，会慢慢忘记肝脏分割的知识，导致后续再做肝脏分割时精度下降。

解决方案：记忆库会长期保留之前任务的 "高置信特征"（比如肝脏的边界、形态特征）。学新任务（肾脏分割）时，模型会检索记忆库，既用新数据学肾脏特征，又通过记忆库复习肝脏特征，避免旧知识被覆盖。而且新任务的高置信特征也会补充进记忆库，让记忆库越来越丰富，适配更多模态 / 任务。