[AAAI 2026] OFL-SAM2:通过在线少样本学习为SAM2提供提示

AAAI 2026 | 告别手动Prompt！OFL-SAM2：在线少样本学习破解医学分割"多目标干扰"难题

论文题目 ：OFL-SAM2: Prompt SAM2 with Online Few-shot Learner for Efficient Medical Image Segmentation
发表出处 ：AAAI 2026
作者机构 ：Meng Lan, Lefei Zhang, Xiaomeng Li (香港科技大学，武汉大学)
关键词：Medical Image Segmentation, Segment Anything Model 2 (SAM2), Few-shot Learning, Prompt-free

1. 🚀 省流版摘要 (TL;DR)

针对 SAM2 在医学图像分割（MIS）中严重依赖人工 Prompt 且容易受到相邻组织干扰的痛点，本文提出了一种全新的免提示（Prompt-free）框架 OFL-SAM2 。该方法通过引入一个在线少样本学习器（Online Few-shot Learner），利用极少量标注数据训练一个轻量级映射网络，为视频或 3D 序列的每一帧自动生成具有判别性的目标特征。结合自适应融合模块（AFM），该模型在仅冻结 SAM2 核心参数的情况下，在三个主流医学数据集上实现了极其优异的 SOTA 性能（例如仅用 3 个 CT Volume 训练就能大幅领先现有方法）。

2. 🧐 背景与痛点 (Motivation)

现有问题 ：SAM2 凭借强大的流式记忆机制在自然视频分割中大放异彩，但在医学图像分析中，由于自然图像与医学图像存在巨大的领域鸿沟（Domain Gap），其零样本（Zero-shot）表现差强人意。为了弥合这一鸿沟，现有方法通常需要海量标注数据进行微调，且处理每一帧时仍需要医学专家持续提供高质量的手动 Prompt，这在处理由连续 2D 切片组成的 3D 医学影像时，工作量简直让人绝望。
传统方法的局限：为了摆脱手动 Prompt，业内涌现了不少 Prompt-free 的 SAM 变体（如 H-SAM）。但它们要么无法兼容 SAM2 的时空记忆机制，要么在医学图像中极其模糊的边界前败下阵来。
本文的切入点 ：作者敏锐地发现，SAM2 在医学图像中表现不佳的核心原因在于：仅依赖像素级特征匹配的记忆注意力机制，极易被目标周围相似的干扰物（Distractors）带偏。既然手动 Prompt 能提供强有力的目标指引，那我们能不能用少样本学习在推理时**在线（Online）**生成一个"虚拟 Prompt"来锁死目标呢？OFL-SAM2 应运而生。

3. 💡 核心方法 (Methodology)

3.1 整体架构 (Overall Architecture)

$插图占位：论文中的 Figure 2 或 OFL-SAM2 整体架构图，展示 Online 和 Offline 双分支结构$

OFL-SAM2 的精妙之处在于它保留了 SAM2 强大的预训练权重（全部冻结），并在其基础上构建了双分支结构：

离线分支（Offline Branch） ：直接复用 SAM2 的记忆注意力模块（Memory Attention），提取时空上下文特征 E1E_{1}E1。
在线分支（Online Branch） ：引入全新的映射网络（Mapping Network），将图像编码器提取的通用特征转化为特定目标的特征 E2E_{2}E2。

3.2 关键模块详解 (Key Modules)

模块 A：在线少样本学习器 (Online Few-shot Learner)

这是一个能在推理阶段实时进化的模块！在训练阶段，它利用有限的标注样本（比如仅仅 2-3 个病人的 3D 扫描）通过最小化平方误差来优化一个极其轻量（仅一层卷积）的映射网络 TτT_{\tau}Tτ。其数学优化目标为：

L(τ)=12∑∣∣Tτ(FSi)−MSi∣∣2+λ2∣∣τ∣∣2L(\tau)=\frac{1}{2}\sum||T_{\tau}(F_{S_{i}})-M_{S_{i}}||^{2}+\frac{\lambda}{2}||\tau||^{2}L(τ)=21∑∣∣Tτ(FSi)−MSi∣∣2+2λ∣∣τ∣∣2

这个网络就像一个经验丰富的医生，能把通用的图像特征 FSiF_{S_{i}}FSi 直接"翻译"成聚焦病灶的目标特征。在推理时，它还会利用高质量的预测结果进行在线参数更新，让模型在面对从未见过的新鲜序列时也能保持极强的泛化能力。
模块 B：自适应融合模块 (Adaptive Fusion Module, AFM)

既然有了原生的记忆特征 E1E_{1}E1 和新生成的"虚拟 Prompt"特征 E2E_{2}E2，如何将它们完美结合输入给冻结的解码器？AFM 利用一个由 3×33\times33×3 卷积和 Sigmoid 激活函数组成的权重网络，动态计算出一个像素级的权重图 WWW。

W=Gθ([E1,E2])W=G_{\theta}([E_{1},E_{2}])W=Gθ([E1,E2])
Etar=W⊙E1+(1−W)⊙E2E_{tar}=W\odot E_{1}+(1-W)\odot E_{2}Etar=W⊙E1+(1−W)⊙E2

这种特征重标定（Feature Recalibration）机制能够智能地平衡两个分支的贡献，强力镇压背景中那些长得像肿瘤的"干扰物"（Distractors），生成最纯粹的目标特征 EtarE_{tar}Etar。
策略 C：质量感知更新策略 (Quality-aware Update Strategy)

为了防止在线学习时被错误的预测"带进沟里"，作者设计了一个置信度打分机制 Scf\mathcal{S}_{cf}Scf。只有当预测的置信度大于阈值（如 γ=0.8\gamma=0.8γ=0.8）时，该帧的特征才会被送入记忆库（Memory Bank）并用于更新映射网络。

4. 📊 实验与结果 (Experiments)

数据集：涵盖了三种截然不同的模态：Synapse-CT（多器官分割）、PROMISE12（前列腺 MRI）以及 Autolaparo（腹腔镜手术视频分割）。
对比实验 ：笔者注意到，OFL-SAM2 在极端缺乏数据的情况下依然把对手按在地上摩擦。在 Synapse-CT 上，仅使用 3 个 Volume 的数据进行训练 ，OFL-SAM2 就斩获了 82.52% 的平均 Dice 分数，比使用相同数据的 FATE-SAM2（也是基于 SAM2 的方法）足足高了 6.14%！

$插图占位：论文中的 Table 1 性能对比表格及 Figure 3 可视化效果图$

消融实验 (Ablation Study)：少样本学习器和 AFM 模块堪称"黄金搭档"。在 Synapse 数据集上，如果不加这两个模块，原始架构只有 74.74% 的 Dice；单独加上少样本学习器能飙升到 78.96%；两者结合则直接登顶 82.52%。
可视化展示：从原论文的对比图可以清晰地看到，当目标组织（如细小的血管或边界模糊的器官）附近出现外观极其相似的干扰组织时，H-SAM 往往会发生误判，而 OFL-SAM2 依靠在线生成的判别性特征，能够像手术刀一样精准剥离干扰。

5. 🧠 笔者思考与总结 (Conclusion & Thoughts)

对于各位目前正在冲刺顶会或者死磕少样本学习（Few-shot Learning）前沿方向的同行来说，这篇文章无疑提供了一个极其优雅的破局思路。

优点总结：这篇文章最大的亮点在于其"四两拨千斤"的设计哲学。它没有选择暴力微调 SAM2 庞大的主干网络，而是创新性地引入了一个仅包含单层卷积的在线少样本学习器。这种"在线更新（Online Update）"策略完美地替代了繁琐的手动 Prompt，既保留了 SAM2 强大的时空连贯性，又彻底解决了医学图像中让人头疼的干扰物（Distractor）问题。
潜在局限：尽管作者强调新增的映射网络和融合模块非常轻量，但在临床推理阶段引入帧级别的"在线梯度更新"，势必会对推理的实时性（FPS）提出一定挑战，这在处理高帧率的手术视频（如 Autolaparo 数据集）时可能会成为落地的工程瓶颈。
未来展望：这种"利用在线微型网络将通用特征转化为特定 Prompt"的思想，其实不仅局限于 SAM2 或医学图像。在任何存在明显 Domain Gap 且标注成本高昂的密集预测任务中（比如工业缺陷检测、遥感图像分析），这种基于 Online Few-shot Learner 的自适应范式都具有巨大的启发意义。

(本文由AI辅助解读，仅供参考，详细内容请查阅原论文)