Work【2】：PGP-SAM —— 无需额外提示的自动化 SAM！

文章目录

前言
Abstract
Introduction
Methods
- [Contextual Feature Modulation](#Contextual Feature Modulation)
- [Progressive Prototype Refinement](#Progressive Prototype Refinement)
- [Prototype-based Prompt Generator](#Prototype-based Prompt Generator)
Experiment
- Datasets
- [Implementation Details](#Implementation Details)
- [Results and Analysis](#Results and Analysis)
- [Ablation Study](#Ablation Study)
总结

前言

和大家分享一下我们发表在 ISBI 2025 上的论文：PGP-SAM: Prototype-Guided Prompt Learning for Efficient Few-Shot Medical Image Segmentation。

欢迎大家在 arxiv 上阅读：
PGP-SAM: Prototype-Guided Prompt Learning for Efficient Few-Shot Medical Image Segmentation

代码已经开源！！！期待您的 Star！！！
PGP-SAM

Abstract

Segment Anything Model (SAM) 展现了强大且多功能的图像分割能力，并支持直观的提示交互。然而，将SAM定制应用于医学图像分割需要大量像素级标注和精确的点/框提示设计。为解决这些挑战，我们提出了 PGP-SAM ------一种基于原型的新型少样本调优方法，通过有限样本替代繁琐的手动提示设计。核心思想是利用类间和类内原型捕获类别特异性知识与关联关系。我们提出两个关键组件：(1) 即插即用的上下文调制模块，用于融合多尺度信息；(2) 类别引导的交叉注意力机制，通过原型与特征融合实现自动提示生成。在公开多器官数据集和私有脑室数据集上的实验表明，PGP-SAM 仅使用 10% 的 2D 切片即可超越现有无提示 SAM 变体的平均 Dice 分数。

Introduction

医学图像分割旨在实现对特定感兴趣区域（如组织、器官）的精准识别与轮廓勾画，为医生提供可靠的诊断依据和有效的治疗规划[1,2]。然而，实现精确分割通常需要大量标注数据，其收集与标注过程需要耗费大量时间、专业知识和资源。

分割一切模型（Segment Anything Model, SAM）凭借强大的分割能力和用户友好的提示交互机制，为图像分割领域带来了重大突破。然而，其在零样本医学图像分割中的表现被多项研究证实存在不足，这促使研究者探索如何有效适配SAM至医学领域。当前主流方法侧重于通过微调SAM的图像编码器来提升医学图像分割性能，同时保留其交互特性。这些方法在测试阶段常依赖真实标注数据生成提示。此外，针对SAM的无提示微调方法开始涌现，但这类方法对医学知识的利用尚不充分。尽管取得了显著进展，现有工作仍面临两大挑战：

(1) 由于自然图像与医学图像存在显著领域差异，全参数或编码器重点微调需要大量标注医学数据；
(2) SAM对输入点/框提示具有高度敏感性，即使提示存在细微偏差也会显著影响结果，这要求在训练和测试阶段必须设计精确的提示。

为应对这些挑战，H-SAM 采用两阶段分层掩码解码器并冻结图像编码器，该策略仅需 10% 的可用样本即可快速整合医学知识。然而，由于可学习参数量较大，H-SAM在有限数据下仍难以有效学习类别特异性信息。

基于上述少样本设定，我们提出 PGP-SAM（原型引导提示学习 SAM），旨在通过原型学习快速迁移类别特异性知识及器官关联关系。PGP-SAM包含两组原型：类内原型（intra-class prototypes）与类间原型（inter-class prototypes），分别学习 CT 图像中器官的类别特异性表征知识和共享知识。这些原型通过梯度反向传播在训练过程中更新。PGP-SAM 包含两个核心模块：(1) 上下文特征精炼模块（Contextual Feature Refinement），通过通道与空间维度的上下文融合使特征聚焦于感兴趣区域；(2) 渐进式原型优化模块（Progressive Prototype Refinement），通过将每个类内原型与最相似的类间原型匹配，并与图像特征、类别特征交互，最终生成增强型原型以产生精确提示。借助原型机制，我们能够从少量数据中学习核心特征。本方法在公开数据集和私有数据集上均取得优异结果，同时仅引入极少量额外参数。

总结而言，我们的主要贡献包括：

提出高效的上下文融合机制，帮助模型更好地学习全局信息
设计基于原型的提示编码器，无需额外知识即可为SAM提供精确提示
在公开与私有数据集上均达到最先进性能

Methods

本节通过微调 SAM 的图像编码器介绍 PGP-SAM 模型。该模型包含多尺度原型引导提示生成器和共享权重的掩码解码器，整体架构如下图所示。

Contextual Feature Modulation

图像编码器提取的特征通常包含丰富的空间细节，但缺乏全局语义理解。受前人工作[15]启发，我们提出上下文特征调制机制(Contextual Feature Modulation, CFM)，在空间和通道维度将全局语义信息注入多尺度特征。

给定每个阶段输入特征 F i ∈ R H × W × C F_{i}\in \mathbb{R}^{H\times W\times C} Fi∈RH×W×C（其中 i ∈ { 1 , 2 } i\in\{1,2\} i∈{1,2}），我们分别在空间和通道维度进行增强。此处采用第一和第四图像块[16]后的特征。在空间维度，通过对高度和宽度方向进行平均池化并求和得到 F s ∈ R H × W × C F_{s}\in \mathbb{R}^{H\times W\times C} Fs∈RH×W×C，进而计算空间特征调制矩阵 F i s ∈ R H × W × C F_{i}^{s}\in \mathbb{R}^{H\times W\times C} Fis∈RH×W×C：

F i s = F i ⊙ δ ( φ k × 1 ( ϕ ( φ 1 × k ( F s ) ) ) ) ( 1 ) F_{i}^{s}=F_{i}\odot\delta(\varphi_{k\times 1}(\phi(\varphi_{1\times k}(F_{s})))) \qquad(1) Fis=Fi⊙δ(φk×1(ϕ(φ1×k(Fs))))(1)

其中 φ \varphi φ 表示条带卷积， k k k 为卷积核尺寸， ϕ \phi ϕ 表示层归一化与ReLU激活， δ \delta δ 为Sigmoid函数。类似地，通道维度通过平均池化得到 F c ∈ R 1 × 1 × C F_{c}\in \mathbb{R}^{1\times 1\times C} Fc∈R1×1×C，计算通道特征调制矩阵 F i c ∈ R H × W × C F_{i}^{c}\in \mathbb{R}^{H\times W\times C} Fic∈RH×W×C：

F i c = F i ⊙ δ ( φ 1 × 1 ( ϕ ( φ 1 × 1 ( F c ) ) ) ) ( 2 ) F_{i}^{c}=F_{i}\odot\delta(\varphi_{1\times 1}(\phi(\varphi_{1\times 1}(F_{c})))) \qquad(2) Fic=Fi⊙δ(φ1×1(ϕ(φ1×1(Fc))))(2)

最终将空间调制特征 F i s F_{i}^{s} Fis 和通道调制特征 F i c F_{i}^{c} Fic 与原始特征 F i F_{i} Fi 相加，得到上下文增强特征 F ~ i \tilde{F}_{i} F~i。通过水平和垂直轴的全局池化，CFM捕获轴向上下文信息，使网络聚焦于前景区域，辅助后续原型学习识别最相关的类别特征。

SAM 的性能依赖于精确提示，微小偏差即影响分割结果[1,13]。为此，我们引入两组原型：

类内原型 P intra ∈ R N × C P_{\text{intra}}\in \mathbb{R}^{N\times C} Pintra∈RN×C（ N N N为类别数）
类间原型 P inter ∈ R Q × C P_{\text{inter}}\in \mathbb{R}^{Q\times C} Pinter∈RQ×C（ Q = α × N Q=\alpha\times N Q=α×N, α = 8 \alpha=8 α=8）

Step 1: 原型匹配

计算 P intra P_{\text{intra}} Pintra 与 P inter P_{\text{inter}} Pinter 的余弦相似度，为每个类内原型选取top-k最相似的类间原型，拼接形成增强原型 P ^ ∈ R Q × C \hat{P}\in \mathbb{R}^{Q\times C} P^∈RQ×C（ Q = N × ( k + 1 ) Q=N\times(k+1) Q=N×(k+1)）。

Step 2: 双路径交叉注意力

设计类别引导双路径交叉注意力 ，融合图像特征 F I ∈ R H × W × C F_{I}\in \mathbb{R}^{H\times W\times C} FI∈RH×W×C 与类别特征 F M ∈ R H × W × N F_{M}\in \mathbb{R}^{H\times W\times N} FM∈RH×W×N：

类别注意力权重 W c W_{c} Wc 计算：
F Θ ′ ′ = ζ ( reshape ( φ ( F Θ ) ) ) , Θ ∈ { I , M } ( 3 ) F_{\Theta}^{\prime\prime}=\zeta\left(\text{reshape}\left(\varphi\left(F_{\Theta}\right)\right)\right),\ \Theta\in\{I,M\} \qquad(3) FΘ′′=ζ(reshape(φ(FΘ))), Θ∈{I,M}(3)
W c = softmax ( φ ( F I ′ ′ ⊗ F M ′ ′ ) ) ( 4 ) W_c=\text{softmax}\left(\varphi\left(F_I^{\prime\prime} \otimes F_M^{\prime\prime}\right)\right) \qquad(4) Wc=softmax(φ(FI′′⊗FM′′))(4)
查询生成：
W q = softmax ( P ^ F ^ T ) P ^ ′ = ( α ⋅ W c + β ⋅ W q ) ⊙ F ^ ( 5 ) \begin{align*} W_{q}&=\text{softmax}(\hat{P}\hat{F}^{T}) \\ \hat{P}^{\prime}&=(\alpha\cdot W_{c}+\beta\cdot W_{q})\odot\hat{F} \end{align*} \qquad(5) WqP^′=softmax(P^F^T)=(α⋅Wc+β⋅Wq)⊙F^(5)
其中 F ^ \hat{F} F^ 为 F I F_I FI 与 F M F_M FM 融合后的特征。

Step 3: 原型更新

将 P ^ ′ \hat{P}^{\prime} P^′ 重塑为 N × ( k + 1 ) × C N\times(k+1)\times C N×(k+1)×C，分离得到更新后的类内原型 P ^ intra \hat{P}{\text{intra}} P^intra 和类间原型 P ^ inter \hat{P}{\text{inter}} P^inter，通过索引匹配更新原始原型库。

Prototype-based Prompt Generator

为避免信息混淆，我们为密集提示和稀疏提示设计独立生成路径：

密集提示生成

通过类间原型与查询交互生成：
D = MLP ( softmax ( F I ⋅ P ^ inter T ) ⋅ P ^ inter ) ( 6 ) D=\text{MLP}(\text{softmax}(F_{I}\cdot\hat{P}{\text{inter}}^{T})\cdot\hat{P}{\text{inter}}) \qquad(6) D=MLP(softmax(FI⋅P^interT)⋅P^inter)(6)

其中MLP包含两个点卷积层与GELU激活函数。

稀疏提示生成

通过类内原型与特征交互生成：
S = MLP ( softmax ( P ^ intra T ⋅ F I ) ⋅ F I ) ( 7 ) S=\text{MLP}(\text{softmax}(\hat{P}{\text{intra}}^{T}\cdot F{I})\cdot F_{I}) \qquad(7) S=MLP(softmax(P^intraT⋅FI)⋅FI)(7)

双路径设计使提示生成过程既能捕获局部细节（密集提示），又能保持类别区分度（稀疏提示）。

Experiment

本节通过在两个分割任务上的实验评估 PGP-SAM 的性能，与现有 SAM 变体进行对比，并通过消融实验分析模块贡献。

Datasets

我们在公开的 Synapse 多器官 CT 数据集和私有脑室 CT 数据集上进行多器官分割实验：

Synapse数据集：包含18个训练案例和12个测试案例，每个案例约含70个有效切片
脑室数据集：包含400个训练案例和100个测试案例，每个案例约含10个有效切片

所有数据在少样本训练中均调整为 512×512 分辨率。

Implementation Details

所有模型在单张 RTX 3090 GPU 上训练，采用数据增强策略（弹性形变、旋转、缩放）。损失函数为交叉熵损失与 Dice 损失的加权组合。我们使用 LoRA 配置（rank=4）对 ViT-b 模型进行微调，优化器选择 AdamW（初始学习率 3e-4，权重衰减 1e-4），训练 50 个 epoch，批量大小为 8。

Results and Analysis

表1和表2分别展示了在Synapse和脑室数据集上的定量结果（Dice系数%）：

关键结论：

PGP-SAM 在两类数据集上均取得最优 Dice 系数（Synapse: 78.75% vs 73.91%；脑室: 76.39% vs 73.36%）
对复杂器官（如胰腺、第三脑室）提升显著（Synapse 胰腺提升 11.29%，脑室第三脑室提升 3.23%）

Ablation Study

总结

本文提出了一种基于原型引导的高效少样本医学图像分割方法PGP-SAM。通过设计上下文特征调制模块（CFM）和渐进式原型优化机制（PPR），我们实现了以下突破：

高效上下文融合：CFM模块通过空间-通道双路径调制，使模型在有限数据下有效捕获全局语义信息，相比基线模型（71.92% Dice）提升6.83%。
精准提示生成：通过类内/类间原型交互，自动生成的密集与稀疏提示在Synapse和脑室数据集上分别达到78.75%和76.39% Dice，显著优于SAMed（73.91%/73.36%）。
低参数量适配：仅需微调0.8M参数（占SAM总参数0.6%），即实现跨数据集的稳定性能提升。

实验结果表明，PGP-SAM在复杂解剖结构（如胰腺、第三脑室）的分割任务中展现出更强的鲁棒性。未来工作将探索：

三维体积数据中的原型传递机制；
多模态医学图像的原型统一表示学习。