AAAI 2025 | DuSSS:基于双语义相似性监督的半监督医学图像分割

AAAI 2026 | DuSSS:基于双语义相似性监督的半监督医学图像分割

文章目录

  • [1 论文信息](#1 论文信息)
  • [2 论文主要贡献](#2 论文主要贡献)
  • [3 论文创新点](#3 论文创新点)
  • [4 方法](#4 方法)
    • [4.1 整体框架](#4.1 整体框架)
    • [4.2 语义相似性监督策略 (SSS)](#4.2 语义相似性监督策略 (SSS))
    • [4.3 双对比学习预训练 (DCL)](#4.3 双对比学习预训练 (DCL))
      • [4.3.1 跨模态对比学习 (CMC)](#4.3.1 跨模态对比学习 (CMC))
      • [4.3.2 模态内对比学习 (IMC)](#4.3.2 模态内对比学习 (IMC))
    • [4.4 文本引导的半监督分割网络](#4.4 文本引导的半监督分割网络)
      • [4.4.1 文本引导伪标签生成](#4.4.1 文本引导伪标签生成)
      • [4.4.2 师生网络伪标签生成](#4.4.2 师生网络伪标签生成)
      • [4.4.3 联合损失函数](#4.4.3 联合损失函数)
  • [5 实验分析](#5 实验分析)
    • [5.1 对比实验](#5.1 对比实验)
    • [5.2 消融实验](#5.2 消融实验)
    • 5.3可视化
  • [6 个人声明](#6 个人声明)

1 论文信息

论文题目:DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation

论文作者:Qingtao Pan, Wenhao Qiao, Jingjiao Lou, Bing Ji, Shuo Li

发表单位:山东大学、凯斯西储大学

发表会议期刊:AAAI 2026

代码链接:https://github.com/QingtaoPan/DuSSS/

2 论文主要贡献

针对半监督医学图像分割中传统方法伪标签质量低、以及现有视觉语言模型 (VLM) 跨模态对齐存在不确定性的核心问题,首次将 VLM 引入半监督医学图像分割领域,提出了双语义相似性监督的视觉语言模型 DuSSS。通过设计语义相似性监督策略 ,基于分布不确定性动态调节语义相似度,有效解决了跨模态一对多对应问题;同时构建了双对比学习 (DCL) 机制,同时进行跨模态和模态内对比学习,增强了跨模态语义一致性和模态内表示能力。基于预训练的 DuSSS,本文进一步设计了文本引导的半监督分割网络,利用文本提示生成高质量的文本引导掩码,与传统伪标签融合后监督模型训练。在 QaTa-COV19、BM-Seg 和 MoNuSeg 三个公共医学图像分割数据集上的实验表明,DuSSS 全面超越了当前的最优方法,在 50% 标注数据设置下分别取得了 82.52%、74.61% 和 78.03% 的 Dice 系数,验证了方法的有效性和泛化能力。

3 论文创新点

  1. 提出 VLM 驱动的半监督医学图像分割框架,利用文本提示的语义信息引导伪标签生成,从根本上解决了传统单模态半监督方法伪标签质量低、易误导训练的问题。
  2. 提出语义相似性监督策略 (SSS),将语义嵌入建模为多元高斯分布,通过 2-Wasserstein 距离量化不确定性水平,动态调节语义相似度计算,有效缓解了跨模态一对多对应带来的对齐不确定性
  3. 设计双对比学习 (DCL) 机制,同时执行跨模态图像 - 文本对比和模态内图像 - 图像、文本 - 文本对比,既增强了跨模态语义关联,又捕捉了模态内的固有表示关系,提升了 VLM 的表示能力。

4 方法

4.1 整体框架

DuSSS 的整体框架如图所示,分为两个核心阶段:**VLM 预训练阶段和文本引导的半监督分割阶段。**在第一阶段,输入成对的医学图像和文本描述,通过双对比学习 (DCL) 进行预训练,同时将语义相似性监督 (SSS) 注入到每个对比学习过程中,学习具有不确定性感知能力的跨模态表示。在第二阶段,利用预训练好的 VLM 生成文本引导掩码,同时采用师生网络架构生成传统伪标签,将两者融合得到高质量的合并伪标签,用于监督学生分割模型的训练。整个框架实现了文本语义信息与视觉信息的深度融合,显著提升了半监督医学图像分割的性能。

4.2 语义相似性监督策略 (SSS)

语义相似性监督策略 是解决跨模态对齐不确定性的核心,其核心思想是基于分布不确定性动态调节语义相似度的计算。将图像和文本的 token 语义嵌入建模为多元高斯分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),其中均值向量 μ \mu μ表示分布中心,方差向量 σ 2 \sigma^2 σ2表示分布范围。使用 2-Wasserstein 距离计算两个分布之间的差异,作为不确定性水平:
D 2 W = ∥ μ 1 − μ 2 ∥ 2 2 + ∥ σ 1 − σ 2 ∥ 2 2 D_{2W} = \left\| \mu_1 - \mu_2 \right\|_2^2 + \left\| \sigma_1 - \sigma_2 \right\|_2^2 D2W=∥μ1−μ2∥22+∥σ1−σ2∥22

基于 2-Wasserstein 距离,定义成对数据 ( x 1 , x 2 ) (x_1, x_2) (x1,x2) 之间的不确定性水平:
D u ( x 1 , x 2 ) = a ⋅ D 2 W ( x 1 [ C L S ] , x 2 [ C L S ] ) + b D_u(x_1, x_2) = a \cdot D_{2W}(x_{1[CLS]}, x_{2[CLS]}) + b Du(x1,x2)=a⋅D2W(x1[CLS],x2[CLS])+b

其中 a 和 b 为可学习的缩放和偏移参数。

为了平衡不确定性和语义相似度,定义相对不确定性为不确定性水平与语义相似度的比值:
D ^ u ( x 1 , x 2 ) = D u ( x 1 , x 2 ) D s ( x 1 , x 2 ) \hat{D}_u(x_1, x_2) = \frac{D_u(x_1, x_2)}{D_s(x_1, x_2)} D^u(x1,x2)=Ds(x1,x2)Du(x1,x2)
D s ( x 1 , x 2 ) = ∥ s 1 − s 2 ∥ 2 D_s(x_1, x_2) = \left\| s_1 - s_2 \right\|2 Ds(x1,x2)=∥s1−s2∥2为语义嵌入之间的欧氏距离。最终的语义相似性监督项定义为:
D S S S ( x 1 , x 2 ) = e − λ D ^ u ( x 1 , x 2 ) D
{SSS}(x_1, x_2) = e^{-\lambda \hat{D}_u(x_1, x_2)} DSSS(x1,x2)=e−λD^u(x1,x2)
λ \lambda λ 为约束强度参数。该策略使得对于不确定性高的样本对,会适当降低其相似度约束强度,避免错误的对齐监督。

4.3 双对比学习预训练 (DCL)

双对比学习机制同时进行跨模态对比学习 (CMC) 和模态内对比学习 (IMC),全面提升 VLM 的表示能力。在每个对比学习过程中,都注入上述的语义相似性监督策略,对原始的余弦相似度进行修正:
s i m ^ ( I , T ) = 1 − ( 1 − s i m ( I , T ) ) ⋅ D S S S ( I , T ) \hat{sim}(I, T) = 1 - (1 - sim(I, T)) \cdot D_{SSS}(I, T) sim^(I,T)=1−(1−sim(I,T))⋅DSSS(I,T)

4.3.1 跨模态对比学习 (CMC)

跨模态对比学习旨在学习图像和文本之间的语义对应关系,将匹配的图像 - 文本对拉近,不匹配的对推远。基于修正后的余弦相似度,图像到文本的 InfoNCE 损失定义为:
L n c e I 2 T = − E ( I , T ) [ l o g e x p ( s i m ^ ( I 1 , T + ) / τ ) ∑ n = 1 N e x p ( s i m ^ ( I 1 , T ^ n ) / τ ) ] \mathcal{L}{nce}^{I2T} = -\mathbb{E}{(I, T)}\left[ log \frac{exp\left( \hat{sim}(I_1, T_+) / \tau \right)}{\sum_{n=1}^{N} exp\left( \hat{sim}(I_1, \hat{T}_n) / \tau \right)} \right] LnceI2T=−E(I,T) log∑n=1Nexp(sim^(I1,T^n)/τ)exp(sim^(I1,T+)/τ)

同理,文本到图像的 InfoNCE 损失为:
L n c e T 2 I = − E ( T , I ) [ l o g e x p ( s i m ^ ( T 1 , I + ) / τ ) ∑ n = 1 N e x p ( s i m ^ ( T 1 , I ^ n ) / τ ) ] \mathcal{L}{nce}^{T2I} = -\mathbb{E}{(T, I)}\left[ log \frac{exp\left( \hat{sim}(T_1, I_+) / \tau \right)}{\sum_{n=1}^{N} exp\left( \hat{sim}(T_1, \hat{I}_n) / \tau \right)} \right] LnceT2I=−E(T,I) log∑n=1Nexp(sim^(T1,I^n)/τ)exp(sim^(T1,I+)/τ)

最终的跨模态损失为两者的平均值:
L c m c = 1 2 [ L n c e I 2 T + L n c e T 2 I ] \mathcal{L}{cmc} = \frac{1}{2} \left[ \mathcal{L}{nce}^{I2T} + \mathcal{L}_{nce}^{T2I} \right] Lcmc=21[LnceI2T+LnceT2I]

4.3.2 模态内对比学习 (IMC)

模态内对比学习旨在捕捉同一模态内不同样本之间的语义关联,进一步增强表示的判别性。对于图像模态,对同一图像的不同增强视图进行对比;对于文本模态,对同一文本的不同表述进行对比。模态内对比损失定义为:
L i m c = 1 2 [ L n c e I 2 I + L n c e T 2 T ] \mathcal{L}{imc} = \frac{1}{2} \left[ \mathcal{L}{nce}^{I2I} + \mathcal{L}_{nce}^{T2T} \right] Limc=21[LnceI2I+LnceT2T]

其中 L n c e I 2 I \mathcal{L}{nce}^{I2I} LnceI2I 和 L n c e T 2 T \mathcal{L}{nce}^{T2T} LnceT2T 的计算方式与跨模态损失类似,同样使用修正后的余弦相似度。

4.4 文本引导的半监督分割网络

基于预训练的 DuSSS,本文设计了文本引导的半监督分割网络,通过融合文本引导掩码和传统伪标签,提升监督信号的质量。

4.4.1 文本引导伪标签生成

利用预训练 VLM 的图像编码器提取图像的 patch 级特征 v f p a t c h v_f^{patch} vfpatch,通过接地解码器 f g ( ⋅ ) f_g(\cdot) fg(⋅) 上采样为像素级特征 v f v_f vf;同时利用文本编码器提取目标类别的文本特征 t f t_f tf。文本引导掩码通过像素级特征与文本特征的点积计算得到:
v f = f g ( v f p a t c h ) , y u t e x t = σ ( t f ⊤ v f ) v_f = f_g(v_f^{patch}), \quad y_u^{text} = \sigma(t_f^\top v_f) vf=fg(vfpatch),yutext=σ(tf⊤vf)

其中 σ \sigma σ为 Sigmoid 函数。为了抑制无关文本区域的干扰,设计了文本引导损失 (\mathcal{L}{tg}),进一步优化跨模态对齐:
L t g ( v f t , t f ) = − 1 2 E ( f , t ) [ l o g e x p ( s i m ( v f t , t f ) / τ ) ∑ k = 1 K e x p ( s i m ( v f t , t ^ f k ) / τ ) ] − 1 2 E ( t , f ) [ l o g e x p ( s i m ( t f , v f t ) / τ ) ∑ k = 1 K e x p ( s i m ( t f , v ^ f k t ) / τ ) ] \begin{aligned} \mathcal{L}
{tg}(v_f^t, t_f) = & -\frac{1}{2} \mathbb{E}{(f, t)}\left[ log \frac{exp\left( sim(v_f^t, t_f) / \tau \right)}{\sum{k=1}^{K} exp\left( sim(v_f^t, \hat{t}{f_k}) / \tau \right)} \right] \\ & -\frac{1}{2} \mathbb{E}{(t, f)}\left[ log \frac{exp\left( sim(t_f, v_f^t) / \tau \right)}{\sum_{k=1}^{K} exp\left( sim(t_f, \hat{v}_{f_k}^t) / \tau \right)} \right] \end{aligned} Ltg(vft,tf)=−21E(f,t) log∑k=1Kexp(sim(vft,t^fk)/τ)exp(sim(vft,tf)/τ) −21E(t,f) log∑k=1Kexp(sim(tf,v^fkt)/τ)exp(sim(tf,vft)/τ)

4.4.2 师生网络伪标签生成

采用经典的 Mean-Teacher 架构,学生模型 (f_{\theta_s}) 和教师模型 (f_{\theta_t}) 具有相同的架构。教师模型的参数通过学生模型参数的指数移动平均 (EMA) 更新:
θ t = α θ t + ( 1 − α ) θ s \theta_t = \alpha \theta_t + (1 - \alpha) \theta_s θt=αθt+(1−α)θs
α \alpha α为 EMA 衰减系数。教师模型对未标注图像生成传统伪标签 y u t e x t y_u^{text} yutext。

4.4.3 联合损失函数

将文本引导掩码 y u t e x t y_u^{text} yutext和教师模型伪标签 y u t y_u^t yut融合得到合并伪标签,用于监督学生模型的训练。总损失由监督损失和半监督损失组成:
L t o t a l = L s u p + L s e m i \mathcal{L}{total} = \mathcal{L}{sup} + \mathcal{L}_{semi} Ltotal=Lsup+Lsemi

监督损失计算标注图像的预测与真实标签之间的交叉熵损失,半监督损失由合并伪标签损失和文本引导损失两部分组成:
L s e m i m e r g e d = − 1 N u 1 H W ∑ i = 1 N u ∑ j = 1 H W ℓ c e ( y u i , j s , σ ( y u i , j t + y u i , j t e x t ) ) \mathcal{L}{semi}^{merged} = -\frac{1}{N_u} \frac{1}{HW} \sum{i=1}^{N_u} \sum_{j=1}^{HW} \ell_{ce}\left( y_{u_{i,j}}^s, \sigma(y_{u_{i,j}}^t + y_{u_{i,j}}^{text}) \right) Lsemimerged=−Nu1HW1i=1∑Nuj=1∑HWℓce(yui,js,σ(yui,jt+yui,jtext))
L s e m i t e x t = − 1 N u 1 H W ∑ i = 1 N u ∑ j = 1 H W ℓ c e ( y u i , j s , y u i , j t e x t ) \mathcal{L}{semi}^{text} = -\frac{1}{N_u} \frac{1}{HW} \sum{i=1}^{N_u} \sum_{j=1}^{HW} \ell_{ce}\left( y_{u_{i,j}}^s, y_{u_{i,j}}^{text} \right) Lsemitext=−Nu1HW1i=1∑Nuj=1∑HWℓce(yui,js,yui,jtext)

L s e m i = 1 2 ( L s e m i m e r g e d + L s e m i t e x t ) \mathcal{L}{semi} = \frac{1}{2} \left( \mathcal{L}{semi}^{merged} + \mathcal{L}_{semi}^{text} \right) Lsemi=21(Lsemimerged+Lsemitext)

5 实验分析

5.1 对比实验

实验在 25% 和 50% 两种标注比例下,与 13 种主流方法进行对比。低标注比例下 DuSSS 优势显著,在所有数据集上均超越传统单模态半监督方法和其他 VLM 方法,且参数量 (14.75M) 和计算量 (25.19G) 与 U-Net 相当,远低于 CLIP、ViLT 等大型 VLM。高标注比例下 DuSSS 依然保持领先,在 50% 标注数据下进一步拉开差距,在 QaTa-COV19、BM-Seg 和 MoNuSeg 数据集上分别比之前的最优方法 MGCA 提升 1.28%、0.44% 和 0.97% 的 Dice。文本引导的效果尤为突出,DuSSS 在 25% 标注下的性能甚至超过了 U-Net、CLIP 等方法在 100% 标注下的性能,充分证明了利用文本语义信息提升半监督医学图像分割的有效性。

5.2 消融实验

实验在 50% 标注数据设置下验证三个核心模块的有效性。语义相似性监督 (SSS) 贡献最大,单独引入可使 QaTa-COV19 数据集 Dice 提升 1.22%,验证了其解决跨模态对齐不确定性的核心作用。双对比学习 (DCL) 和文本引导损失分别带来 0.49% 和 0.63% 的 Dice 提升,前者增强了模态内和跨模态的语义关联,后者优化了文本引导掩码的质量。三个模块结合时产生显著协同效应,最终在三个数据集上分别达到 82.52%、76.41% 和 78.03% 的 Dice,相比基线提升 2.88%-4.10%,证明了整体架构设计的合理性。

5.3可视化

6 个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本文立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

相关推荐
配奇2 小时前
transformers迁移学习
人工智能·机器学习·迁移学习
NashSKY2 小时前
关于支持向量机(SVM)的数学原理、参数拟合、嵌入式部署的完整指南
c++·python·机器学习·支持向量机
STLearner3 小时前
CVPR 2026 | 时空时序论文总结(天气预报,交通模拟,域自适应等)
论文阅读·人工智能·深度学习·神经网络·机器学习·计算机视觉·数据挖掘
Σίσυφος19004 小时前
正则化数据并校准数据
人工智能·算法·机器学习
CCC:CarCrazeCurator4 小时前
【DriveGen 文件详解】02——train.py
人工智能·机器学习·自动驾驶
哥布林学者4 小时前
深度学习进阶(二十三)偏置型 RPE
机器学习·ai
csdn小瓯5 小时前
DAG工作流编排引擎:拓扑排序与并行调度的实战实现
机器学习·langchain
生成论实验室5 小时前
WOLM认知引擎:为系统赋予“知止”的生命本能——一套确定性、内生安全的通用认知决策内核
人工智能·算法·机器学习·自动驾驶·安全架构
白日做梦Q6 小时前
Miniconda 新手保姆级教程:从安装到熟练使用(全程无跳步,避坑指南附全)
人工智能·深度学习·算法·机器学习