医学生图像分割的测试时生成增强方法文献速递-医疗影像分割与目标检测最新技术

2025.12.26

这篇文章发表于《Medical Image Analysis》期刊(2026 年第 109 卷),由南京理工大学、帝国理工学院等机构学者联合撰写,聚焦医学图像分割的测试时增强优化,提出一种基于生成模型的测试时生成增强方法 TTGA。

Title 题目

01

Test-time generative augmentation for medical image segmentation

医学生图像分割的测试时生成增强方法

文献速递介绍

02

医学图像分割在临床决策中扮演关键角色,但当前分割模型易受遮挡、模糊边界和成像设备差异等固有不确定性影响,导致精度下降和鲁棒性不足。现有测试时适应(TTMA)、测试时Dropout(TTD)和传统测试时增强(TTA)方法各有局限,例如TTMA难以量化不确定性,TTD随机性可能损害精度,TTA依赖预设变换缺乏适应性。为解决这些限制,本研究引入了测试时生成增强(TTGA),一种利用领域微调生成模型在推理时生成多样化、上下文相关增强的新策略,旨在提升分割精度和不确定性估计,其核心是掩膜空文本反演技术和双重去噪路径。

Aastract摘要

02

医学生图像分割在临床诊断、治疗规划和监测中至关重要,但现有分割模型常因遮挡、模糊边界和成像设备差异等不确定性而面临挑战。传统的测试时增强(TTA)依赖预定义几何和光度变换,适应性有限。本研究提出了一种新颖的测试时生成增强(TTGA)策略,专为医学图像分割在推理时设计。TTGA利用经过领域微调的生成模型,根据每个测试图像的特征生成上下文相关且多样化的增强。该方法基于扩散模型反演,引入了一种掩膜空文本反演技术,以实现区域特定的增强,并设计了双重去噪路径以平衡身份保留和可控变异性。在涵盖九个数据集的三个不同分割任务上的广泛实验表明,TTGA不仅显著提高了分割准确性(相对于基线DSC增益0.1%-2.3%),还能提供像素级错误估计(相对于基线DSC增益1.1%-29.0%),提升了模型在复杂医学场景中的鲁棒性和可靠性。

Method 方法

03

本研究详细阐述了TTGA框架,该框架通过多条件引导方法同时确保语义一致性并保留关键的身份属性。针对医学图像缺乏详细文本条件的问题,提出了一种改进的单步空文本优化方法,以在计算效率和图像内容保留之间取得平衡,该方法仅在中间时间步进行一次优化。TTGA通过掩膜引导生成,引入了语义条件和身份条件的两种引导尺度,扩展了分类器无关引导,通过线性混合预测来同时满足语义和身份约束。利用DDIM在任意步长估计噪声的特性,结合空间掩膜将图像分为身份保留区域和增强增强区域,实现了双重去噪路径。身份保留路径侧重于保留原始细节,而增强增强路径引入可控的随机性。提出了伯努利方案、注意力方案和混合方案三种掩膜生成方案来适应不同的编辑需求。在医学背景下,语义条件被明确定义为领域锚点,身份条件则为图像特定的容器,以确保生成增强的医学合理性和语义一致性。最终,TTGA通过对每个测试图像生成多个增强样本并进行集成,获得关于测试图像的后验概率,并使用熵来估计不确定性。

Discussion讨论

04

本部分对TTGA生成的增强图像进行了定性采样分析,结果显示增强图像在保留核心语义内容(如目标轮廓)的同时引入了可控的、任务相关的变异性。多个增强图像的平均视图与原始图像高度相似,表明TTGA增强过程以原始图像为中心,偏差最小,增强样本适用于下游应用。在皮肤病变图像上,TTGA对噪声和过度纹理细节相对不敏感,选择性增强非关键特征,有助于减少分割任务中的干扰。形态学分布分析表明,TTGA在整个形态学范围内(包括具有挑战性的不规则形状和较大尺寸区域)均能提供系统性且全局性的性能提升,不限于简单形状。文章也指出了TTGA的局限性,即当分割模型对数据扰动敏感度低且有过拟合倾向时,其有效性可能受限,并提出未来可探索将模型不确定性引导整合到增强过程中,设计任务特定的自适应采样过程,以及研究不确定性引导的融合策略以进一步提升性能。

Conclusion结论

05

本研究引入的测试时生成增强(TTGA)代表了医学图像分割领域测试时增强的一个显著进步。TTGA通过利用领域自适应的生成模型,能够生成多个语义一致的测试样本视图,克服了传统测试时增强方法的局限性。其结合区域特定增强,通过新颖的掩膜空文本反演技术和双重去噪路径实现,显著提高了分割准确性和像素级不确定性估计。在视盘和视杯分割、息肉分割和皮肤病变分割等多样化医学影像任务上的广泛实验验证了TTGA优于现有方法的性能,尤其在处理领域差异等复杂条件时表现突出。这些成果证明了TTGA在缓解模型过拟合和数据变异性挑战方面的潜力,有助于开发更鲁棒和更具泛化性的分割系统,并凸显了生成增强在推进可靠医学图像分析中的重要作用。

Figure

07

图1. TTGA在三个示例图像上的增强结果可视化。原始图像由于组织重叠、模糊边界和多样的采集条件而对分割构成挑战。TTGA增强图像引入了局部结构、锐度和成像风格的变化,从而提高了分割准确性和鲁棒性,同时还支持不确定性估计和模型可靠性。彩色条分别表示分割概率和错误估计的尺度。

图2. 提出了三个关键工作流程的建议管道。测试图像经过一系列步骤处理,以在指定的步数生成噪声图像。利用该噪声图像,采用一步去噪过程来优化可训练的空文本嵌入,从而实现与初始图像高度相似的稳定结果生成。在增强生成阶段,利用语义和区域信息引导的空文本嵌入来生成一系列增强图像。

图3. TTGA在不同引导尺度下对眼底图像的处理结果。(a) 原始未增强图像。(b) 视盘和视杯的相应真实分割。(c) 使用不同身份引导尺度和语义引导尺度组合生成的增强图像可视化。(d) 模型在增强图像上产生的分割结果。

图4. 分割结果和错误估计的定性比较。本图提供了TTGA(本文方法)与基线模型及其他测试时方法在三个任务((a) 眼底,(b) 息肉,(c) 皮肤)上的视觉比较。"错误"(橙色突出显示的目标)代表不确定性的真实情况,它通过可视化二值化基线分割(在0-1归一化输出上使用0.5阈值)与"真实情况"(同样用橙色突出显示)之间的像素级差异生成。"分割"列的目标是匹配"真实情况",而"错误估计"列的目标是匹配"错误"。彩色条分别表示分割概率和错误估计的尺度。

图5. 两个代表性样本的平均视图可视化。对于每个身份引导尺度,增强图像在细节上表现出局部变化。多个增强图像的平均视图与原始图像非常相似,表明增强是以原始图像为中心,偏差最小。

图6. 形态学景观和方法性能的分布分析。(a) 息肉(蓝色)和皮肤(橙色)数据集的圆形度与归一化大小的联合散点图,以及定义"容易"与"挑战性"形态区域的边际直方图;(b) 和 (c) 分别提供了圆形度和归一化大小个体分布的详细小提琴图,突出显示了所有数据集的独特形态特征。随后的子图 (d-g) 呈现了3D性能曲面,比较了基线(灰色线框)与在像素级错误估计Dice和分割Dice上持续表现优异的TTGA(息肉为蓝色线框,皮肤为橙色线框)。请注意,对于这些指标,值越高表示性能越好。集成的条形图量化了TTGA在每个形态学分区中提供的绝对改进,展示了其在息肉和皮肤任务的所有变体中均具有鲁棒性增益。

相关推荐
啊阿狸不会拉杆2 小时前
《数字图像处理》实验4-图像复原
图像处理·人工智能·机器学习·计算机视觉·数字图像处理
代码代码快快显灵2 小时前
图像处理:阈值与形态学实战指南
图像处理·opencv·计算机视觉
雨大王5122 小时前
工业AI驱动汽车供应链:效率提升的秘密武器
大数据·人工智能
华如锦2 小时前
微调—— LlamaFactory工具:使用WebUI微调
java·人工智能·python·ai
AndrewHZ2 小时前
【图像处理基石】光线追踪(Ray Tracing)算法入门
图像处理·人工智能·算法·计算机视觉·计算机图形学·光线追踪·渲染技术
阿正的梦工坊2 小时前
论文阅读WebDancer: Towards Autonomous Information Seeking Agency
论文阅读·人工智能·深度学习·机器学习·llm
鲨莎分不晴2 小时前
解构“深度折叠” (Deep Folding):当深度学习遇见生命之书
人工智能·深度学习
zhang_xiaoyu582 小时前
安徽省宣城市国控集团党委书记、董事长钱邦青一行到访国联股份卫多多
大数据·人工智能
找方案2 小时前
all-in-rag 学习笔记:索引构建与优化 —— 解锁 RAG 高效检索的核心密码
人工智能·笔记·学习·all-in-rag