TV-SAM 新型零样本医学图像分割算法:GPT-4语言处理 + GLIP视觉理解 + SAM分割技术

TV-SAM 新型零样本医学图像分割算法:GPT-4语言处理 + GLIP视觉理解 + SAM分割技术


提出背景

论文:https://arxiv.org/ftp/arxiv/papers/2402/2402.15759.pdf

代码:https://github.com/JZK00/TV-SAM

利用了GPT-4的强大语言处理能力、GLIP的视觉理解能力以及SAM的分割技术,TV-SAM能够自动解析医疗图像,生成精准的文本和视觉提示,从而实现了前所未有的零样本分割效果。

经过在七个涵盖八种成像技术的公共数据集上的全面测试,TV-SAM不仅大幅度超越了SAM AUTO和GSAM的性能,而且与采用黄金标准边界框提示的SAM BBOX表现媲美,甚至在ISIC和WBC等特定挑战上刷新了记录。

医学图像分割通常面临的挑战包括数据的多模态性、高复杂度以及缺乏足够的标注信息。

之所以使用TV-SAM,是因为它能通过结合语言和视觉模型的优势,解决上述挑战,尤其是在零样本学习场景下,无需依赖大量的标注数据即可实现准确的图像分割。

  • 利用GPT-4生成的文本提示,为图像内容提供丰富的描述性信息,辅助图像分割模型理解图像内容。
  • 结合VLM(如GLIP)和SAM,通过文本和视觉信息的互补,提高模型在特定医学图像数据上的泛化能力和分割准确度。

基于上文的介绍,我们可以将2 方法论部分拆解成如下中文解释和逻辑关系:

TV-SAM 方法论

通过三个阶段说明了该过程:

  • 第一阶段使用GPT-4生成文本提示
  • 第二阶段使用视觉语言模型(VLM)预测边界框
  • 第三阶段使用Segment Anything Model(SAM)生成最终的分割掩码。

该图包括一个流程图,描述了用户输入、语言模型以及导致分割结果的视觉提示之间的交互。

TV-SAM 方法包含三个主要阶段:文本提示生成、视觉提示创建、掩码解码。

  1. 文本提示生成(子解法1)

    • 背景:需要生动描述医学图像中的医学概念。
    • 特征:使用GPT-4作为知识来源,生成描述医学图像中医学概念的详细文本提示。
  2. 视觉提示创建(子解法2)

    • 背景:基于提供的提示,识别医学概念的可能区域通常使用边界框格式。
    • 特征:使用预训练的视觉语言模型(VLM),如GLIP,自动生成视觉提示,实现零样本对象检测。
  3. 掩码解码(子解法3)

    • 背景:使用视觉提示帮助SAM更准确地预测这些区域的分割掩码。
    • 特征:采用SAM(分割注意力模型)进行零样本分割,特别是在医疗领域,采用盒式提示效果最佳。

具体阶段与技术细节:

  1. GPT-4用于表达式提示设计

    • 利用GPT-4生成详细的文本提示,通过图像和对话模板输入,结合视觉编码器和文本编码器提取特征,通过交叉注意力机制融合特征,最后通过解码器返回目标概念的具体信息。
  2. 通过VLM生成视觉提示

    • 选择GLIP作为VLM,输入图像到GLIP图像编码器并结合之前获得的描述性提示,通过GLIP提示编码器获得特征,通过非最大抑制算法过滤和选择预测的边界框。
  3. SAM零样本分割与视觉提示

    • 在医学图像分割领域,盒式提示被证明特别有效。利用SAM模型,重新输入图像并将GLIP预测的边界框作为视觉提示输入SAM提示编码器,最后通过SAM掩码解码器生成准确的分割掩码。

通过这种方法,TV-SAM能够在仅有未标记医学图像和感兴趣的概念、对象或异常的情况下,自动执行这三个阶段并生成相应的分割掩码,有效提高医学图像分析的效率和准确性。

以肺结节的识别和分割为例:

  1. GPT-4用于表达式提示设计:

    • 在肺结节的例子中,GPT-4可以用来生成描述肺部图像中结节特征(如大小、形状、位置和可能的类型)的详细文本提示。
    • 通过将肺部CT扫描图像和一个包含患者信息及疑似肺结节描述的对话模板输入GPT-4,模型能够通过视觉编码器从图像中提取高级特征,同时文本编码器从对话模板中提取文本特征。
    • 通过交叉注意力机制,这些特征被融合,并通过解码器返回关于肺结节的具体信息,比如其可能的恶性或良性特征。
  2. 通过VLM生成视觉提示:

    • 利用从GPT-4获得的详细描述性文本提示,GLIP模型能够对输入的肺部CT图像进行分析,自动识别并预测包含结节的区域。
    • 这一步骤通过非最大抑制算法(NMS)来过滤和优化预测的边界框,确保仅选取最有可能包含肺结节的区域。
  3. SAM零样本分割与视觉提示:

    • 最后,将筛选后的边界框作为视觉提示输入到SAM模型中。
    • SAM模型再次分析肺部CT图像,并使用这些视觉提示作为引导,通过其掩码解码器精确生成肺结节的分割掩码。
    • 这一步不仅提高了分割的准确性,而且大大减少了手动标记数据所需的时间和专业知识要求。

通过这种三阶段方法,TV-SAM能够有效支持肺结节的自动检测和分割,为临床医生提供了一个强大的工具,以更准确和高效地评估肺部扫描结果,进而改善病人的诊断和治疗过程。

不同医学成像模态的分割性能分布,以Dice系数为衡量标准。

该图表比较了非放射数据(如内窥镜和皮肤镜图像)与放射数据(如CT和MRI图像)的性能,表明算法在非放射图像上的性能更好。

相关推荐
京东零售技术2 小时前
扛起技术大梁的零售校招生们 | 1024技术人特别篇
算法
爱coding的橙子2 小时前
每日算法刷题Day78:10.23:leetcode 一般树7道题,用时1h30min
算法·leetcode·深度优先
Swift社区2 小时前
LeetCode 403 - 青蛙过河
算法·leetcode·职场和发展
地平线开发者2 小时前
三种 Badcase 精度验证方案详解与 hbm_infer 部署实录
算法·自动驾驶
papership2 小时前
【入门级-算法-5、数值处理算法:高精度的减法】
算法·1024程序员节
lingran__3 小时前
算法沉淀第十天(牛客2025秋季算法编程训练联赛2-基础组 和 奇怪的电梯)
c++·算法
DuHz3 小时前
基于MIMO FMCW雷达的二维角度分析多径抑制技术——论文阅读
论文阅读·物联网·算法·信息与通信·毫米波雷达
Dragon_D.3 小时前
排序算法大全——插入排序
算法·排序算法·c·学习方法
大数据张老师4 小时前
数据结构——红黑树
数据结构·算法·红黑树
自在极意功。4 小时前
动态规划核心原理与高级实战:从入门到精通(Java全解)
java·算法·动态规划·最优子结构·重叠子问题