AI在医学领域:HYDEN一种针对医学图像和报告的跨模态表示学习方法

近年来,跨模态文本-图像表示学习在诸多领域取得了显著的突破,尤其是在零样本学习和图像-文本检索等任务上。这一成果的取得很大程度上归功于大量弱监督的图像-文本配对数据的利用,这些数据有效地增强了视觉-语言表示学习的能力。在医学成像领域,针对特定领域数据(例如胸部X光片及其相关放射学报告)的跨模态表示学习已经催生出了在该领域表现卓越的基础模型。

俗话说,"一图胜千言"。这恰恰说明了图像所蕴含的信息量远胜于文字描述,而文字描述往往只是图像的一种简化表达。在这种关系中,文本可以被看作是图像的一种蕴含,构成了视觉语义层次结构的一部分。将这种视觉语义层次结构的归纳偏差融入跨模态对齐任务中,有助于提升表示的泛化能力和可解释性。

(a) 展示了医学文本-图像领域中的视觉-语义层次,阐释了不同的医学概念如何组织和相互联系,以及它们与医学图像的关联。

(b) 描述了医学数据嵌入从欧几里得空间过渡到超球面空间的表示,这种转换可以有效地捕获和表示密度偏序关系,同时保持相对密度关系的完整性。

本文提出HYDEN,一种针对医学图像和报告的超球面密度表示方法。这种方法利用了超球面空间捕捉视觉语义层次的优势,同时结合了概率密度嵌入策略来模拟语义不确定性。

1 相关工作

1.1 欧几里得空间中的图像-文本表示学习

CLIP 模型是这类方法的代表,它使用大量弱监督的图像-文本对数据进行训练,并通过对比学习的方式学习图像和文本的表示。这类方法在通用领域取得了很好的效果,但可能无法很好地处理医学领域数据的复杂性和特异性。

1.2 针对医学领域的图像-文本表示学习

一些研究针对医学领域的数据特点,提出了专门用于医学图像-文本表示学习的模型,例如 MERU 框架。这类模型通常在欧几里得空间中进行训练,并利用医学领域的先验知识来提升模型性能。

1.3 超越欧几里得空间的图像-文本表示学习

MERU 框架将图像和文本特征映射到双曲空间中,利用双曲空间的层级结构优势来学习图像-文本表示。这类模型能够更好地处理医学领域数据中的层级语义关系,但仍然使用点向量来表示图像和文本,无法有效表达语义不确定性。

1.4 概率密度嵌入

一些研究使用概率密度嵌入来表示图像和文本,例如 Gaussian Embedding。这类方法能够有效地表达语义不确定性,但主要应用于欧几里得空间,并且通常用于文档嵌入和图嵌入等任务。

2 方法

2.1 图像-文本特征嵌入

  • 文本编码器: 使用 BioClinicalBERT 对文本数据进行编码,提取文本特征。BioClinicalBERT 是一个在 MIMIC III 数据集上预训练的模型,能够有效地捕捉医学文本的语义信息。
  • 图像编码器: 使用 Vision Transformer (ViT) 对图像数据进行编码,提取图像特征。ViT 是一种基于 Transformer 的图像编码器,能够有效地捕捉图像的局部和全局特征。
  • 文本感知局部图像表示: 为了更好地捕捉医学图像的局部语义特征,HYDEN 引入了一个自注意力模块。该模块将文本嵌入作为查询,将图像特征作为键和值,从而生成文本感知的局部图像特征。最终图像特征是全局特征和局部特征的组合。

2.2 超双曲密度嵌入

  • 密度表示: HYDEN 使用超双曲伪高斯分布来表示图像和文本特征。这种表示方式能够有效地捕捉语义不确定性,并更好地表示医学数据的复杂性。
  • 映射到超双曲空间: HYDEN 将图像和文本的密度表示映射到超双曲空间。这通过使用指数映射函数来实现,将欧几里得空间中的向量映射到超双曲空间中的点。

2.3 损失函数

  • 封装损失函数: HYDEN 使用封装损失函数来建模图像-文本密度分布之间的部分排序关系。封装损失函数利用 α-散度来衡量两个分布之间的差异,并通过惩罚函数来确保一个分布完全包含另一个分布。
  • 对比损失函数: HYDEN 使用对比损失函数来增强图像和文本语义分布之间的相似性。对比损失函数通过计算超双曲空间中两个分布的测地线距离来实现。

3 实验

3.1 基线模型

  • CLIP: 在欧几里得空间中使用点嵌入进行图像-文本对齐的模型。
  • MERU: 在超双曲空间中使用点嵌入进行图像-文本对齐的模型。

3.2 数据集

  • MIMIC-CXR v2: 用于模型预训练的大型胸部 X 光图像和报告数据集。
  • RSNA Pneumonia: 用于零样本图像分类的胸部 X 光图像数据集。
  • SIIM-ACR Pneumothorax: 用于零样本图像分类的胸部 X 光图像数据集。
  • ChestXray14: 用于零样本图像分类、文本-图像检索和图像-图像检索的胸部 X 光图像数据集。

3.3 实验设置

  • 采用ViT-B 作为图像编码器,补丁大小为16,因为它在超球面空间中表现出了竞争性能。图像/文本编码器初始化策略与MERU类似,只是使用ClinicalBERT作为预训练的文本编码器,它已在大规模医学文本数据上进行了预训练。对于HYDEN,将可学习的曲率参数c初始化为1.0,并将其限制在[0.1, 10.0]的范围内,以防止训练不稳定。所有实验都使用两台NVIDIA A40 GPU和PyTorch框架进行。
  • 优化:采用AdamW优化器,权重衰减为0.2,(β1, β2) = (0.9, 0.98)。对于所有的增益、偏差和可学习的标量,不使用权重衰减。模型训练了13,000次迭代,批量大小为256。最大学习率设置为1 × 10^-5,在前500次迭代中线性增加,然后余弦衰减至零。使用混合精度来加速训练,除了在计算指数映射和损失时,为了数值稳定性使用FP32精度。

3.4 评估任务

  • 零样本图像分类: 评估模型在没有标签数据的情况下进行图像分类的能力。
  • 零样本文本-图像检索: 评估模型使用文本查询检索图像的能力。
  • 零样本图像-图像检索: 评估模型使用图像查询检索图像的能力。

3.5 实验结果

  • 定量分析: HYDEN 在零样本图像分类、文本-图像检索和图像-图像检索任务上都取得了优于 CLIP 和 MERU 的性能。这表明 HYDEN 模型能够更好地捕捉医学图像和报告之间的层次语义关系,并学习到更具可解释性和泛化能力的视觉语义表示。
  • 定性分析: HYDEN 模型能够有效地捕捉图像和文本嵌入之间的部分排序关系,这表明模型能够理解图像和文本之间的层次语义结构。

3.6 结论

HYDEN 模型在医学图像和报告的跨模态表示学习方面取得了显著的成果。该模型能够有效地捕捉医学数据的复杂性和语义不确定性,并学习到更具可解释性和泛化能力的视觉语义表示。

相关推荐
sp_fyf_202422 分钟前
机器学习-点击率预估-论文速读-20240916
人工智能·机器学习
Java指南修炼28 分钟前
一个开源的大语言模型(LLM)服务工具,支持Llama 3.1、Phi 3、Mistral、Gemma 2 等, 87.4k star你必须拥有(附源码)
人工智能·后端·语言模型·开源·源码
蜡笔新小29 分钟前
Stable diffusion 学习过程
人工智能·学习·stable diffusion
qq_4350707830 分钟前
【机器学习】10——logistic的直观理解
人工智能·机器学习
可愛小吉1 小时前
Python 课程15-PyTorch
开发语言·人工智能·pytorch·python·机器学习
Hoper.J1 小时前
9. 什么是 Beam Search?深入理解模型生成策略
深度学习·语言模型·llm·aigc·beam search·集束搜索
JustNow_Man1 小时前
李宏毅机器学习——机器学习基本概念
人工智能·机器学习
AI智东西1 小时前
150+个流行的Instagram标签(及如何找到并正确使用它们)
人工智能·ios·chatgpt·iphone
aWty_1 小时前
机器学习--AlexNet
人工智能·深度学习·机器学习
i嗑盐の小F2 小时前
【 ACM独立出版,见刊后1个月检索!!!】第二届通信网络与机器学习国际学术会议(CNML 2024,10月25-27)
网络·图像处理·人工智能·深度学习·算法·机器学习·计算机视觉