AI在医学领域：HYDEN一种针对医学图像和报告的跨模态表示学习方法

近年来，跨模态文本-图像表示学习在诸多领域取得了显著的突破，尤其是在零样本学习和图像-文本检索等任务上。这一成果的取得很大程度上归功于大量弱监督的图像-文本配对数据的利用，这些数据有效地增强了视觉-语言表示学习的能力。在医学成像领域，针对特定领域数据（例如胸部X光片及其相关放射学报告）的跨模态表示学习已经催生出了在该领域表现卓越的基础模型。

俗话说，"一图胜千言"。这恰恰说明了图像所蕴含的信息量远胜于文字描述，而文字描述往往只是图像的一种简化表达。在这种关系中，文本可以被看作是图像的一种蕴含，构成了视觉语义层次结构的一部分。将这种视觉语义层次结构的归纳偏差融入跨模态对齐任务中，有助于提升表示的泛化能力和可解释性。

(a) 展示了医学文本-图像领域中的视觉-语义层次，阐释了不同的医学概念如何组织和相互联系，以及它们与医学图像的关联。

(b) 描述了医学数据嵌入从欧几里得空间过渡到超球面空间的表示，这种转换可以有效地捕获和表示密度偏序关系，同时保持相对密度关系的完整性。

本文提出HYDEN，一种针对医学图像和报告的超球面密度表示方法。这种方法利用了超球面空间捕捉视觉语义层次的优势，同时结合了概率密度嵌入策略来模拟语义不确定性。

1 相关工作

1.1 欧几里得空间中的图像-文本表示学习

CLIP 模型是这类方法的代表，它使用大量弱监督的图像-文本对数据进行训练，并通过对比学习的方式学习图像和文本的表示。这类方法在通用领域取得了很好的效果，但可能无法很好地处理医学领域数据的复杂性和特异性。

1.2 针对医学领域的图像-文本表示学习

一些研究针对医学领域的数据特点，提出了专门用于医学图像-文本表示学习的模型，例如 MERU 框架。这类模型通常在欧几里得空间中进行训练，并利用医学领域的先验知识来提升模型性能。

1.3 超越欧几里得空间的图像-文本表示学习

MERU 框架将图像和文本特征映射到双曲空间中，利用双曲空间的层级结构优势来学习图像-文本表示。这类模型能够更好地处理医学领域数据中的层级语义关系，但仍然使用点向量来表示图像和文本，无法有效表达语义不确定性。

1.4 概率密度嵌入

一些研究使用概率密度嵌入来表示图像和文本，例如 Gaussian Embedding。这类方法能够有效地表达语义不确定性，但主要应用于欧几里得空间，并且通常用于文档嵌入和图嵌入等任务。

2 方法

2.1 图像-文本特征嵌入

文本编码器：使用 BioClinicalBERT 对文本数据进行编码，提取文本特征。BioClinicalBERT 是一个在 MIMIC III 数据集上预训练的模型，能够有效地捕捉医学文本的语义信息。
图像编码器：使用 Vision Transformer (ViT) 对图像数据进行编码，提取图像特征。ViT 是一种基于 Transformer 的图像编码器，能够有效地捕捉图像的局部和全局特征。
文本感知局部图像表示：为了更好地捕捉医学图像的局部语义特征，HYDEN 引入了一个自注意力模块。该模块将文本嵌入作为查询，将图像特征作为键和值，从而生成文本感知的局部图像特征。最终图像特征是全局特征和局部特征的组合。

2.2 超双曲密度嵌入

密度表示： HYDEN 使用超双曲伪高斯分布来表示图像和文本特征。这种表示方式能够有效地捕捉语义不确定性，并更好地表示医学数据的复杂性。
映射到超双曲空间： HYDEN 将图像和文本的密度表示映射到超双曲空间。这通过使用指数映射函数来实现，将欧几里得空间中的向量映射到超双曲空间中的点。

2.3 损失函数

封装损失函数： HYDEN 使用封装损失函数来建模图像-文本密度分布之间的部分排序关系。封装损失函数利用 α-散度来衡量两个分布之间的差异，并通过惩罚函数来确保一个分布完全包含另一个分布。
对比损失函数： HYDEN 使用对比损失函数来增强图像和文本语义分布之间的相似性。对比损失函数通过计算超双曲空间中两个分布的测地线距离来实现。

3 实验

3.1 基线模型

CLIP：在欧几里得空间中使用点嵌入进行图像-文本对齐的模型。
MERU：在超双曲空间中使用点嵌入进行图像-文本对齐的模型。

3.2 数据集

MIMIC-CXR v2：用于模型预训练的大型胸部 X 光图像和报告数据集。
RSNA Pneumonia：用于零样本图像分类的胸部 X 光图像数据集。
SIIM-ACR Pneumothorax：用于零样本图像分类的胸部 X 光图像数据集。
ChestXray14：用于零样本图像分类、文本-图像检索和图像-图像检索的胸部 X 光图像数据集。

3.3 实验设置

采用ViT-B 作为图像编码器，补丁大小为16，因为它在超球面空间中表现出了竞争性能。图像/文本编码器初始化策略与MERU类似，只是使用ClinicalBERT作为预训练的文本编码器，它已在大规模医学文本数据上进行了预训练。对于HYDEN，将可学习的曲率参数c初始化为1.0，并将其限制在[0.1, 10.0]的范围内，以防止训练不稳定。所有实验都使用两台NVIDIA A40 GPU和PyTorch框架进行。
优化：采用AdamW优化器，权重衰减为0.2，(β1, β2) = (0.9, 0.98)。对于所有的增益、偏差和可学习的标量，不使用权重衰减。模型训练了13,000次迭代，批量大小为256。最大学习率设置为1 × 10^-5，在前500次迭代中线性增加，然后余弦衰减至零。使用混合精度来加速训练，除了在计算指数映射和损失时，为了数值稳定性使用FP32精度。

3.4 评估任务

零样本图像分类：评估模型在没有标签数据的情况下进行图像分类的能力。
零样本文本-图像检索：评估模型使用文本查询检索图像的能力。
零样本图像-图像检索：评估模型使用图像查询检索图像的能力。

3.5 实验结果

定量分析： HYDEN 在零样本图像分类、文本-图像检索和图像-图像检索任务上都取得了优于 CLIP 和 MERU 的性能。这表明 HYDEN 模型能够更好地捕捉医学图像和报告之间的层次语义关系，并学习到更具可解释性和泛化能力的视觉语义表示。
定性分析： HYDEN 模型能够有效地捕捉图像和文本嵌入之间的部分排序关系，这表明模型能够理解图像和文本之间的层次语义结构。

3.6 结论

HYDEN 模型在医学图像和报告的跨模态表示学习方面取得了显著的成果。该模型能够有效地捕捉医学数据的复杂性和语义不确定性，并学习到更具可解释性和泛化能力的视觉语义表示。