【论文阅读】MedCLIP: Contrastive Learning from Unpaired Medical Images and Text

论文地址： pdf

github地址：项目地址

Zifeng Wang, Zhenbang Wu, Dinesh Agarwal, Jimeng Sun

Accepted by EMNLP'22

1.论文背景与动机

医学图像与文本对比学习：传统的视觉-文本对比学习（如CLIP）通过匹配配对的图像和文本嵌入来提高表示学习的可转移性，并支持零样本预测，然后，医疗图像-文本数据集远小于互联网上的通用图像和标题
数据不足与假阴性问题：医疗图像和报告之间的差异更加微妙和细粒度，导致传统方法产生假阴性，即不同患者的图像和报告可能具有相同的语义，但是错误的被视为负样本。

为了应对上述的挑战，提出医疗一种简单有效的方法，即MedCLIP，它有一下的贡献：

实体提取：首先，从医学文本中提取关键实体。例如，从文本"Small, nodular opacity in the right upper lobe"中提取"Lung Lesion"和"Lung Opacity"作为关键词
构建目标与知识提取: 使用这些提取的实体构建目标，即知识提取器，它帮助识别和关联图像和文本数据集中的相关信息。
医学图像和标签的处理： 系统从医学图像数据集中采样一批图像，这些图像可能被标记为"Normal: 0"和"Pneumonia: 1"等。
编码器与嵌入提取： 文本编码器和图像编码器分别处理文本数据和图像数据，将他们转化为嵌入（即数学表达式形式），便于机器处理
构建语义相似性矩阵： 根据提取的实体与图像标签构建一个语义相似性矩阵。这个矩阵衡量不同医学实体之间的相似性。具体来说，这个矩阵是通过对比文本实体和图像标签之间的语义相似度来构建1的。例如如果两个文本实体描述了相似的医学概念，或者一个同图像标签与一个文本实体与语义上相近，那么他们在语义相似矩阵中对对应的值就会较高。
语义匹配损失计算： 利用预测的相似性矩阵计算语义匹配损失，以优化模型的性能，这涉及比较实际的相似性（从知识提取器得出）和模型预测的相似性。

数据集：使用四个X射线数据集进行实验，包括CheXpert、MIMIC-CXR、COVID和RSNA Pneumonia。
基线模型：与随机初始化模型、ImageNet预训练模型、CLIP和ConVIRT、GLoRIA等进行比较。
实验结果：
- 零样本分类：MedCLIP在所有数据集上均优于基线模型。
- 数据效率：即使使用较少的训练数据，MedCLIP也优于使用更多数据的现有方法。
- 微调分类：MedCLIP在微调后的分类任务中也表现最佳。
- 图像-文本检索：MedCLIP在图像-文本检索任务中表现最佳，表明学习到的嵌入具有良好的语义信息。
- 嵌入可视化：通过t-SNE可视化，MedCLIP生成的嵌入比CLIP更好地聚集。

结论：MedCLIP是一个简单而有效的框架，通过扩展训练数据规模和引入医学知识，提高了预训练数据效率，并在零样本预测、监督分类和图像-文本检索任务中表现出色。
局限性：尽管MedCLIP能够达到与微调模型相当的零样本预测准确性，但仍不适用于实际应用，首先是会遇到检测不正确的语义标签或缺失检测否定或不确定性短语的失败案例，其次是可能需要更多的预训练数据和改进的提示生成方法。