（2024|NEJM，多模态医学应用，Med-PaLM M，MultiMedBench，医学问答）迈向通用生物医学 AI

Towards Generalist Biomedical AI

[1. 引言](#1. 引言)

[2. 相关研究](#2. 相关研究)

[2.1 基础模型与多模态 AI](#2.1 基础模型与多模态 AI)

[2.2 生物医学多模态 AI](#2.2 生物医学多模态 AI)

[2.3 生物医学 AI 基准（Benchmarks）](#2.3 生物医学 AI 基准（Benchmarks）)

[3. MultiMedBench：通用生物医学 AI 基准](#3. MultiMedBench：通用生物医学 AI 基准)

[4. Med-PaLM M：通用生物医学 AI 的概念验证](#4. Med-PaLM M：通用生物医学 AI 的概念验证)

[4.1 模型架构](#4.1 模型架构)

[4.2 训练数据](#4.2 训练数据)

[5. 评估](#5. 评估)

[5.1 任务评估](#5.1 任务评估)

[5.2 迁移学习与零样本能力](#5.2 迁移学习与零样本能力)

[5.3 临床医生评估](#5.3 临床医生评估)

[6. 讨论](#6. 讨论)

[7. 结论](#7. 结论)

1. 引言

医学是一个多模态 （multimodal）学科，涉及文本、医学影像、基因组数据等多种数据来源。尽管生物医学 AI 取得了显著进展，但现有模型多为单模态、单任务的专家系统 ，在真实临床应用中的灵活性有限。例如，现有乳腺癌筛查 AI 系统尽管在X 线乳腺摄影 上表现良好，但无法结合MRI、基因检测和病人病史等信息进行综合诊断。

基础模型（Foundation Models） 的出现为医疗 AI 的发展提供了新机遇。这些模型可以在大规模数据上进行自监督或无监督训练 ，并通过少样本学习（few-shot learning） 或 上下文学习（in-context learning） 适应多个任务。

本研究的目标是构建一个通用生物医学 AI 系统（Med-PaLM M），能够处理多种数据模态，并在多个下游任务上取得高性能。

2. 相关研究

2.1 基础模型与多模态 AI

基础模型（Foundation Models）在语言（如 GPT-3, PaLM） 、视觉（如 CLIP, ViT） 等领域取得突破，但在生物医学 AI 领域的应用仍处于早期阶段。

现有多模态学习方法 主要关注文本-图像联合建模，如 CLIP（OpenAI） 和 PaLM-E（Google DeepMind）。

2.2 生物医学多模态 AI

过去的生物医学 AI 主要集中在单模态任务 ，如 病理图像分析、基因组变异检测 等。

LLaVA-Med 使用 PubMed 和 GPT-4 训练，但仅限于医学视觉问答（VQA） 任务，未能扩展至广泛的生物医学任务。

BiomedGPT 是一个预训练的多任务模型，但需要额外微调才能在特定任务上表现良好。

Med-PaLM M 是首个可同时处理多种生物医学任务的通用 AI 模型，无需针对每个任务进行单独微调。

2.3 生物医学 AI 基准（Benchmarks）

现有基准数据集主要针对单一任务，如 BenchMD 主要用于医学图像分类。

本研究提出 MultiMedBench ，包含 14 种生物医学任务 ，涵盖文本、影像、基因组数据等多种模态。

3. MultiMedBench：通用生物医学 AI 基准

MultiMedBench 是一个多任务、多模态的生物医学 AI 基准，包括：

12 个去标识化（de-identified）数据集 ，涵盖 7 种生物医学数据模态。
14 个不同任务 ：
- 医学问答（Medical QA）
- 视觉问答（Medical VQA）
- 医学图像分类（Medical Image Classification）
- 放射学报告生成（Radiology Report Generation）
- 基因组变异检测（Genomic Variant Calling）
- 放射学报告摘要（Radiology Report Summarization）

4. Med-PaLM M：通用生物医学 AI 的概念验证

4.1 模型架构

Med-PaLM M 基于 PaLM-E 进行微调：

语言模型（LLM） ：采用 **Pathways Language Model（PaLM）**作为主干模型。
视觉模型（ViT） ：采用 ViT作为医学影像编码器。

在本研究中，考虑了三种不同的 LLM 和视觉编码器组合

PaLM 8B 与 ViT 4B（PaLM-E 12B）
PaLM 62B 与 ViT 22B（PaLM-E 84B）
PaLM 540B 与 ViT 22B（PaLM-E 562B）

所有模型都在不同的视觉语言数据集上进行了预训练，此外还跨多个机器人实例进行了任务训练。

4.2 训练数据

图像预处理 ：所有 MultiMedBench 中的医学图像统一缩放至 224×224×3。

任务指令调优（Instruction Tuning）：

每个任务提供特定指令（task-specific Prompt） ，并加入单样本示例（One-shot exemplar） 进行模型提示。
例如，在胸部 X 光报告生成 任务中，模型输入包括影像 + 研究原因 + 额外病史信息。

5. 评估

5.1 任务评估

Med-PaLM M 在 MultiMedBench 上与 当前最优模型（SOTA） 进行对比：

在 12 个任务中，5 个任务超过 SOTA，其他任务表现相当。（对于两个任务，我们无法找到与我们的设置相当的先前 SOTA）
医学问答任务（MedQA, MedMCQA, PubMedQA）的表现大幅超越 PaLM-E 84B。
放射学报告生成任务（MIMIC-CXR 数据集），Med-PaLM M 的微 F1 分数（Micro-F1）提高 8%

如上表所示，Med-PaLM M 84B 模型在大多数指标上与 562B 模型大致相当或略微超过 562B 模型，这可能仅仅是因为 较大的模型使用的训练步骤较少。

增加语言模型大小的收益递减的另一种可能性是，MIMIC-CXR 数据集中胸部 X 光报告生成的 输出空间局限于一组模板句子和有限数量的条件 。这种见解促使人们在该数据集上使用 基于检索的方法 而不是 完全生成的方法来完成胸部 X 光报告生成任务。

此外，较大的 562B 模型倾向于冗长而不是 84B 模型的简洁，并且如果没有进一步的训练偏好调整，这可能会影响其指标。

5.2 迁移学习与零样本能力

Tuberculosis（结核病）检测任务 ：Med-PaLM M 在零样本（Zero-shot） 情况下，接近 SOTA 专家模型的表现（87.68% vs 92.6%）。

跨任务知识迁移 ：模型在胸部 X 光报告生成任务上的训练，有助于提高 X 光分类任务的性能。

5.3 临床医生评估

放射学报告生成：

对四位评分员进行平均，在 40.50% 的案例中，Med-PaLM M 84B 优于参考报告
其次是另外两个模型规模 12B 和 562B，这两个模型分别在 34.05% 和 32.00% 的案例中优于参考报告。

误差分析：

临床错误率：0.25（与人类放射科医生相当）。
主要错误包括：遗漏病变、错误的影像解释等。

6. 讨论

1）生物医学通用 AI 发展瓶颈

缺乏高质量多模态医疗数据集 ：尽管本研究创建了 MultiMedBench，但其数据量（约 100 万样本）相对有限，且缺乏转录组学（transcriptomics）和蛋白质组学（proteomics）等生命科学数据。

医疗数据可获取性问题 ：隐私和法规限制导致医学影像、基因组数据等大规模数据的训练难度较大，影响 AI 模型的学习能力。

2）医疗 AI 需要领域微调

通用 AI 模型（如 PaLM-E）在未经生物医学微调时表现不佳 ，说明医学数据的分布与一般语言或视觉任务存在显著差异。

Med-PaLM M 通过微调实现了超越 PaLM-E 的性能 ，表明医学领域微调是提高 AI 诊断能力的关键。

3）扩展多模态 AI 的挑战

语言模型的扩展（Scaling）在医学任务上的作用有限：

在需要语言推理的任务（医学问答、视觉问答）中，扩大模型规模可提升性能。
但在医学影像分类任务（如皮肤病分类、乳腺癌检测）中，性能瓶颈可能受限于视觉编码器，而非语言模型的规模。

不同模态之间的性能瓶颈 ：医学影像任务仍依赖 ViT 视觉编码器，如果其性能不足，扩展语言模型规模对整体 AI 影响有限。

4）构建通用生物医学 AI 的关键技术考量

任务指令调优（Instruction Tuning） ：通过 **任务指令 + 单样本示例（One-shot exemplar）**的方式提高 AI 在不同任务上的泛化能力。

图像-文本联合建模 ：使用文本作为多模态信息的共同基础 ，提升 AI 在医疗影像、基因组数据上的推理能力。

5）放射学报告生成任务的突破

临床医生评估结果积极：

40.50% 的情况下，医生更倾向于 AI 生成的报告，表明 Med-PaLM M 在放射学任务中的实际应用潜力。

AI 生成的报告错误率（0.25）与人类医生相当，表明其在某些任务上可能与放射科医生达到类似水平。

这些有希望的结果为自动放射学报告生成任务的快速发展奠定了基础，并表明未来具有临床应用的潜力。

6）通用 AI 不是唯一的生物医学 AI 方案

除了通用 AI，还有其他有效策略：

模块化方法 ：如使用 冻结的医学编码器 + 适配层（adapter layers），减少训练开销。

AI-医生协作模式：允许 AI 与专业医学模型或医生协同工作，而非完全替代医生决策。

7）现实世界应用的挑战

AI 需达到或超越专家水平，才能在临床实践中发挥真正作用。

安全性与公平性仍是关键问题，需要更多研究确保 AI 在不同患者群体中的一致性和可解释性。

7. 结论

本研究提出了通用生物医学 AI 的首个概念验证系统------Med-PaLM M ，并构建了 MultiMedBench 基准：

Med-PaLM M 在多模态医学任务中表现优于或等同于专家模型。
展示了零样本学习和任务迁移能力，在结核病检测任务上接近 SOTA 水平。
放射学报告生成任务的临床医生评估表明，AI 生成的报告在 40.50% 的情况下优于放射科医生的报告。

**论文地址：**https://arxiv.org/abs/2307.14334

**进 Q 学术交流群：**922230617