（2024|Nature Medicine，生物医学 AI，BiomedGPT）面向多种生物医学任务的通用视觉-语言基础模型

BiomedGPT: A generalist vision--language foundation model for diverse biomedical tasks

[1. 摘要](#1. 摘要)

[2. 引言](#2. 引言)

[3. 相关研究](#3. 相关研究)

[3.1 基础模型与通用生物医学 AI](#3.1 基础模型与通用生物医学 AI)

[3.2 生物医学 AI 的局限性](#3.2 生物医学 AI 的局限性)

[3.3 BiomedGPT 的创新点](#3.3 BiomedGPT 的创新点)

[4. 方法](#4. 方法)

[4.1 架构及表示](#4.1 架构及表示)

[4.1.1 模型架构选择](#4.1.1 模型架构选择)

[4.1.2 BiomedGPT 架构](#4.1.2 BiomedGPT 架构)

[4.1.3 统一的输入-输出表示](#4.1.3 统一的输入-输出表示)

[4.2 任务](#4.2 任务)

[4.2.1 预训练任务](#4.2.1 预训练任务)

[4.2.2 微调和下游任务](#4.2.2 微调和下游任务)

[4.3 训练](#4.3 训练)

[4.3.1 模型预训练](#4.3.1 模型预训练)

[4.3.2 模型微调与推理](#4.3.2 模型微调与推理)

[4.3.3 指令调优](#4.3.3 指令调优)

[4.4 模型扩展](#4.4 模型扩展)

[5. 结果](#5. 结果)

[5.1 BiomedGPT 在多模态任务上的表现](#5.1 BiomedGPT 在多模态任务上的表现)

[5.2 迁移学习和零样本能力](#5.2 迁移学习和零样本能力)

[5.3 人类专家评估](#5.3 人类专家评估)

[6. 讨论](#6. 讨论)

1. 摘要

现有的生物医学人工智能（AI）模型通常针对特定任务或模态，难以适应真实世界的多样化需求。BiomedGPT 是首个开源、轻量级的通用视觉-语言基础模型，能够同时处理多种生物医学任务。相比于现有的封闭源或计算密集型的生物医学 AI 解决方案，BiomedGPT 具有更广泛的适用性和更低的计算成本。

实验结果表明，BiomedGPT 在 25 项实验任务中，有 16 项超越现有最优模型（SOTA） ，同时在放射学视觉问答（VQA）、报告生成、文本摘要等任务上表现优异 。在医疗问答任务中，其错误率仅为 3.8% ，在撰写复杂放射学报告方面的错误率为 8.3%，在报告摘要方面的表现几乎等同于人类专家。

本研究证明了高效训练和多模态数据的结合能够显著提升生物医学 AI 的实用性。

2. 引言

背景问题：

现有生物医学 AI 主要是专用专家系统，仅适用于单一任务或模态，限制了其在临床中的广泛应用。
真实医疗环境需要 **多模态数据（文本、图像、基因组数据等）**的整合和分析，以支持精准医学（Precision Medicine）。
过度专注于单一任务的 AI 无法提供全面的临床洞察，导致在实际应用中效率受限。

解决方案：

通用生物医学 AI（Generalist Biomedical AI） 是未来发展方向，能够跨任务处理不同类型的医疗数据。
BiomedGPT 作为首个开源、轻量级的通用生物医学 AI 模型，基于 Transformer 结构，支持多任务处理，能够在多种生物医学任务上取得良好表现。

3. 相关研究

3.1 基础模型与通用生物医学 AI

现有的 AI 模型，如 GPT-4、PaLM-E、Med-PaLM M ，在通用任务中表现优秀，但大多数仍主要用于文本处理 ，缺乏对医学图像、病理学数据、基因组信息的综合处理能力。

传统的多模态学习方法，如 CLIP（OpenAI） 和 LLaVA-Med ，主要针对视觉-文本任务，但缺乏医学领域的专业微调。

3.2 生物医学 AI 的局限性

目前的大多数生物医学 AI 模型仅针对单一模态（如放射学或病理学），在跨模态任务上的泛化能力较弱。

现有模型的封闭性（如 Med-PaLM M 并未开源）限制了学术界和行业的广泛应用。

3.3 BiomedGPT 的创新点

开源透明 ：不同于 Med-PaLM M，BiomedGPT 完全开源，为研究人员和从业者提供了更自由的开发环境。

轻量级设计：BiomedGPT 体积小，计算成本更低，但依然能在多个任务上达到或超越 SOTA 级别。

跨模态能力 ：支持 文本、放射学影像、病理图像、EHR（电子健康记录）、基因组数据等多种医疗数据类型。

图 1：BiomedGPT 可以处理多种模态并执行多种任务。

(a) BiomedGPT 主要关注视觉和文本输入 ，但也可以通过序列化 处理表格数据。

(b) BiomedGPT 支持的下游视觉语言任务示例展示了其多功能性。可以通过轻量级、特定于任务的微调来合并其他任务以满足进一步的临床需求。

(c) BiomedGPT 的临床相关用例示例包括输入可能是图像和文本 或仅文本，并且模型通过生成响应（"A"）来响应查询（"Q"）。由于其统一的框架设计和对生物医学数据的全面预训练，BiomedGPT 具有高度适应性，可应用于各种下游任务。

图 2：BiomedGPT 概述：工作流程、性能和预训练数据集。

（a）BiomedGPT 如何处理 多模态输入 并执行各种 下游任务的图形说明。每个任务的预期输出形式由向模型提供特定指令来确定。

（b）比较性能分析：该图将 BiomedGPT 的成就与之前的 SOTA 结果和 Med-PaLM M (12B) 进行了对比。评估指标包括：

图像分类、医学语言推理和视觉问答 (VQA) 的准确性（以 SOTA 结果为基准）；
用于图像标题（captioning）的 CIDEr；
用于文本摘要的 ROUGE-L；
用于 VQA 的加权 F1 分数（与 Med-PaLM M 相比）；
用于乳房肿块和钙化分类的 F1-macro（也与 Med-PaLM M 相比）。

（c）包括图像标题（captioning）和 VQA 在内的 预训练数据集的分布，作为视觉和语言数据集、对象检测数据集和用于掩蔽图像建模（masked image modeling）的纯图像数据集。

（d）纯文本预训练数据集中每句话的 单词数密度图。

（e）与规模相关的性能比较：BiomedGPT 在 SLAKE VQA 数据集上表现出色，即使其参数明显少于同类产品。

扩展数据图 2：BiomedGPT 模型配置和架构概览。

（a）BiomedGPT 的详细模型配置。

其中，"#" 表示数量。"Att."，"Enc."和" Dec." 分别表示注意、编码器和解码器。
隐藏（Hidden）大小是嵌入的大小以及每个自注意和前馈层的输出大小。
FFN 的第一层将隐藏大小扩展为中间（Intermediate）大小，第二层将其收缩回隐藏大小。这种扩展和收缩使网络能够创建更复杂的表示。
在预训练阶段，图像处理涉及将图像调整大小和裁剪为不同的分辨率，对应于表中列出的输入大小。
需要注意的是，在微调和推理阶段，BiomedGPT 的输入分辨率可以根据任务的具体要求灵活调整。

（b）BiomedGPT 的神经网络架构，包括双向编码器块和自回归解码器块。不同模型规模的块数不同。

扩展数据图 3：BiomedGPT 中关键组件的图形说明。

（a）BiomedGPT 中的头部缩放多头注意模块。可训练参数 γ_h 在每个头部的输出投影之前应用。

（b）位置嵌入和输入嵌入

我们没有将绝对位置嵌入（absolute positional embedding） P_i 添加到输入嵌入 I_i（左）
而是分别使用不同的投影矩阵计算位置相关性和输入相关性，并在自注意模块中将它们加在一起（右）。

（c）相对位置偏差的图形说明。这种归纳偏差 𝐵_{𝑗 − 𝑖} 是可学习参数，可以看作是相对位置 𝑗 − 𝑖 的嵌入，它被注入到 Query-Key 乘积中：(1 / √d) · (I_i·𝑊^Q)(P_i·𝑊^K) + 𝐵_{𝑗 − 𝑖}，并在所有层中共享。

（d）基于 trie 的波束搜索示例：沿着 "Lipid" 和 "breakdown" 的路径，BiomedGPT 在计算目标token "in" 的对数概率时将所有无效 token（"mechanism" 和 "pathway"）的对数设置为 -∞。值得注意的是，基于 trie 的搜索也应用于微调阶段的验证阶段，以加速（在我们的实验中，速度提高了约 16 倍）。

4. 方法

4.1 架构及表示

4.1.1 模型架构选择

目前基础模型架构主要分为三类：

1）仅编码器（Encoder-only）：

代表模型：BERT 及其变体
优势：能够提取文本特征，适用于分类任务
局限性：缺乏文本生成能力，难以适应多模态任务

2）仅解码器（Decoder-only）：

代表模型：GPT 系列
优势：强大的文本生成能力，适用于问答和报告生成
局限性：无法高效地处理医学图像等多模态数据

3）编码-解码（Encoder-Decoder）：

代表模型：T5、BART
优势：
- 同时具备编码和解码能力，适用于多模态任务
- 能够有效处理文本、图像和结构化数据
局限性：需要更复杂的训练方法以优化跨模态学习能力

4.1.2 BiomedGPT 架构

BiomedGPT 是通过对 损坏的文本 使用 BERT 样式的编码器 和 GPT 样式的从左到右的自回归解码器 来实现的（采用 Transformer 编码-解码（Encoder-Decoder）架构）。

所有这些模型都依赖于具有广泛使用的 **多头注意机制（扩展数据图 3a）**的 transformer，该机制允许模型共同关注来自不同表示子空间的信息。

为了提高预训练中的收敛效率和稳定性，在每一层添加了 三个归一化操作（扩展数据图 2b）：

post-attention Layer Norm (LN) 、
post-first-FFN LN
head-wise scaling within self-attention

为了对位置信息进行编码，我们为文本和图像合并了两组 绝对位置嵌入（absolute position embeddings） 。我们没有仅仅将这些嵌入与 token 和 patch 嵌入相结合，而是实现了一种 解耦方法 来分离位置相关性**（扩展数据图 3b）**，这可能会给注意力带来不必要的随机性，并进一步限制模型的表现力。

此外，我们还结合了 文本的 1D 相对位置偏差 和 图像的 2D 相对位置偏差（扩展数据图 3c）。

为了研究 BiomedGPT 在不同规模的任务中的表现，我们明确设计了 三个缩放模型 ，即 BiomedGPT-S（33M）、BiomedGPT-M（93M）和 BiomedGPT-B（182M） 。每个模型的配置在 扩展数据图 2a 中有详细说明。

图 6：消融研究对预训练数据集和任务多样性影响的结果以及 BiomedGPT 设计的图形演示。

（a）不包括特定任务的性能比较。这里使用的指标是放射学 VQA、医学语言推理和图像分类的准确性、放射学字幕的 CIDEr、医学问题总结的 ROUGEL-L。

（b）BiomedGPT 在四个数据集上的跨域可迁移性。RadGPT 是 BiomedGPT 的一种变体，但已使用仅放射学数据进行了预训练。此外，SLAKE-MRI 和 SLAKE-CT 是 SLAKE 数据的模态特定子集。

（c）BiomedGPT 在三种放射学模态/数据集中的域内可迁移性。

（d）BiomedGPT 中用于预训练和推理的统一词汇表的描述。

分别通过 Pix2Seq 和 BPE 对边界框和文本进行标记化（tokenization）。
有三种类型的标记（token）：来自冻结的预训练标记器（例如 VQ-GAN）的位置标记、文本标记和图像标记。
我们还展示了预训练中的掩蔽图像建模的图形说明，旨在通过重建掩蔽的 patch 来学习表示。

4.1.3 统一的输入-输出表示

BiomedGPT 采用 统一的 Token 表示方法 ，为所有多模态输出的 token 构建一个 统一的词汇表（图 6d），实现跨模态数据的统一编码：

文本数据 ：使用 BPE（Byte Pair Encoding） 进行编码
医学图像 ：采用 VQGAN（Vector Quantized Generative Adversarial Network） 进行量化编码。图像中对象的边界框以整数格式表示为位置 token 序列

4.2 任务

4.2.1 预训练任务

预训练过程中，BiomedGPT 采用了多种任务来提升其泛化能力：

1）视觉任务：

掩码图像建模（MIM）：采用块状掩码（block-wise masking）方法，使模型预测被遮挡区域的图像内容。

图像填充（Image Infilling）：生成缺失部分的图像像素编码。

目标检测（Object Detection, OD）：模型学习生成图像中目标的边界框，其任务指令为："图像中有哪些物体？"。

2）文本任务：

掩码语言建模（MLM）：类似于 BERT 的方法，通过随机屏蔽部分文本并让模型预测完整文本。

3）多模态任务：

图像描述（Image Captioning）：任务指令："这张图像描述了什么？"。

视觉问答（VQA）：任务指令为相应的具体问题，如："{Question}"。

4.2.2 微调和下游任务

在 BiomedGPT 的微调阶段，除了预训练任务中的图像描述和 VQA 外，还包括以下额外任务：

图像分类（Vision-only）：任务指令："这张图片描述了什么？"。

文本摘要（Text Summarization）：任务指令："'{Text}'的摘要是什么？"。

自然语言推理（Natural Language Inference, NLI）：任务指令："{文本1} 是否能推断出 {文本2}？"。

4.3 训练

4.3.1 模型预训练

1）训练方法

BiomedGPT 采用序列到序列（seq2seq）学习方法进行预训练。

给定输入序列 token x_{i,b}，模型的通过自回归地最小化如下目标进行预训练：

2）训练超参数

优化器：AdamW

学习率 ：1e-4，采用 线性衰减调度（linear decay scheduler）

正则化：Dropout = 0.1，权重衰减 = 0.01

数据增强 ：采用 随机裁剪（Random Cropping）、随机翻转（Random Flipping）

4.3.2 模型微调与推理

微调策略： BiomedGPT 采用 多任务微调（Multitask Fine-tuning），即在不同下游任务上进行针对性优化

推理方法： BiomedGPT 采用 自回归解码 进行推理，并使用结合了前缀树（也称为 trie）的波束搜索策略，从而限制了候选 token 的数量，实现了更高效、更准确的文本生成：

4.3.3 指令调优

BiomedGPT 采用 指令调优（Instruction Tuning），通过任务指令引导模型执行不同任务。

指令调优的关键特点：

开放词汇（Open-vocabulary setting）：模型可以生成任意答案，而不是选择预设选项。
动态适配任务（Task Adaptability）：无需微调即可处理新任务。

4.4 模型扩展

BiomedGPT 的基础版本支持 文本 + 2D 医学影像，但研究团队进一步扩展了其能力：

1）扩展至 3D 医学影像分类（MRI, CT）：

采用 3D VQGAN 进行 3D 影像 Token 化，以适配模型输入。
额外引入 3D 视觉编码器（3D Visual Encoder） 进行特征提取。

2）分割（Segmentation） ：增加 Mask Decoder 以适配分割任务

5. 结果

5.1 BiomedGPT 在多模态任务上的表现

图 3：BiomedGPT 对视觉语言和医学图像分类下游任务进行微调。

(a) BiomedGPT 和领先模型在封闭式和开放式准确度方面的医学 VQA 性能。
(b) BiomedGPT 和 SOTA 在 IU X-ray、PEIR GROSS 和 MIMICCXR 数据上的图像字幕性能。评估指标为 ROUGEL-L、METEOR 和 CIDEr。
(c) 对每种域类型的 MedMNIST-Raw 数据集上的图像分类评估。
(d) 两个超分辨率图像数据集上的图像分类性能和准确度。
(e) 使用 F1-macro 在 CBIS-DDSM 数据集上的图像分类性能。
(f) 9 个不同分辨率数据集的准确度在模型尺度方面有所不同。一般来说，较大的模型往往表现更好。

5.2 迁移学习和零样本能力

图 4：BiomedGPT 执行几个时期的迁移学习以理解和总结临床文本，并通过零样本迁移学习生成响应。

(a) 使用 10 倍交叉验证 (n=4680) 对治疗建议任务模型的准确性进行评估。
(b) 使用 10 倍交叉验证 (n=7079) 对来自 TREC 2022 数据集的患者试验匹配数据集的准确性进行性能比较。
(c) 三种 BiomedGPT 变体和两种 SOTA 模型 BioGPT 和 LLaVA-Med 在院内死亡率预测中的准确性。
(d) ROUGEL-L 在四个文本摘要数据集上的模型规模。图例的大小代表参数的数量。
(e) MedNLI 数据集上的医学语言推理性能。
(f) Instruct-BiomedGPT（基础、中、小）、BiomedGPT、OFA（大、巨大）、LLaVA-Med 和 GPT-4V 之间的零样本问题对齐准确度比较。我们提供了一个示例来说明生成的答案与问题之间的不匹配。
(g) VQA-RAD 数据集上 7 种问题类型的平均零样本准确度。
(h) 通过 50 次重复采样（n=39）在 VQA-RAD 数据集上的整体零样本学习性能。

5.3 人类专家评估

图 5：VQA、文本摘要和标注（captioning）任务的人工评估。

（a）三项任务的人工评估示例，包括响应真实性、遗漏和错误的重要性。

（b）三种模型在放射学 VQA 的六个问题类别中的性能比较。

（c）放射学 VQA 的平均答案分数。

（d）生成的放射学报告中 BiomedGPT-B 和 BiomedGPT-M 的错误率和遗漏率。

（e）报告摘要的人工评估考虑三个属性：完整性、正确性和潜在危害，并具有总体偏好。

6. 讨论

1）高质量医学数据的稀缺

医学数据的标注成本高昂 ，需要专业知识，导致高质量、多模态医疗数据集的缺乏。

研究人员通常依赖于公共数据集 ，但这可能会导致数据质量不均。

在多模态数据（尤其是图像-文本 对）中，存在数据模态不均衡的问题：

放射学（Radiology）数据占比过高 ，而基因组学（Genomics）、电子健康记录（EHR）等数据较少。
高质量医学影像及其对应的详细注释仍然不足，限制了 AI 对复杂医学任务的适应能力。

2）评估 AI 生成内容的难度

目前常用的 文本评价指标（如 CIDEr, ROUGE-L）能够衡量 AI 生成文本与标准答案的相似度 ，但无法评估其医学事实准确性。

在放射学领域，研究者提出了 F1-RadGraph 评分，用于衡量 AI 生成的放射学报告的事实正确性。

在 **病理学（Pathology）**等其他医学领域，目前尚未建立类似的评估标准，导致难以客观评估 AI 生成的医学内容。

3）AI 在医学多模态学习上的扩展性

BiomedGPT 目前主要支持 文本 + 2D 医学影像，但未来需要扩展至更多医学数据类型：

3D 医学影像（MRI、CT） ：本研究已通过 3D 图像编码器扩展 BiomedGPT 的能力。
视频和时间序列数据（如心电图 EKG、动态超声影像）。

负迁移（Negative Transfer）问题：

在多模态学习中，增加新模态可能会 降低模型在某些任务上的表现。
例如，本研究发现，去除图像数据 可提升文本任务的性能，说明不同数据模态之间可能存在干扰。

4）AI 扩展的权衡

模型规模与性能呈正相关，即参数规模越大，任务表现越好。

但大规模模型面临计算资源和推理效率的挑战：

微调成本高 ：现有的微调方法计算开销大，影响模型在临床环境中的部署。
推理速度受限 ：大模型在实时医疗应用（如医生决策支持）中的推理速度可能较慢。

5）零样本学习的挑战

BiomedGPT 的文本理解能力仍然低于 GPT-4V：

语言模型规模较小（目前 BiomedGPT-B 仅有 182M 参数）。
单一编码器架构可能限制多模态表示能力，导致模型难以分离不同数据模态的信息。

**论文地址：**https://arxiv.org/abs/2305.17100

**进 Q 学术交流群：**922230617