迈向多语言医疗大模型：大规模预训练语料、开源模型与全面基准测试

本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队，共同第一作者为上海交通大学博士生邱芃铖和吴超逸，共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授，这是该团队在继 PMC-LLaMA 后，在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030---"新一代人工智能" 重大项目支持。

在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型，并受制于缺乏多语言医疗专业数据的限制，导致当前的医疗大模型在处理非英语问题时效果不佳。

为了克服这一挑战，近期一篇发表在《nature communications》的论文全面地从数据、测评、模型多个角度考虑了多语言医学大语言模型的构建，做出了三项贡献：

创建了一个包含 25.5 Billion tokens 的多语言医疗语料库 MMedC。
开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言，21 种医学子课题。
推出了一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。

所有数据和代码、模型均已开源。

论文标题：Towards building multilingual language model for medicine
论文地址：www.nature.com/articles/s4...
项目地址：github.com/MAGIC-AI4Me...
Leaderboard: henrychur.github.io/Multilingua...

图 a 揭示了构建的多语言医疗语料库的组成；图 b 介绍了全面的多语言医疗评测标准 MMedBench 的构成；图 c 对⽐了本⽂提出的模型 MMedLM 与当前主流模型在 MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。

大规模多语医疗语料（MMedC）构建

在构建数据集方面，研究团队收集了一份多语言医疗语料库，命名为 MMedC。该数据集包含 255 亿 tokens，其内容来自于四个来源：

通过启发式算法，从广泛的多语言语料库中（例如 CommonCrawl）筛选相关内容。
搜集全球各地的电子版医疗教科书，并使用光学字符识别（OCR）技术转化为文本数据。
从多个国家的许可的医疗相关网站抓取数据。
整合已有的小型医疗语料库，以丰富和完善数据集。

MMedC 数据集统计概览。图 a 展示了该语料库覆盖的语言对应的地域；图 b 提供了各种语言的详细数据量统计；图 c 深入呈现了每种语言数据的来源分布比例。

全面多语言医学能力测试基准数据集（MMedBench）构建

为了评估医学领域多语言模型的发展，研究团队设计了一项全新的多语言选择题问答评测标准，命名为 MMedBench。此基准测试的所有问题均直接源自各国的医学考试题库，而非简单地通过翻译获得，避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。

此外，研究团队还为每个题目提供了正确答案的详细解释。在评测过程中，要求模型不仅要选出正确答案，还需提供合理的解答理由。这样的设计不仅测试了模型回答选择题的能力，也测试其理解和解释复杂医疗信息的能力，从而更全面地评估其性能。

MMedBench 数据统计。图 a 呈现了 MMedBench 训练集与测试集的基础数值统计信息；图 b 揭示了 MMedBench 样本在不同主题上的分布情况。

MMedBench 模型测评

研究团队对主流医疗语言模型在 MMedBench 基准上，对三种不同的测试策略进行了评估：

Zero-shot：适用于没有开源的模型，通过提供 Prompt，引导模型回答选择题，并解释其答案选择的原因。
PEFT Finetuning：适用于已开源的模型，首先利用 LoRA 技术对模型在 MMedBench 训练集上进行局部微调，然后在测试集上评估其性能。
Full model Finetuning：适用于已开源的模型，首先在 MMedBench 的训练集上进行全量微调，随后再在 MMedBench 的测试集上进行测试。

模型准确率评测

如表所示，主流的医学大语言模型在英语中通常表现出很高的准确率，但在非英语语言中的性能显著下降。具体来说，经过微调的 PMC-LLaMA 在英语上的平均准确率为 47.53，尽管其性能超过了同时期的其他模型，但仍显著落后于 GPT 模型。随后，随着更先进的基础模型的应用，开源模型开始缩小与 GPT 系列的差距。例如，在 MMedBench 的训练集上进行全量微调，Mistral、InternLM 2、Llama 3 的平均准确率分数为 60.73、58.59 和 62.79。在 MMedC 语料库上进行进一步自回归训练后，也观察到性能的提升。具体来说，最终模型 MMed-Llama 3 与其基座模型 Llama 3 相比，表现出了显著的性能提升，在全量微调评估下，MMed-Llama 3（67.75）平均准确率显著超越了 Llama 3（62.79）。对于 PEFT 微调也有类似的结论，即在 MMedC 上的进一步自回归训练带来了显著的收益。

主流模型在 MMedBench 上的准确率评测。其中 "MMedC" 标志着模型是否在 MMedC 语料库上完成进一步预训练，"MMedBench" 则标志着模型是否在 MMedBench 的训练集上完成微调。需要注意的是，English，Chinese，Spanish 是四选一选择题，Russian 是二选一选择题，French，Japanese 是不定项选择题。只有模型输出完全正确时，才会被视为正样本。"Avg." 代表这六种语言的平均准确率。

模型解释答案能力评测（ROUGE-1/BLEU-1）

除了多项选择问答任务外，研究还扩展到评测各种大型语言模型的推理能力具体来说，对于给定的问题和选项，模型在输出选择答案的同时，还需要输出选择该答案的理由。下表展示了主流模型在 MMedBench 上对选择题答案的解释能力。

主流模型在 MMedBench 上进行答案解释能力评测。使用的自动指标是 BLEU-1/ROUGE-1。

考虑到基于句子相似度的自动指标不一定能准确地反应人类偏好，研究团队进一步对模型生成的答案解释进行了人工评估，精选了六种代表性强的语言模型进行研究，并对人工评价结果与自动评估指标的一致性进行了深入分析。

模型打分结果对比分析。图 a 展示了按照 BLEU 分数、人工质量排序和 GPT-4 质量排序的量化分数。图 B 展示了自动指标和人类评估之间的相关性，其中 k 代表拟合直线的斜率，t 代表坎德尔相关系数。

公开英文评测基准模型测评

为了在英语基准测试上与现有的大型语言模型进行公平比较，研究团队还基于 MMed-Llama 3 基座模型进行英文指令微调（数据集来自 PMC-LLaMA）。常用的医疗多项选择问答基准测试有四个，分别是 MedQA、MedMCQA、PubMedQA 和 MMLU-Medical。如下表所示，MMed-Llama 3 在英语基准测试上展示了很好的表现，在 MedQA、MedMCQA 和 PubMedQA 上分别获得了 4.5%、4.3% 和 2.2% 的性能提升。同样地，在 MMLU 上，MMed-Llama 3 也在大部分结果中都能达到了开源大语言模型中最好的表现，显著超过了 GPT-3.5。

英语多项选择题答题基准的准确率评估。报告了每个模型在不同任务中的准确率，"Avg." 表示九个任务的平均得分。请注意，为公平起见，所有分数都是基于基本的 zero-shot 生成设置，没有额外的提示策略。由于英文基准已被广泛得应用，因此直接使用其原始论文中报告的分数。对于 MedAlpaca、GPT-4、GPT-3.5 和 Llama 3，它们的分数基于 Open Medical-LLM 排行榜。

数据侧消融实验

在数据侧的消融实验中，作者研究了不同的预训练语料构建过程造成的影响。消融实验是在全量微调下对 MMedLM、MMedLM 2 和 MMed-Llama 3 进行的，分别以 InternLM、InternLM 2 和 Llama 3 作为基础模型。总体而言，三个模型的结论是一致的，在接下来的讨论中，将重点关注最终模型 MMed-Llama 3。

研究团队区分了 HQ-Data（高质量数据）和 US-Data（未指定来源数据）。HQ-Data 包括来自书籍和网站的内容，这些内容经过了人工检验，而 US-Data 则是从一般通用语料库中筛选出的与医学相关的内容。如下表所示，为选择题配备选择理由可以辅助模型更好地理解问题，从 58.72 提高到 62.79，增幅 4.06（对比各模型结果表格的第一行与第二行）。然而，仅在 MMedC 的英语部分进行进一步的自回归训练（参考 MMed-Llama 3-EN）并没有带来准确率的提升。这可能是因为过拟合英语，尽管在英语中的性能优越，但在其他语言中的结果较差。当将自回归训练扩展到整个多语言医学语料库时，这个问题可以在很大程度上得到缓解，显著改善最终结果。这不仅提高了选择准确率至 64.40，还分别在 BLEU-1 和 ROUGE-1 上提高了推理能力 0.48 和 0.54（对比各模型结果表格的第三行与第四行）。此外，引入自动收集的 US-Data 有助于进一步将准确率从 64.40 提高到 67.75，显著增加了 3.35（参考 MMed-Llama 3）。在解释能力上也可以观察到性能增益，即 BLEU-1 增加 0.29，ROUGE-1 增加 0.16。

消融实验。其中 HQ-Data 与 US-Data 用于区分医疗数据是否经过人工审核。具体而言，通过启发式算法从 CommonCrawl 自动获取的数据被归类为 US-Data（未审核数据），而来自其他来源的语料信息均经过了严格的人工审核，因此被标记为 HQ-Data（高质量数据）。

研究与临床价值

在本项工作中，研究团队首次引入了医疗领域的多语言大模型，这对研究和临床实践都有着重要的影响。在研究方面，本工作促进了以下研究的发展：

通用医疗人工智能（GMAI）：GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型，其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型，替代以往以英语为中心的模型，能够充分利用全球多种语言的数据资源，从而扩展可用的多模态训练数据，提升对其它模态信息表征的质量。
增强检索的生成任务：在当前的大型语言模型中，"幻觉" 问题被认为是一个主要挑战，尤其是在医疗领域。一种有效的解决策略是开发具有检索功能的架构，其核心思想是通过从额外的知识库中检索事实信息，并将这些信息输入到大型语言模型中，来增强其输出的准确性。然而，迄今为止，大部分的研究都集中在英语上，这极大地限制了检索增强方法对其他语言知识库的利用。通过开发多语言的医疗模型，能够极大地提高检索过程对不同语言知识库的利用。

在临床实践中，开源的多语言医疗模型也能缓解以下挑战：

语言障碍。在众多医疗保健系统中，语言障碍是患者与医疗服务提供者之间有效沟通的一个主要障碍。这种障碍可能导致误解、误诊，最终使得高质量的医疗资源对大多数人而言变得难以触及。通过提供实时翻译服务，多语言医疗级大型语言模型使患者能够清晰表达自己的症状，并准确理解其诊断与治疗方案。
深入理解文化与法律的异同。多语言医疗语言模型能够通过进一步的指令微调，以识别并应对不同国家在医疗诊断过程中的文化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解，不仅可以显著增强用户对医疗大语言模型的信任，还能促进更高质量的医疗服务体验，确保医疗服务的全球化和个性化。