谷歌medgemma-27b-text-it医疗大模型论文速读：多语言大型语言模型医学问答基准测试MedExpQA

《MedExpQA: 多语言大型语言模型医学问答基准测试》论文解析

一、引言

论文开篇指出大型语言模型（LLMs）在医学领域的巨大潜力，尤其是在医学问答（QA）方面。尽管LLMs在医学执照考试等场景中取得了令人瞩目的成绩，但它们在医学应用中仍存在诸多不足。例如，LLMs可能会生成过时信息或幻觉内容（hallucinated content），即看似合理但事实错误的答案。此外，现有的医学问答基准测试缺乏医学专家提供的金标准解释（gold explanations），这使得评估LLMs的推理能力变得困难。更重要的是，目前对于非英语语言的LLMs医学问答能力评估几乎是一片空白。

二、研究方法

（一）数据集构建

研究者们提出了MedExpQA------首个基于医学考试的多语言LLMs医学问答基准测试。该基准测试首次纳入由医学专家撰写的正确和错误选项的金标准解释。这些解释不仅为正确答案提供理由，还解释了为什么其他选项是错误的。研究者们以Antidote CasiMedicos数据集为基础构建MedExpQA。CasiMedicos数据集包含西班牙医学住院医师考试（类似美国医学执照考试USMLE）的内容，包括临床案例、问题、选项以及医学专家撰写的解释。这些解释最初是西班牙语的，后来被翻译成英语、法语和意大利语。

（二）模型与方法

研究者们选用了四种最先进的LLMs进行实验：PMC-LLaMA、LLaMA-2、BioMistral和Mistral。这些模型在医学问答领域表现突出。研究者们还采用了检索增强生成（RAG）技术，特别是MedRAG方法，来自动检索医学知识，以弥补LLMs知识过时和幻觉内容的问题。

三、实验

（一）实验设置

实验分为零样本（zero-shot）和微调（fine-tuning）两种设置。在零样本设置中，模型直接用于回答问题，未进行额外训练。在微调设置中，模型在CasiMedicos数据集上进行进一步训练，以更好地适应医学问答任务。研究者们还比较了不同知识类型对LLMs性能的影响，包括完整金标准解释（E）、仅错误选项解释（EI）、隐藏明确引用的完整金标准解释（H）以及通过RAG方法自动检索的知识（RAG-7和RAG-32）。

（二）结果

实验结果显示，即使是性能最佳的LLMs，在英语环境下的准确率也只有约75%，而在其他语言环境下准确率下降了10个百分点。此外，微调显著提高了模型性能，但同时也使得RAG方法的作用变得冗余。具体来说，在零样本设置中，RAG方法对模型性能提升有限，且在不同模型和语言设置中的表现差异不大。而在微调设置中，使用金标准解释（E）的模型性能最佳，但其他知识类型（EI和H）的性能也有所提升。

四、讨论

论文讨论了实验结果所揭示的问题。首先，尽管使用了最先进的RAG方法，但其性能仍远不如基于金标准解释的知识。其次，非英语语言的LLMs性能明显低于英语，这凸显了开发多语言LLMs的紧迫性。此外，研究者们还分析了CasiMedicos数据集中医学专家解释的质量和数量，发现部分解释可能缺乏相关医学信息，这可能对LLMs性能产生负面影响。

五、结论与未来工作

论文总结了MedExpQA的贡献，包括提供首个包含金标准解释的多语言医学问答基准测试，揭示了现有LLMs在医学问答中的不足，特别是在非英语语言环境下的表现。未来的工作可能包括评估LLMs生成解释的质量，以及进一步探索多语言LLMs的开发和优化。