2024.4 评估大语言模型在医疗行业应用的综合调查

A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry

https://arxiv.org/abs/2404.15777

问题

大语言模型（LLMs）在医疗领域应用广泛，但缺乏专门针对其在医疗应用中有效性、准确性、可用性和伦理一致性的评估框架。
现有研究在评估 LLMs 于医疗领域的应用时，存在深度和广度不足的问题，尤其是在临床应用、医疗数据治理、医学研究（基础与临床）、医学教育和公共卫生教育等关键领域缺乏深入探讨。
LLMs 在医疗应用中面临技术、伦理和法律等多方面挑战，如数据和样本多样性不足、模型可解释性差、患者隐私保护问题、模型偏见与公平性问题以及法规合规性复杂等。

挑战

技术挑战
- 数据和样本问题：当前研究多依赖单一数据集，缺乏多样性，无法代表全年龄段、性别、种族和地域的患者，限制结果的普适性；且多关注短期效果，缺乏长期性能和影响的研究。
- 模型可解释性低 ：医疗领域需深入理解模型决策过程，但许多模型（如 GPT 系列）是 "黑箱"，内部机制不透明，训练数据未公开，限制了对其性能的全面理解。
- 多模态数据整合不足 ：评估大多集中于文本数据，忽视了 LLMs 整合和处理图像、音频、传感器等多模态数据的潜力，而多模态数据整合对诊断和治疗支持至关重要。
伦理和法律挑战
- 患者隐私保护：使用敏感医疗数据引发对数据泄露和滥用的担忧，需确保严格的数据加密和访问控制措施，并遵守相关隐私法规和标准。
- 偏见与公平性：LLMs 可能存在偏见，影响不同患者群体的性能表现，这可能源于训练数据和算法本身，可能导致歧视性结果。
- 法规合规性：不同地区法规不同，使得 LLMs 在医疗领域的监管合规面临挑战，需建立全球合作以协调监管标准，并与法律专家合作确保合规。

创新点

首次对 LLMs 在医疗领域的应用评估进行全面且深入的综述，涵盖临床应用、医疗文本数据处理、医学研究、医学教育和公共卫生意识等多个方面，系统梳理了该领域的研究现状。
详细阐述了用于评估 LLMs 在医疗领域应用的各种方法和指标，包括不同类型的评估模型、多样化的评估者（人类专家、自动化指标、AI 驱动评估）、多种比较实验设置以及丰富的评估指标（正确性、完整性、复合、可用性、一致性与相似性指标等），为全面评估 LLMs 提供了多维度视角。
分类介绍了用于评估 LLMs 在医疗领域性能的各类基准和数据集，包括通用基准、针对不同任务（如问答、总结、信息提取、生物信息学、信息检索）的特定基准，为后续研究提供了重要的数据资源和评估框架参考。

贡献

为医疗专业人员、研究人员和政策制定者提供了对 LLMs 在医疗应用中的潜力和局限性的全面理解，有助于他们在医疗实践中合理应用和评估 LLMs。
通过详细分析评估过程和整合 LLMs 面临的挑战，为该领域的责任发展和部署提供指导，确保 LLMs 在医疗领域的应用既能发挥其潜力，又能符合严格的伦理标准。
强调了开发专门针对医疗领域的 LLMs 评估框架的必要性，并通过对评估方法、指标、基准和数据集的全面梳理，为构建更完善的评估体系提供了理论基础和实践参考。

提出的方法

从应用领域和场景、评估方法和指标、基准和数据集三个方面对 LLMs 在医疗领域的应用进行全面评估。
在应用领域和场景方面，细分了临床应用（包括通用综合应用、专科疾病应用、支持部门应用）、医疗文本数据处理、医疗研究（包括信息检索与筛选、建模与分析、写作与参考文献生成）、医学教育和公共卫生意识等多个具体应用场景，并分别阐述了在这些场景中 LLMs 的应用及评估方式。
评估方法涵盖了多种类型的模型（商业模型、开源模型、定制模型）、不同类型的评估者（人类专家、自动化计算、AI 驱动评估）以及多种比较实验设置（模型间比较、与特定算法和系统比较、模型单独评估、与人类专家比较）。同时，运用了丰富的评估指标，从正确性、完整性、复合、可用性、一致性与相似性等多个维度对 LLMs 的性能进行评估。
在基准和数据集方面，详细分类介绍了各类用于评估 LLMs 的基准，如通用基准、问答任务基准（临床决策支持、医学知识问答、医学信息检索问答）、总结任务基准（问题总结、答案总结、大众总结、医疗报告生成与总结）、信息提取基准（命名实体识别、关系提取、实体链接、文本分类、综合信息提取）、生物信息学基准和信息检索基准，并分别阐述了每个基准下包含的具体数据集及其用途。

指标

正确性指标
- 临床应用相关：如在诊断、预后、决策制定、风险预测等任务中常用准确率评估，通过计算模型回答与标准化临床案例或实际诊断结果的匹配比例来衡量；也使用其他指标如精确率、TPR、FPR 等评估不同方面的正确性。
- 特定任务相关：在自然语言处理（NLP）、自然语言推理（NLI）等任务中常用精确率；在医学检查中主要用准确率评估答题正确率；在问答任务中，准确率也是常用指标，通过与标准答案对比或在公共 QA 基准和数据集上评估模型回答的正确性，还包括根据具体标准（如对眼科问题回答的准确性分级、对模型回答与专家答案对比评估等）进行评估。
- 信息检索和参考支持相关 ：使用准确率、精确率、MAP、NDCG 等指标评估模型在信息检索和参考支持任务中的正确性，如评估文献检索模型的准确性、模型筛选临床研究标题和摘要的正确性、识别参考文献的正确性以及在假新闻识别任务中的准确性和精确率。
完整性指标
- 信息检测相关：如在 COVID - 19 假新闻检测中使用召回率（敏感性）评估模型检测信息的完整性，计算模型正确识别出的真实阳性结果占所有应被识别的真实阳性结果的比例。
- NLP 任务相关：在各种 NLP 任务（如命名实体识别、关系提取、实体链接等）中，召回率是常用的完整性评估指标，衡量模型识别出的真实阳性结果占所有实际阳性结果的比例。
- 问答应用相关 ：通过专家共识评级（如对眼科症状查询回答的全面性评估使用五点量表）、评估回答中重要内容的遗漏情况（如在医学问答任务中）、基于回答细节水平（如对近视相关问题回答的全面性评估使用五点量表）以及使用三点 Likert 量表（评估聊天机器人回答的完整性）等方式评估 LLMs 回答的完整性。
- 临床应用相关：在诊断和临床预测任务中，如 COVID - 19 病例识别和治疗相关的自然语言处理模型、NYUTron 模型在预测任务中，使用召回率评估模型输出的完整性。
复合指标
- 显式复合指标
  - F - score（特别是 F1 - score）：广泛应用于 NLP 任务（如文本分类、实体识别、关系提取）、假新闻检测、文献筛选和图像分类等任务中，通过结合精确率和召回率来综合评估模型的正确性和完整性。
  - BLURB score ：作为 BLURB 基准的一部分，是对生物医学领域内多个 NLP 任务得分的宏观平均，用于全面评估语言模型处理复杂生物医学文本的能力。
  - AUC（Area Under the Curve）和 AUROC（Area Under the Receiver Operating Characteristic curve） ：常用于评估二进制分类模型在所有可能分类阈值下的性能，在医学诊断和预测建模中，对评估模型在疾病筛查和患者风险评估等任务中的性能至关重要，因为这些任务中敏感性和特异性非常关键。
- 隐式复合指标
  - 通过专家对回答质量的综合评估（如对 ChatGPT 在糖尿病管理中关于生酮饮食回答的评估，基于专业性、逻辑连贯性、可读性和准确性等方面）来衡量模型性能。
  - 结合临床准确性和完整性评估（如对 GPT - 4 和 LaMDA 在产后抑郁症常见问题回答的评估，与专业标准对比）来评估模型。
  - 利用综合指标（如准确性和完整性的组合）评估模型在特定领域（如口腔颌面放射学报告写作）的表现。
  - 使用 SOLO taxonomy 等综合指标，从准确性和相关性等方面评估模型在回答生理学案例问题中的表现。
  - 采用 mDISCERN score 评估 LLMs 生成的医疗信息质量，涵盖治疗选项、目标、平衡性、共享决策、作用方式、益处、生活质量影响、风险和其他来源等多个方面。
  - 使用 DISCERN 工具评估模型在评估在线医疗内容质量方面的性能，考虑清晰度、相关性和偏见等因素。
  - 将医学考试评分视为隐式复合评价指标，从多个角度评估医学专业人员的能力，如在产科和妇科考试中，考虑安全、沟通、信息收集和临床知识应用等方面。
可用性指标
- 帮助性和类人性相关 ：通过评估模型对用户意图的理解和回答的有用性（如由普通用户评估 LLMs 在回答消费者医疗问题时的相关性和有用性）、可靠性和类人性（如评估模型生成的临床文档的可靠性、自然度和可读性，使用多种指标如 Cronbach's alpha、人类化评分、可读性指数等）以及通过特定测试（如 Turing 测试）评估模型模仿人类写作的能力来衡量模型的可用性。
- 鲁棒性相关 ：通过评估模型在不同影响因素（如人口统计学因素、临床敏锐度）下的性能一致性（如 ChatGPT 在不同患者特征和病例严重程度下的临床决策支持准确性评估）、使用 Fleiss κ 系数评估模型在不同时间和评估者下的回答一致性（如 ChatGPT 在诊断骨科疾病时的一致性评估）以及评估模型在不同种族和性别等人口统计学因素下的结果偏差（如 GPT - 4 在诊断建议和患者评估中的偏差评估）来衡量模型的鲁棒性。
- 安全性相关 ：通过评估模型生成的医疗建议的潜在危害（如眼科领域中 ChatGPT 生成建议的潜在危害评估）、使用安全相关指标评估模型在消费者医疗问答任务中的潜在健康危害（如评估回答中健康相关危害的严重程度和可能性）以及评估模型在临床应用中的不安全分诊率（如 ChatGPT 在急诊科应用中的不安全分诊情况评估）来衡量模型的安全性。
- 其他相关 ：还包括模型的自我纠正能力（如评估模型在眼科症状查询、医学考试问题回答等任务中对初始回答的自我检查和纠正能力）、多样性评估（如评估 GPT - 4 在诊断和治疗计划中的创新性和多样性）、推荐强度评估（如评估 ChatGPT 在骨科疾病自我诊断中对医疗咨询的推荐强度）、情感极性和主观性评估（如评估 ChatGPT 在回答生育相关常见问题时的情感极性和客观性）以及分诊谨慎程度评估（如评估 LLMs 和症状检查器在临床应用中的分诊谨慎程度）。
一致性和相似性指标
- 共识相关 ：通过评估模型输出与公共共识的一致性（如 ChatGPT 在糖尿病管理中生酮饮食建议与专家指南的一致性评估）、与医学社区共识的对齐程度（如 ChatGPT 在眼科建议与医学标准的一致性评估）、与科学共识的对齐评估（如在消费者医疗问答任务中评估模型答案与科学和临床指南的一致性）以及使用 Cohen's kappa 等指标评估模型与人类审查者在筛选临床研究标题和摘要时的一致性（考虑决策的一致性和与医学共识的相关性）来衡量模型与人类共识的一致性。
- 相似性相关
  - 使用 BLEU Score、BERT Score、METEOR、ROUGE、CIDEr 等文本相似性度量评估 LLMs 生成的内容与参考文本（如专家生成的文本）在词汇、语义等方面的相似性，常用于评估生成文本（如放射学报告、总结内容等）与参考文本的一致性和质量。
  - 使用 Pearson 相关系数评估句子相似性任务中预测和真实相似性得分的对齐情况，如在生物医学和临床句子检索应用中。
  - 使用 Z - scores 评估模型与人类专业人员（如在自杀风险评估中 ChatGPT 与心理健康专业人员评估的差异）之间的差异。
  - 使用编辑距离 - 基于相似性度量（如 Segmentation Similarity、Boundary Similarity、B2）评估模型在段落分割任务中的能力，如评估模型生成的文本与参考文本在段落分割方面的相似性。

模型结构

论文中提及了多种用于医疗领域应用和评估的模型结构，主要包括以下几类：
- 商业模型：如 GPT 系列（GPT - 3.5、GPT - 4）、Claude、Bard、PALM、LaMDA 等，这些模型在多项医疗领域应用评估研究中被广泛使用，研究人员通过其 API 或特定接口（如 ChatGPT）对其能力进行测试和评估。
- 开源模型
  - 通用领域：包括 BERT、GPT2、RoBERTa、LLaMA、Llama 2、ALBERT、T5、FLAN - T5、BLOOMZ、PRIMERA、DistilBERT 等，这些模型在医疗领域的应用研究中也发挥了重要作用，尤其在一些特定医疗任务中，开发者可根据需求对其进行定制和优化。
  - 特定领域：如 BlueBERT、BioGPT、BioBART、BioBERT、ClinicalBert、ProtTrans、BioSeq - BLM、PubMedBERT、SciBERT、bsc - bioehr - es 等，这些模型专门针对生物医学或临床文本处理任务进行了优化，能够更好地适应医疗领域的需求。
- 定制模型：针对特定医疗应用场景和任务，研究人员还开发了一些定制的模型，如 GatorTronGPT（基于 GPT - 3 架构，用于医学研究和医疗保健领域的关系提取和问答任务）、cMolGPT（用于分子设计的生成式预训练 Transformer 模型）、NYUTron（基于 BERT - like 架构，用于 NYU Langone Health System 的一系列临床和运营任务）、CNBERT（领域特定预训练语言模型，用于医疗文本分类任务）、ARMOUR（基于 Transformer 的融合模型，用于处理临床环境中的多模态数据）等。这些定制模型通过特定的架构设计和训练方式，旨在提高在特定医疗任务中的性能表现。

结论

本综述强调了 LLMs 在医疗领域应用的潜力和面临的挑战，突出了专门评估框架对确保其有效和伦理应用的必要性。
通过深入分析 LLMs 在临床应用、医疗文本数据处理、医学研究、医学教育和公共卫生意识等多方面的角色，以及评估方法（包括模型、评估者、比较实验）和指标，为医疗领域相关人员提供了全面理解 LLMs 在医疗应用中的有效性、准确性、可用性和伦理一致性的视角。
明确指出 LLMs 在医疗应用中的关键技术挑战（数据质量和多样性、模型可解释性、多模态数据整合）、伦理和法律挑战（患者隐私、偏见与公平性、法规合规性），并提出相应的改进策略，如开发更全面的评估框架、改进评估方法和指标、填补现有方法的差距和局限等。
展望未来，认为负责任地开发和部署 LLMs 在医疗领域的应用依赖于持续的实证验证和严格的多维评估框架的建立，以充分发挥其潜力，同时维护严格的伦理标准，最终推动医疗实践朝着更安全、有效和伦理的方向发展。

剩余挑战和未来工作

剩余挑战
- 技术层面 ：尽管对 LLMs 在医疗领域的评估已取得一定进展，但数据和样本多样性不足、模型可解释性低以及多模态数据整合困难等问题仍然存在，这些问题限制了对 LLMs 性能的全面理解和有效应用。
- 伦理和法律层面：患者隐私保护、模型偏见与公平性以及法规合规性等方面仍面临挑战。确保患者隐私需要持续加强数据安全措施，解决模型偏见需要更深入的数据处理和算法改进，而全球法规协调仍需大量努力。
未来工作
- 完善评估框架 ：开发更全面的评估框架，将技术性能、伦理考量和法律合规性有机结合，确保对 LLMs 在医疗领域的评估全面且深入，涵盖更多关键方面，如模型的长期影响、在复杂医疗环境中的适应性等。
- 改进评估方法和指标 ：进一步优化评估方法和指标，更加注重可用性、鲁棒性和安全性等方面的评估。引入新的评估指标，如对模型生成内容的逻辑性、深度理解能力的评估，结合定性和定量方法，利用先进的自动化工具并加强人类专家审查，以提高评估的准确性和深度。
- 填补研究空白：通过系统评价和实证研究，深入挖掘当前评估中的薄弱环节，加强学术界、产业界和医疗从业者之间的合作，共同开发创新解决方案。定期更新和完善评估标准，以适应不断发展的技术和新兴挑战，如应对新的医疗数据类型、新的应用场景需求等。

数据集

通用基准数据集
- BLURB（Biomedical Language Understanding & Reasoning Benchmark）：包含多种数据集（如 BC5CDR - CHEM、BC5CDR - Disease、BC2GM、JNLPBA、EBM PICO、CHEMPROT、GAD、BIOSSES、HoC、PubMedQA、BioAsq challenge 等），用于评估 LLMs 在生物医学自然语言处理任务（如命名实体识别、关系提取、文本分类、问答）中的能力。
- MultiMedQA：涵盖多个数据集（如 PubMedQA、MedQA、MedMCQA、LiveQA、MedicationQA、MMLU 临床主题、HealthSearchQA 等），用于评估 LLMs 在医学领域的知识理解和应用能力，特别是在问答任务方面。

正文

摘要

自 2017 年 Transform 架构启动以来，GPT 和 BERT 等大型语言模型（LLM）已经发生了重大发展，以其在语言理解和生成方面的先进能力影响着各个行业。这些模型已经显示出改变医疗领域的潜力，突出了专业评估框架的必要性，以确保其有效和合乎道德的部署。这项全面的调查描绘了 LLM 在医疗保健领域的广泛应用和必要评估，强调了经验验证的迫切需要，以充分利用其在增强医疗保健结果方面的能力。我们的调查旨在对 LLM 在临床环境、医学文本数据处理、研究、教育和公共卫生意识方面的应用进行深入分析。我们首先探索 LLM 在各种医疗应用中的作用，详细说明了它们基于临床诊断、医学文本数据处理、信息检索、数据分析和教育内容生成等任务中的表现进行的评估。随后的部分对所采用的评估方法和指标进行了全面讨论，包括模型、评估者和比较实验。我们进一步检查了这些评估中使用的基准和数据集，为问答、总结、信息提取、生物信息学、信息检索和一般综合基准等任务提供了基准的分类描述。这种结构确保了对 LLM 在医学领域的有效性、准确性、可用性和道德一致性进行评估的透彻理解。

通过这项调查，我们旨在让医疗从业者、研究人员和决策者全面了解 LLM 在医疗应用中的潜在优势和局限性。通过对评估过程和将 LLM 整合到医疗保健中面临的挑战提供详细的见解，这项调查旨在指导负责任地开发和部署这些强大的模型，确保它们在保持严格道德标准的同时充分发挥潜力。

1 简介与背景

自 2017 年 Google 团队引入 Transform 架构 [55] 以来，自然语言处理领域进入了一个新时代。Transform 的创新之处在于它使用了自注意力机制，显着提高了模型处理远程依赖关系的能力，为众多

后的语言模型。在此之后，OpenAI 于 2018 年发布了 GPT（生成预训练变压器）[56]，它利用了预训练和微调方法。通过对大量文本数据进行无监督学习，然后对特定任务进行微调，GPT 显着提高了各种自然语言处理任务的性能。谷歌的 BERT（来自变压器的双向编码器表示）[57] 模型通过双向训练进一步完善了预训练方法，增强了对文本的上下文理解。GPT-2 [58] 和 GPT-3 [59] 的发布标志着模型大小和生成能力的显着增加。特别是，GPT-3 具有 1750 亿参数，以产生当时几乎与人类写作无法区分的文本而闻名。此后，InstructGPT [60] 和 ChatGPT [61] 针对遵循用户指令进行了优化，进一步提高了与人类的交互质量和实用性。2023 年，OpenAI 推出了 GPT-4 [62]，这是一种更大、更智能的模型，能够处理更复杂的语言理解和生成任务，在多个维度上展示了卓越的性能。此外，模型的创新不断发展，例如谷歌的双子座 [63] 模型，该模型针对特定的信息检索任务进行了优化。在开源领域，LLaMA [64]、OPT [65] 等模型为研究社区和行业提供了更大的灵活性和可访问性。这些模型旨在提供与大型专有模型竞争的性能，同时降低使用和研究的门槛。值得注意的是，像 Gemma [66] 和 Meta 的 OPT（开放预训练转换器）这样的模型因其开放可访问性和对各种语言和任务的适应性而广受欢迎，促进了该领域更广泛的实验和开发。通过这些发展，LLM 不仅在理解、内容生成、推理和工具使用方面展示了强大的能力，而且还为人工智能应用开辟了新的可能性，特别是在需要深度语义理解和交互的领域。

继变压器、GPT 和 BERT 等基础技术之后，大型语言模型（LLM）已经在各个行业中找到了广泛的应用，展示了它们的适应性和变革潜力。教育部门正在见证 LLM 作为教师助理和反馈提供者的新兴角色。例如，ChatGPT 已经被测试为自动化教练，分析课堂互动以提供反馈，尽管它的建议有时缺乏新颖性 [67]。此外，事实证明，LLM 能够向学生提供详细和连贯的反馈，在清晰度和细节方面优于人类教师 [68]。在法律领域，像 GPT-3 这样的 LLM 已经被定制为执行需要法律推理的任务，在使用专门的提示技术时显示出像日本律师考试这样的任务的改进 [69]。此外，GPT-4 因其生成法律术语准确解释的能力而受到评估，并通过整合判例法中的上下文数据得到进一步增强 [70]。LLM 也极大地影响了软件开发。它们被用于检测软件中的漏洞，在识别源代码中的问题方面表现出优于传统模型 [71]。此外，像程序员助手这样的模型允许对话交互，通过集成上下文感知对话来改进软件开发过程 [72]。在金融领域，轩辕 2.0 模型展示了 LLM 如何专门用于中文金融讨论，通过混合调整方法提供特定领域的响应 [73]。研究还表明，LLM 可以执行复杂的金融推理，在某些模型大小下显着出现能力，并通过指令调整得到改进 [74]。这些例子强调了 LLM 在适应不同专业和学术需求方面的多功能性，为更深入地集成到特定领域的应用程序奠定了基础。LLM 在医学领域的应用是本次调查的一个重要焦点，将在本次调查的后面详细讨论，此处不再详细说明。

大型语言模型（LLM）已经在各个行业中广泛部署，但它们带来了可能阻碍其有效性和道德部署的固有挑战。深度学习缺乏透明度、概率而非确定性输出、频繁的幻觉、有限的推理能力以及知识覆盖的潜在偏见等问题需要在实际环境中对 LLM 进行严格评估，以确保其可靠性、安全性、效率和道德完整性。最近的几项研究说明了应对这些挑战所需的评估的深度和多样性。[75] 评估 ChatGPT 在逻辑推理、非文本推理和常识推理任务上的表现。它表明，虽然 ChatGPT 在多任务和多语言能力方面表现出色，但它在可靠性方面遇到了困难，经常产生幻觉，并在不同的推理类别中表现出不同的成功。[76] 评估语言模型使用基于生成零镜头提示的方法识别文本中有毒内容的能力。它探索了模型的自我诊断能力，并讨论了这些方法的伦理影响，强调了社交媒体数据集毒性检测的定量和定性优势。在 [77] 中，作者开发了一个框架，通过关注决策中的逻辑一致性而不是直接正确性来评估超人机器学习模型。他们将这种方法应用于国际象棋评估、预测和法律判断等任务，揭示了包括 GPT-4 在内的模型中的逻辑不一致，即使在没有传统地面实况的情况下也是如此。[78] 通过在名为 PopQA 的新开放域 QA 数据集上使用 10 个模型和 4 种增强方法进行广泛的知识探测实验，评估大型语言模型（LMs）记忆事实知识的能力。研究结果表明，虽然 LMs 与不太流行的事实知识作斗争，并且缩放并没有显着改善长尾记忆，但检索增强的 LMs 在效率和事实准确性方面明显优于更大的非增强模型。[79] 通过分析 ChatGPT 对特定文化提示的反应来评估其文化适应。这项研究表明，虽然 ChatGPT 与美国人非常一致

文化规范，它在适应其他文化背景方面的有效性有限，当用英语提示时，通常会平淡文化差异。[80] 评估了 ChatGPT 等大规模语言模型的固有偏见，讨论了它们在训练数据、模型设计和算法约束方面的起源。它强调了有偏见的输出带来的道德挑战，并回顾了当前识别、量化和减轻这些偏见的方法，以促进更负责任和合乎道德的 AI 系统的发展。

LLM 评估领域的最新评论揭示了不同的方法和方法。[81] 强调了 LLM 评估分为知识和能力、一致性和安全评估的分类，强调构建综合评估平台以指导负责任的发展并最大化社会利益。[82] 侧重于使 LLM 与人类意图保持一致的关键任务，涵盖可靠性、安全性和公平性等维度。它提供了对多个子类别的可信度的详细分析，以解决实际应用程序中的对齐挑战。[83] 讨论了 LLM 在各个领域（包括医疗保健和教育）的广泛评估需求。它倡导一种广泛的评估方法来解决 LLM 的社会影响和实际整合，促进持续评估以改进这些技术。尽管有这些有见地的评论，但在评估的深度和广度上仍然存在显着差距，特别是在医疗保健领域。尽管现有的综述 [81， 83] 涉及医学应用，但它们缺乏对临床应用、医疗数据管理、研究（基础和临床）、医学教育和公共卫生教育等关键领域的深入研究。这些领域的复杂性和敏感性需要专门的评估框架，这些框架可以全面评估 LLM 在医疗保健方面的表现。因此，迫切需要一项专门审查，重点关注医疗保健垂直领域内 LLM 的评估。此类审查应旨在为医疗保健从业者、研究人员和政策制定者提供有关 LLM 应用和评估的详细见解，确保他们具备在各种医疗环境中有效实施和评估这些技术的知识。这不仅有助于利用 LLM 的潜力来改善医疗保健结果，还可以确保其部署受到严格的道德标准和实际疗效的约束。

本综述旨在从医疗保健专业人员、研究人员和患者的角度对医疗领域的大型语言模型（LLM）进行全面评估。它旨在作为将 LLM 技术集成到各种医疗应用中的参考，促进对其实施和评估做出明智的决策。我们将深入研究 LLM 在临床应用、数据处理、研究支持、教育和公共卫生意识中的应用。审查将涵盖医学领域使用的详细评估方法，包括基准、评估实体、评估主体、比较实验和详细的程序见解等。这种结构化的方法将帮助利益相关者了解评估医疗保健领域 LLM 应用的范围，确保这些创新得到有效整合。

2 调查的分类法和结构

在强调医疗领域迫切需要对 LLM 进行专业评估的介绍和背景之后，本章概述了我们全面审查的结构。本综述旨在浏览 LLM 在医疗保健领域的多方面应用和评估，阐明其潜力和实施的复杂性。

第 3 节从三个不同的角度对医疗保健领域的 LLM 进行了评估：应用领域和场景、评估方法和指标以及基准和数据集。评估概述如图 1 所示。

・在《3.1 基于应用领域和场景的评价》中，我们重点介绍了法学硕士在医学领域不同方面的应用评价，包括临床应用、医学文本数据处理、医学研究、医学教育和公众意识。

-- 在 3.1.1 部门和特定疾病临床应用的评估中，我们首先剖析了一系列临床应用的评估。1）对于一般综合应用程序，我们评估 LLM 在一般临床环境中的表现，提供对其在各个医疗部门的有效性的基本理解，而无需关注特定疾病。2）对于专业部门和疾病应用，我们探讨了 LLM 在内分泌学和眼科等专业医学领域的使用，详细介绍了这些技术如何满足特定健康状况的独特需求。3）对于支持部门申请，重点随后转移到支持部门，例如放射学和紧急护理，其中 LLM 协助关键的诊断和程序任务。

-- 3.1.2 医学文本数据处理应用程序评估深入探讨了 LLM 应用程序在处理医学文本数据方面的领域，说明了如何在各种数据处理任务中评估这些模型。评估侧重于几个关键方面，例如关系提取（RE），名为实体识别（NER）和问答（QA），这对于提高临床记录和电子健康记录（EHR）等医学文本数据的实用性至关重要。本小节中的研究表明 LLM 能够改进生物医学 NLP 任务。这些进步凸显了这些模型在改变医疗数据处理方式方面的潜力，使其对医疗保健提供者来说更容易访问和可操作。此外，全面的基准研究评估了 ChatGPT 等模型在不同类型的医学文本中的表现，包括临床试验描述和生物医学语料库。这些研究使用一系列指标（例如 NER 的实体级 F1 分数和 QA 任务的准确性）来评估模型。结果表明，生物医学文本理解能力有效，但有时是有限的，这表明了需要进一步改进和适应的领域。讨论的评估为从业者和研究人员提供了如何将 LLM 应用于医疗保健部门的数据处理场景的示例。它们提供了对应用程序模式以及如何评估这些应用程序的见解，帮助用户了解 LLM 在实际环境中的操作效率和实际限制。这些见解对于指导 LLM 技术的进一步发展和改进以更好地满足医学界的需求至关重要。

在 3.1.3 医学研究应用评估中，我们研究了大型语言模型（LLMs）在医学研究中的影响，强调了它们在三个关键领域的实用性：1）检索和筛选：LLMs 增强了生物医学信息检索和文章筛选，这对系统评价至关重要。评估的重点是模型在有效提取相关信息方面的准确性、敏感性和特异性。2）建模与分析：LLMs 用于建模生物过程和分析复杂数据集，帮助假设生成和疾病建模。它们的有效性是通过精度、召回率和特定于字段的指标来衡量的，以确保准确性和适用性。3）写作和参考文献生成：LLMs 协助起草科学论文和生成参考文献，自动化像引文格式和文献总结这样的日常任务。性能是根据内容和参考文献的准确性、连贯性以及适当性进行评估的。

3.1.4 医学教育与公众意识应用评估强调了 LLMs 在医学教育中的作用，包括医学学生和专业人士以及提高公共卫生意识。1)

医学教育： LLM 越来越多地用于通过提供动态学习工具来增强理解和保留来增强医学教育。他们支持各种教育活动，从生成交互式内容和案例研究到促进考试准备和持续的专业发展。评估的重点是模型提供准确、相关和教学合理内容的能力，评估它们对学习成果和教育效果的影响。2）公众意识应用：在公共卫生意识领域，LLM 有助于传播重要的健康信息，有助于疾病预防和健康促进。他们被用来评估向公众提供的医疗信息的质量和可靠性，确保健康通信既可访问又准确。这些应用程序的有效性是通过它们增强公众对复杂健康问题的理解和支持明智决策的能力来衡量的。

在 3.2 关于评估方法和指标的综合讨论中，我们深入探讨了评估 LLM 所采用的方法，解决了使用模型、评估器、比较实验和各种评估指标等关键方面。

-- 在 3.2.1 模型中，我们讨论了应用于医学评估的各种类型的 LLM。这包括 GPT-4、Claude、Bard 等商业模式，以及 BERT、BioBERT 和 PubMedBERT 等开源模型。本节还重点介绍了针对特定医疗任务进行微调的定制模型，提供了有关如何在医疗领域利用和评估不同模型 的见解。3.2.2 评估者和比较实验 探讨了评估者的多样性，从人类专家到自动化指标和 AI 驱动的评估。我们研究了这些评估者在不同比较实验设置背景下的作用，其中包括各种 LLM、传统 NLP 算法和人类专家之间的比较。本小节强调了严格和多样化的评估方法的重要性，以确保对 LLM 的绩效进行全面评估。-- 在3.2.3 评估指标中，我们广泛概述了用于评估医学领域 LLM 应用的指标。这些包括正确性指标（如准确性、精度）、完整性指标、复合指标（如 F1 分数和 AUC）、可用性指标（包括有用性、安全性和稳健性）和一致性与相似性指标（包括一致性和相似性）。本节重点介绍如何将这些指标应用于不同的医疗任务和场景，以评估 LLM 输出的有效性、可靠性和安全性。

・3.3 基准将概述我们审查的研究中使用的基准，提供这些基准的分类描述，并讨论它们在医疗环境中的相关性和适用性。

在 3.3.1 一般基准中，我们引入了全面的基准，这些基准提供了用于评估医学领域各种任务中的 LLM 的数据集。这些基准包括 NER、关系提取、文本分类和问答等任务，为研究人员提供了一个结构化的框架来有效地评估和改进 LLM 绩效。示例包括 BLURB、MultiMedQA、CBLUE 和 MedBench，每个都提供了针对特定医疗应用场景量身定制的广泛数据集。

在 3.3.2 问答基准中，我们探索了专为医疗领域的问答（QA）任务设计的数据集。这些基准根据它们与不同医疗 QA 场景的相关性进行分类：临床决策支持：该组中的数据集包括医学对话系统和临床咨询案例，评估 LLM 在诊断场景中支持医疗专业人员 的能力。医学知识 QA：此类别包括来自医学检查和基于文献的 QA 数据集的问题，挑战 LLM 展示医学知识的理解和推理。医疗信息检索：本部分的数据集侧重于可公开访问的医疗记录、消费者健康查询和公共医疗网站，强调了 LLM 在医疗信息检索中的适用性。

-- 在 3.3.3 摘要基准中，我们对突出 LLM 在各种医学环境中的语言理解和抽象能力的基准进行了分类。对于问题摘要，我们专注于将复杂的消费者健康问题浓缩为简化的形式。对于答案摘要，数据集用于评估模型在总结消费者健康问题的综合答案方面的作用。Lay Summary 为将专业医学知识转化为公众可理解的摘要提供了基准。医疗报告生成和总结，其中基准测试模型根据临床证据、咨询内容和多模式数据生成和总结医疗报告的能力。

-- 在 3.3.4 信息提取基准中，我们深入研究了评估 LLM 从复杂医学文本中提取结构化信息的能力的基准和数据集。评估侧重于 NER、关系提取、实体链接、文本分类和综合信息等任务提取（例如，PICO 提取和事件提取）。这些基准对于评估 LLM 将非结构化文本转换为结构化知识 的能力至关重要。1） 命名实体识别 ：我们探索了 NCBI 疾病语料库、JNLPBA 和 CMeEE 等基准，这些基准测试了 LLM 识别医学文本中疾病、基因和化学物质等实体的能力。2） 关系提取 ：BC5CDR、ChemProt 和 BioRED 等数据集评估了 LLM 识别实体之间关系的能力，例如药物相互作用和基因疾病关联。3）实体链接 ：COMETA 和 NCBI 疾病语料库基准评估了 LLM 将生物医学实体与 SNOMED CT 和 ICD-10 等标准医学概念联系起来的能力。4） 文本分类 ：LitCovid 和 CHIP-CTC 数据集等基准侧重于在对医疗文件进行分类、资格标准和意图分类方面测试 LLM。5） 综合信息提取：对于更广泛的信息提取任务，如医疗事件提取和 PICO 提取，我们分析 CHIP-CDEE、EBM-NLP 和去标识化出院总结等数据集。

3.3.5 生物信息学基准探讨生物信息学的基准，其中包括从头分子生成、生物序列相似性分析和 RNA 结构推断等任务。通过利用 MOSES、ChEMBL、ExCAPE-DB、CircFunBase、Rfam 和 MARS 等数据集，研究人员可以评估 LLM 在生物信息学任务上的表现，测量有效性、新颖性、敏感性和 F1 分数等。这些研究突出了 LLM 为分子生成、序列分析和蛋白质功能预测提供创新解决方案的潜力。

-- 在 3.3.6 信息检索基准中，我们深入研究了信息检索 的基准。鉴于 LLM 强大的文本理解能力，他们可以帮助研究人员在多个维度上有效地找到相关文献，例如问题检索 、证据检索 和事实核查 。现有的信息检索基准包括事实核查、引文预测和文献推荐等各种任务，为医学信息检索提供了全面的框架。BEIR、RELISH-DB、SCIDOCS、BIOSSES、MedSTS 等数据集以及 CBLUE 中包含的数据集提供了多种形式的相似性和相关性度量，本部分介绍了这些度量。

第 4 节将介绍医疗保健领域 LLM 评估中出现的更广泛的挑战和具体问题。具体来说，我们将分析这些评估中遇到的技术、道德和法律挑战，强调需要更严格和详细的框架来确保 LLM 在医疗保健中的应用的有效性。本节还将讨论改进评估框架、方法和指标以更好地应对这些挑战的潜在策略，确保 LLM 能够有效地整合到医疗实践中。

3 医学领域法学硕士应用评价的现状

3.1 基于应用领域和场景的评估

3.1.1 科室和特定疾病临床应用评价

一般综合应用：

本部分回顾了在各种临床过程中评估大型语言模型（LLM）的研究，不区分不同科室或特定疾病，为它们在常见临床场景中的应用提供了一般视角。通过这些评估，我们探讨了 LLM 在整个医学领域的准确性、偏差和适用性方面的表现。选定的研究对 LLM 的能力和医疗保健领域的改进领域进行了广泛的概述。