人工智能在临床应用、药物研发以及患者护理等方面的最新研究进展｜顶刊速递·25-02-12

小罗碎碎念

推文速览

第一篇文章提出 CRAFT-MD 框架评估临床大语言模型（LLMs）在医患互动任务中的表现，发现其存在局限性，并基于结果给出改进评估的建议。

第二篇文章全面阐述了 2019 年以来人工智能在小分子药物研发全流程（从靶点识别到上市后监测）的应用、取得的进展、面临的挑战（如数据质量、模型设计等），并展望了未来发展方向，强调其虽面临困难，但有望提升药物研发效率、推动医学进步。

第三篇文章通过对 92 名医生进行前瞻性随机对照试验，发现使用 GPT-4 辅助的医生在处理复杂临床病例管理推理任务上得分显著高于仅使用传统资源的医生，虽花费时间更多，但 GPT-4 辅助提升表现的效果明显，不过该结论还需在真实临床实践中验证。

背景补充

用于评估临床大语言模型（Clinical LLM）的CRAFT - MD框架示例
人工智能在药物研发流程中的应用
医生在患者护理任务中使用GPT - 4辅助效果的随机对照试验流程

知识星球

如需获取推文中提及的各种资料，欢迎加入我的知识星球！

一、评估大语言模型临床应用：CRAFT-MD 框架揭示局限与方向

一作&通讯

作者身份	姓名	单位
第一作者	Shreya Johri、Jaehwan Jeong	哈佛医学院生物医学信息学系（Department of Biomedical Informatics, Harvard Medical School）；斯坦福大学计算机科学系（Department of Computer Science, Stanford University）
通讯作者	Roxana Daneshjou、Pranav Rajpurkar	斯坦福大学皮肤科（Department of Dermatology, Stanford University）；斯坦福大学生物医学数据科学系（Department of Biomedical Data Science, Stanford University）；哈佛医学院生物医学信息学系（Department of Biomedical Informatics, Harvard Medical School）

文献概述

《An evaluation framework for clinical use of large language models in patient interaction tasks》发表于Nature Medicine，提出CRAFT-MD框架评估临床大语言模型（LLMs），发现其在临床对话推理、病史采集和诊断准确性方面存在局限，并给出改进建议。

研究背景：患者数量增加、咨询时间缩短及远程医疗普及，给传统病史采集带来挑战。LLMs在医疗领域有应用潜力，但评估其在真实临床场景的适用性研究不足，现有评估方法多依赖结构化医学检查，无法考察其互动对话能力。
CRAFT-MD框架：通过模拟医患对话评估临床LLMs的对话推理能力，包含临床LLM、患者AI代理、评分AI代理和医学专家四个组件。使用2000个病例 vignettes对多种模型评估，相比传统方法，该框架效率更高、规模更大。
实验结果
- 对话交互降低诊断准确性：在四选一选择题（MCQs）设置中，所有评估的LLMs（GPT-4、GPT-3.5、Mistral-v2-7b和LLaMA-2-7b）在对话情境下的诊断准确性均低于静态 vignettes。多轮对话中，GPT-4、GPT-3.5和LLaMA-2-7b的诊断准确性因后续问题而下降，Mistral-v2-7b有所上升，但总体低于预期。
- 对话总结提高推理能力：将多轮对话转换为类似vignettes的总结形式后，所有模型在MCQs设置中的准确性均有所提高，表明这种转换有助于更准确的诊断。
- 开放式诊断和跨专科趋势：在开放式诊断（FRQs）场景下，所有模型的准确性显著下降，且对话交互的表现仍不如vignettes。在12个医学专科中，不同对话格式的诊断准确性趋势一致。
- 皮肤病案例研究：在皮肤病相关评估中，vignettes的准确性高于对话格式。医学专家评估发现，患者AI代理和评分AI代理可靠性较高，但临床LLMs在引导临床对话和收集完整病史方面存在差异。
- 多模态模型的图像理解局限：评估GPT-4V发现，移除图像后，其在所有实验设置中的诊断准确性均有下降，但差异不显著，表明多模态模型在图像理解方面存在局限。
- 模型持续监测：对Mistral两个版本评估发现，不同版本在不同格式下表现不同，强调在训练LLMs时全面评估的重要性。
研究建议：提出10条建议，包括通过真实医患对话评估诊断准确性、采用开放式问题、评估全面病史采集能力、提高信息整合能力、整合多模态信息、持续评估对话能力、优化提示策略、使用模拟AI代理进行测试、结合自动和专家评估、收集多样化公共数据集等。
研究结论：当前LLMs在临床对话情境下表现较差，CRAFT-MD框架有助于揭示其局限性。未来应改进评估方法，开发更可靠的AI代理，鼓励数据集和模型的透明度，使LLMs更好地辅助医疗实践。

用于评估临床大语言模型（Clinical LLM）的CRAFT - MD框架示例

图片展示了各组件的提示（Prompt）、病例简介（Case vignette）、医患对话（Doctor - patient conversation）以及医学专家评估（Expert evaluation）的内容。

组件及任务介绍

Clinical LLM：根据提示对病例进行提问，直至确定诊断，提示内容为询问病史、当前症状、用药情况、家族病史等。
Patient - AI agent：根据病例简介以通俗易懂的语言回答Clinical LLM的问题。
Grader - AI agent：根据提示判断两个疾病名称是否为正确诊断，以"是"或"否"回答。
Medical expert ：从以下方面进行评估：
- Clinical LLM是否收集到相关病史。
- Patient - AI agent是否恰当地回答问题。
- 描述症状的技术术语是否准确。
- Grader - AI agent在评估诊断等效性方面是否可靠。

病例相关信息

病例简介：一名55岁男性，入住重症监护病房，突发躯干和手臂水疱性皮疹，之前接受过小肠切除手术，术后病程因败血症、发热和呼吸衰竭而复杂化，检查时水疱在轻度触诊下破裂。
最终诊断：晶痱（miliaria crystallina）。

二、人工智能在药物研发中的多元应用及前景展望

一作&通讯

作者类型	姓名	单位
第一作者	Kang Zhang Xin Yang Yifei Wang Yunfang Yu	温州医科大学眼视光医院、眼健康与疾病高级研究院、临床数据科学研究所；四川大学华西医院癌症中心生物治疗科、生物治疗国家重点实验室；四川大学华西医院癌症中心生物治疗科、生物治疗国家重点实验室；中山大学孙逸仙纪念医院；澳门科技大学医学院医学人工智能研究所
通讯作者	Kang Zhang Shengyong Yang	温州医科大学眼视光医院、眼健康与疾病高级研究院、临床数据科学研究所；四川大学华西医院癌症中心生物治疗科、生物治疗国家重点实验室

文献概述

文章综述2019年以来人工智能在小分子药物研发中的应用，探讨其在靶点识别、药物发现、临床试验等阶段的作用、面临挑战及未来方向，认为人工智能可提升药物研发效率，但仍需克服数据、模型等问题，前景值得期待。

药物研发现状与人工智能的作用：药物研发复杂、耗时、成本高且成功率低。人工智能技术，如大语言模型和生成式人工智能，能够处理海量数据，加速和改进药物研发过程，在靶点识别、药物发现、临床前和临床试验以及上市后监测等方面均有应用潜力。
人工智能在药物研发各阶段的应用
- 靶点识别：人工智能通过构建多组学数据网络、挖掘文献和整合知识图谱等方式，识别疾病相关分子模式和因果关系，助力发现候选药物靶点，但面临数据整合和模型可解释性挑战。
- 药物发现：在虚拟筛选中，人工智能预测配体 - 受体相互作用，但存在预测不精确等问题；从头设计可自主创建新化学结构，面临生成有效分子的挑战；ADMET预测可评估药物性质，深度学习推动其发展，但数据稀缺和模型可解释性待解决；合成规划和自动化合成可辅助化学家，提高研发效率，但技术仍处于起步阶段。
- 临床试验和实际应用：在生物标志物发现方面，人工智能能识别诊断、预后和预测性生物标志物，但面临数据异质性等挑战；预测药物代谢动力学性质可优化治疗方案；药物再利用可挖掘现有药物新用途，但面临数据和模型相关问题；改善试验效率和预测结果可优化试验设计，但存在计算成本高等挑战。
面临的挑战：高质量训练数据缺乏、数据存在缺陷，药物设计难以平衡多目标，分子表示难以兼顾复杂性和可合成性，"不可成药"靶点难以攻克，算法和计算能力存在局限，同时还面临人才短缺和投资风险。
未来方向：开发新策略解决数据稀缺问题，建立多模态融合方法，将物理定律融入算法，开发可解释的人工智能模型，发挥人工智能在医学建模和模拟中的作用，推动药物研发和医疗服务发展。
结论：人工智能技术推动药物研发进步，但并非万能，仍需湿实验验证和人类指导。鉴于人工智能的发展态势，其有望加速药物研发、造福人类健康。

人工智能在药物研发流程中的应用

这张图展示了药物研发的各个阶段、主要任务以及人工智能在每个阶段的具体应用。

药物研发流程（Pipeline of drug development）：涵盖靶点识别、药物发现、临床前研究（动物）、临床试验（人类）、审批/上市和上市后监测六个关键阶段。
主要任务（Main tasks）
- 靶点识别：确定新靶点。
- 药物发现：发现活性化合物（苗头/先导化合物），进行候选药物的先导优化以及化学制造和控制（CMC）。
- 临床前研究：生物标志物发现、药物代谢动力学（DMPK）评估、安全性评估、药效学评估和制定用药方案。
- 临床试验：无具体列出主要任务。
- 审批/上市：推出新药。
- 上市后监测：评估或监测疗效、副作用、药物稳定性、用药计划、失败分析和假药分析。
人工智能应用（AI - powered applications）
- 靶点识别：多组学数据分析、生物网络构建与分析、文献和真实世界数据挖掘、知识图谱构建和靶点验证。
- 药物发现：虚拟筛选、配体 - 受体相互作用预测、分子生成、ADMET（吸收、分布、代谢、排泄和毒性）预测、先导优化、合成路线规划和自动化合成。
- 临床前研究：诊断性、预测性和预后性生物标志物发现、药代动力学性质预测、临床试验成功预测、药物副作用预测、临床试验设计中的数字孪生、药物再利用和监管审批支持。
- 临床试验：无具体列出应用。
- 审批/上市：无具体列出应用。
- 上市后监测：个性化疗效评估、个性化患者护理、安全问题早期检测、自动化不良反应报告、持续安全监测、药物效益 - 风险评估和加强药物警戒合规性。

注意，结构图使用UCSF ChimeraX 1.7.1软件创建，个人觉得比较精美，大家若有需求，可以借鉴一下。

三、GPT-4 能否优化医生在患者护理任务中的表现？

一作&通讯

作者身份	姓名	单位
第一作者	Ethan Goh	1. 斯坦福大学生物医学信息学研究中心；2. 斯坦福大学临床卓越研究中心
通讯作者	Jonathan H. Chen	1. 斯坦福大学生物医学信息学研究中心；2. 斯坦福大学临床卓越研究中心；3. 斯坦福大学医院医学科

文献概述

"GPT-4 assistance for improvement of physician performance on patient care tasks: a randomized controlled trial"发表于Nature Medicine，通过前瞻性随机对照试验，探究大语言模型（LLMs）辅助对医生在患者护理任务中管理推理能力的影响，发现GPT-4辅助能提升医生表现，但仍需在真实临床环境中验证。

研究背景：LLMs在诊断推理方面表现出色，但在管理推理（涉及治疗决策、检测策略权衡及风险管控等）上的作用未知。管理推理研究相对较新，现有框架包含多种情境相关概念，与诊断推理有明显差异。
研究方法
- 参与者：招募92名内科、家庭医学或急诊医学领域的执业主治医生和住院医生，随机分为GPT-4加传统资源组和传统资源组。
- 临床病例构建：依据美国医师学院播客"Core IM"的"Grey Matters"系列构建病例，经专家小组改编，确保研究前GPT-4和参与者均未接触过。
- 评分规则制定：针对每个病例，由5人专家小组通过迭代修正的德尔菲法制定评分规则，并在两个试点组测试和完善。
- 研究设计：采用前瞻性、随机、单盲（评分者盲法）设计。参与者接受与临床实际部署相当的GPT-4培训，可使用常用临床资源，按要求在1小时内完成5个病例，优先保证回答质量。
- LLM单独作答提示设计：为LLM单独作答组设计零样本提示，每个提示运行5次，结果与医生作答一同进行盲法评分。
- 评分规则验证：收集两组初步数据，由3名评分者独立评分，出现分歧时讨论达成共识，并计算加权Cohen's kappa系数评估一致性。
- 研究结果指标：主要指标为每组的平均得分，次要指标包括评分规则预定义领域的得分、病例特异性或一般性决策得分以及完成病例的时间。
- 统计方法：基于预研究数据进行功效分析，预设84名参与者为最小样本量，采用广义混合效应模型分析数据，以P<0.05为有统计学意义。
研究结果
- 管理表现：使用GPT-4的医生组总得分显著高于传统资源组（差异=6.5%，95%CI=2.7% - 10.2%，P<0.001）；GPT-4单独作答得分与使用GPT-4的医生组相近，且高于传统资源组。
- 问题领域分组：在管理决策、诊断决策和特定情境问题上，使用GPT-4的医生组得分更高；在事实回忆和一般管理知识方面，虽未达显著差异，但趋势相似。
- 时间：使用GPT-4的医生组每个病例花费时间更长（差异=119.3秒，95%CI=17.4 - 221.2秒，P=0.022），且调整时间后，GPT-4组得分仍有显著提升。
- 回答长度：调整回答长度后，GPT-4组得分仍比传统资源组高3.7个百分点（95%CI=0.7 - 6.7，P=0.02）。
- 伤害可能性和程度：两组在潜在伤害的可能性和程度上相似。
研究结论：LLMs可辅助提升医生管理推理能力，在某些临床场景中有望成为医生决策的有益补充，但本研究存在局限性，如使用临床 vignettes而非真实病例、评分规则缺乏外部有效性验证等，LLMs在实际临床应用中需进一步考量潜在问题，其在真实临床环境中的效果仍需严格验证。

医生在患者护理任务中使用GPT - 4辅助效果的随机对照试验流程

资格评估：共有92名在内科、家庭医学或急诊医学领域接受培训的执业主治医生和住院医生接受资格评估。
随机分组：这92名医生被随机分为两组，每组46人。
干预措施：一组（46人）接受使用GPT - 4（通过ChatGPT）加上传统资源（如UpToDate、Google）的干预；另一组（46人）仅接受传统资源的干预。
数据分析：对两组各46名医生的数据进行分析。

结束语

本期推文的内容就到这里啦，如果需要获取医学AI领域的最新发展动态，请关注小罗的推送！如需进一步深入研究，获取相关资料，欢迎加入我的知识星球！