【2025.6 Nature】Large language models for disease diagnosis: a scoping review

Scoping Review 是循证研究中的一种文献综述方法,核心目标是系统梳理某一研究领域的整体范围、现有研究内容、研究 gaps(空白)及研究趋势,而非像系统综述(Systematic Review)那样聚焦于特定研究问题的 "答案验证"(如某干预措施的有效性)

链接:https://www.nature.com/articles/s44387-025-00011-z?utm_source=chatgpt.com

自动疾病诊断 在临床实践中变得越来越有价值。大型语言模型(LLMs)的出现推动了人工智能领域的范式转变,越来越多的证据支持LLMs在诊断任务中的有效性。尽管该领域受到的关注日益增多,但仍缺乏一个全面的视角。许多关键方面尚不明确,例如LLMs已应用于哪些疾病和临床数据、所采用的LLM技术以及使用的评估方法等。在本文中,我们对基于LLM的疾病诊断方法进行了全面综述。我们的综述从多个维度审视了现有文献,包括疾病类型及相关临床专科、临床数据、LLM技术和评估方法。此外,我们为LLMs在诊断任务中的应用和评估提供了建议。而且,我们评估了当前研究的局限性,并探讨了未来的发展方向。据我们所知,这是首个关于基于LLM的疾病诊断的全面综述。

论文《Large language models for disease diagnosis: a scoping review》核心内容解析

该论文是 2025 年 6 月发表于《npj Artificial Intelligence》的系统性综述,聚焦大语言模型(LLMs)在疾病诊断中的应用,首次对该领域进行全面梳理,为后续研究提供清晰框架。

一、研究问题(Q1-Q3)

论文围绕当前 LLM 辅助疾病诊断领域未解决的三大核心问题展开,旨在填补现有研究的 "碎片化" 空白:

  1. Q1:适用范围界定LLMs 已应用于哪些疾病类型、临床专科?依赖哪些临床数据(如文本、影像、时序数据)及数据模态?
  2. Q2:技术选型困境哪些 LLM 技术(如提示工程、微调)对诊断任务最有效?不同场景下如何选择技术方案?
  3. Q3:评估标准缺失采用何种评估方法(自动评估、人工评估、LLM 自评估)能准确衡量诊断性能?缺乏统一标准导致研究可比性差。

二、现有挑战(当前研究局限性)

论文通过分析 398 项研究,总结出 LLM 诊断领域的五大核心挑战:

  1. 信息收集不完整多数研究假设 "患者数据充足",但实际临床中(如初诊、复杂疾病)数据常缺失,易导致误诊;且缺乏 "多轮对话式数据补充" 机制,过度依赖医生经验。
  2. 数据模态与整合缺陷
    • 单模态数据为主(文本占比最高),忽视临床中 "多模态融合" 需求(如影像 + 病历 + 检验结果);
    • 医疗数据 "孤岛化" 严重,跨机构数据共享困难,限制模型泛化性。
  3. 技术应用与资源不匹配
    • 微调、预训练需大量标注数据和高算力,但基层医疗场景资源有限;
    • 提示工程虽轻量化,但复杂疾病诊断中准确性不足(如罕见病 F1 值低于 0.8)。
  4. 伦理与信任危机
    • 模型 "幻觉" 问题(生成看似合理但错误的诊断),如 GPT-4 在精神疾病诊断中幻觉率达 12%;
    • 隐私保护不足(如未遵循 HIPAA/GDPR)、公平性缺失(84.5% 数据集来自北美 / 亚洲,存在种族偏见);
    • 黑箱特性导致医生不信任,缺乏可解释性(如未说明诊断推理过程)。
  5. 评估与基准缺陷
    • 49.6% 研究使用私有数据集,无法复现;标注数据稀缺,自动化评估依赖 "金标准",但复杂病例无明确金标准;
    • 缺乏统一指标(如诊断解释的 "完整性""一致性" 定义不一),且少与传统模型(如 Transformer)对比。

三、创新点

作为首个聚焦 "LLM 疾病诊断" 的系统性综述,论文的创新的体现在三方面:

  1. 维度化分类框架首次将 LLM 诊断研究拆解为 "疾病 - 专科 - 数据 - 技术 - 评估" 五大维度,建立分类体系(如 19 个临床专科、4 类 LLM 技术、3 类评估方法),解决领域 "碎片化" 问题。
  2. 技术适用性分析量化对比不同 LLM 技术的资源需求与性能(如提示工程需 0-100 样本,微调需 10³-10⁵样本),为不同场景(如基层筛查、精准诊断)提供技术选型指南。
  3. 多模态与临床适配性聚焦突出 "多模态 LLM"(如 GPT-4V、LLaVA)的潜力,分析其在 "影像 + 文本""时序 + 文本" 等场景的应用,贴合临床医生 "多源信息整合" 的诊断习惯。

四、研究贡献

  1. 系统性梳理汇总 2019-2024 年 7 大数据库(PubMed、Scopus 等)的 398 项研究,明确 LLM 诊断的应用边界(如覆盖神经科、心内科等 19 专科,15 + 数据类型)。
  2. 技术与评估指南
    • 提出 LLM 技术 taxonomy(提示工程、检索增强生成 RAG、微调、预训练),对比各技术优劣(如 RAG 降低幻觉率 20%,但依赖高质量知识库);
    • 建立评估方法选择矩阵(如大样本用自动评估,复杂病例用人工 + LLM 联合评估)。
  3. 问题与方向定位明确当前研究的 "数据偏见""伦理缺失" 等关键问题,提出 "多模态数据收集""临床指南整合" 等未来方向,为资助机构和研究者提供优先级参考。
  4. 开源资源 公开数据集汇总(https://github.com/betterzhou/Awesome-LLM-Disease-Diagnosis),助力领域复现与协作。

五、提出的方法(LLM 诊断核心技术体系)

论文将现有 LLM 诊断技术分为 4 大类,含细分亚型及应用场景:

技术类别 细分亚型 核心原理 代表应用场景 性能示例
提示工程 硬提示(零样本、少样本、思维链 CoT)、软提示 硬提示:自然语言指令(如 "基于病历生成 differential diagnosis");软提示:可学习向量嵌入,整合医学知识 抑郁症筛查(零样本)、影像诊断(CoT) CoT 在鉴别诊断中准确率 64%
检索增强生成(RAG) 文本 RAG、文本 - 影像 RAG、时序 RAG 检索外部知识库(如临床指南、病例库),结合 LLM 生成诊断,降低幻觉 创伤性脑损伤(指南 RAG)、心律失常(时序 RAG) 时序 RAG 在 ECG 分析中 AUC 0.96
微调 监督微调(SFT)、强化学习人类反馈(RLHF,含在线 / 离线)、参数高效微调(LoRA) SFT:用标注诊断数据优化模型;RLHF:对齐人类偏好;LoRA:仅微调部分参数 专科诊断(如皮肤病)、多模态融合 LoRA 微调后皮肤病诊断 F1 0.94
预训练 文本预训练、多模态预训练(影像 - 文本对齐) 在大规模医疗语料(如 PubMed、电子病历)或影像 - 文本对上预训练,构建领域基础模型 罕见病诊断、跨专科通用模型 多模态预训练后罕见病识别率提升 30%

六、评估指标

论文将 LLM 诊断的评估指标分为 3 大类,对应不同诊断任务需求:

  1. 分类类指标 (适用于 "是否患病" 二分类 / 多分类)
    • 核心指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 分数、AUC-ROC;
    • 示例:高血压诊断 F1 0.94,心律失常检测 AUC 0.96。
  2. 鉴别诊断指标 (适用于 "多疾病排序" 任务)
    • 核心指标:Top-k 准确率(如 Top-3 准确率:前 3 个预测疾病包含真实诊断的比例);
    • 示例:GPT-4 在精神疾病鉴别中 Top-3 准确率 89%。
  3. 回归类指标 (适用于 "风险概率预测" 任务)
    • 核心指标:均方误差(MSE)、平均绝对误差(MAE);
    • 示例:抑郁症风险预测中,自一致性提示 + CoT 将 MAE 降低 50%。
  4. 定性指标 (适用于诊断解释评估)
    • 核心维度:解释的完整性(是否覆盖关键症状)、一致性(与临床指南一致)、必要性(无冗余信息);
    • 示例:RAG 辅助模型的解释完整性达 89.2%。

七、模型结构(LLM 诊断的典型架构)

论文未提出新模型,而是总结现有主流架构,核心分为 3 类:

  1. 单模态 LLM 架构 (文本输入)
    • 结构:预训练 LLM(如 GPT-3.5、LLaMA)+ 提示层(硬 / 软提示);
    • 流程:文本数据(病历、报告)→ 提示层处理 → LLM 输出诊断 / 概率;
    • 特点:轻量化,无需修改模型参数,适合资源有限场景。
  2. 多模态 LLM 架构 (文本 + 影像 / 时序)
    • 结构:模态编码器(如影像用 ViT、时序用 CNN)+ 模态对齐层 + 预训练 LLM;
    • 流程:多模态数据→分别编码→对齐为统一向量→LLM 输出诊断;
    • 代表:GPT-4V(ViT-GPT 融合)、LLaVA(CLIP-LLaMA 融合),支持 CT、X 射线等影像输入。
  3. RAG-LLM 混合架构
    • 结构:检索器(如 FAISS 向量数据库)+ 知识库(临床指南、病例库)+ LLM;
    • 流程:用户查询→检索器匹配相关知识→知识 + 查询输入 LLM→输出诊断;
    • 特点:降低幻觉,知识可实时更新(如新增指南无需重训模型)。

八、结论

  1. 技术有效性LLM 在疾病诊断中展现显著潜力:GPT-4 在强迫症诊断中优于精神科医生,多模态 LLM(如 GPT-4V)在影像诊断中接近专科医生水平;提示工程和 RAG 是当前最实用的技术(低资源场景适配性高)。
  2. 核心瓶颈数据(模态单一、地域偏见)、技术(泛化性差、幻觉)、伦理(隐私、公平性)、临床适配(未整合指南、缺乏多轮对话)是制约 LLM 落地的关键。
  3. 应用定位LLM 更适合作为 "医生辅助工具"(如初筛、鉴别诊断建议),而非替代医生;基层医疗、大规模筛查(如抑郁症、传染病)是短期优先落地场景。

九、剩余挑战和未来工作

(1)剩余挑战

  1. 数据层面
    • 多模态数据稀缺(现有研究中文本占 70%,影像 + 文本仅 20%);
    • 数据隐私与共享矛盾(HIPAA/GDPR 限制,跨机构数据整合难)。
  2. 技术层面
    • 模型泛化性差(在 A 机构训练的模型,在 B 机构准确率下降 10-20%);
    • 长时序数据处理弱(如电子病历的 "多年随访数据" 建模不足)。
  3. 临床适配层面
    • 未整合临床指南(仅 5% 研究参考 WHO/ACR 指南);
    • 缺乏 "患者 - 医生 - LLM" 交互设计(如患者症状描述模糊时,LLM 无法主动追问)。
  4. 伦理与监管层面
    • 幻觉检测机制缺失(无实时验证输出真实性的方法);
    • 监管标准空白(FDA/MDR 未明确 LLM 诊断工具的审批流程)。

(2)未来工作方向

  1. 数据与技术优化
    • 构建多中心、多模态开源数据集(含文本、影像、时序、检验结果);
    • 研发 "持续学习 LLM"(解决 "灾难性遗忘",适应新疾病 / 指南)。
  2. 临床整合
    • 设计 "指南驱动 LLM"(将临床指南编码为知识图谱,提升诊断合规性);
    • 开发多轮对话诊断系统(如通过强化学习生成追问问题,补充缺失信息)。
  3. 伦理与信任建设
    • 嵌入 "事实核查模块"(如 RAG 实时验证诊断依据);
    • 建立公平性评估框架(检测并修正种族、年龄偏见)。
  4. 部署与监管
    • 优化边缘设备部署(如手机端轻量化 LLM,支持基层实时诊断);
    • 推动行业标准制定(如 LLM 诊断工具的性能阈值、风险控制流程)。

十、数据集(研究中使用的数据集特征)

论文通过元分析(图 3c、3e、3f)总结了 LLM 诊断研究的数据集特点:

  1. 地域分布
    • 北美(50.6%)、亚洲(33.9%)为主,欧洲(11.9%)及其他地区(3.6%)占比低,存在显著地域偏见。
  2. 数据类型与模态
    • 文本数据:临床笔记(42%)、影像报告(28%)、病例库(15%);
    • 多模态数据:文本 + 影像(12%,如 CT + 报告、X 射线 + 病历)、文本 + 时序(3%,如 ECG + 临床记录)。
  3. 数据可用性
    • 公开数据集(50.4%):如 MIMIC(电子病历)、CheXpert(胸部 X 射线);
    • 私有数据集(49.6%):医院内部病历,未公开导致复现困难。
  4. 数据规模
    • 预训练数据:多为 10⁵-10⁶样本(如基于 PubMed 的 10⁶+ 文献预训练);
    • 微调数据:10³-10⁵样本(如皮肤病诊断用 10⁴张病理图像 + 报告);
    • 提示工程数据:零样本(0 样本)、少样本(1-100 样本)为主。
  5. 专科分布
    • 神经科(22%)、呼吸科(18%)、精神科(15%)研究最多;
    • 罕见病、儿科等专科数据稀缺(占比 < 5%)。
相关推荐
易晨 微盛·企微管家2 小时前
汽车行业用企业微信做客服,怎么用AI提醒客服提及试驾权益?
人工智能·企业微信
龙腾AI白云2 小时前
深度学习—卷积神经网络(3)
人工智能·python
北芝科技2 小时前
WPS知识库文件数超10亿:以AI技术夯实KaaS知识引擎,重构知识服务生态
人工智能·重构·wps
魏波.2 小时前
AI在研发效能领域的探索和应用(持续更新)
人工智能
拉姆哥的小屋2 小时前
从零到一:基于深度学习的波纹壳结构多目标优化系统(NSGA-II + 神经网络代理模型)
人工智能·深度学习·神经网络
minhuan2 小时前
大模型应用:语料库治理实战:基于 text2vec+BERT 的由浅入深解析.41
人工智能·bert·大模型应用·text2vec模型应用·bert 文本质量评分
小白开始进步2 小时前
USB相机连接与操作:基于OpenCV的完整实现
人工智能·数码相机·opencv
咕噜企业分发小米2 小时前
阿里云和华为云在AI视频领域有哪些扶持政策?
人工智能·阿里云·华为云
STLearner2 小时前
2025时空数据研究工作总结
大数据·人工智能·python·深度学习·学习·机器学习·智慧城市