Scoping Review 是循证研究中的一种文献综述方法,核心目标是系统梳理某一研究领域的整体范围、现有研究内容、研究 gaps(空白)及研究趋势,而非像系统综述(Systematic Review)那样聚焦于特定研究问题的 "答案验证"(如某干预措施的有效性)
链接:https://www.nature.com/articles/s44387-025-00011-z?utm_source=chatgpt.com
自动疾病诊断 在临床实践中变得越来越有价值。大型语言模型(LLMs)的出现推动了人工智能领域的范式转变,越来越多的证据支持LLMs在诊断任务中的有效性。尽管该领域受到的关注日益增多,但仍缺乏一个全面的视角。许多关键方面尚不明确,例如LLMs已应用于哪些疾病和临床数据、所采用的LLM技术以及使用的评估方法等。在本文中,我们对基于LLM的疾病诊断方法进行了全面综述。我们的综述从多个维度审视了现有文献,包括疾病类型及相关临床专科、临床数据、LLM技术和评估方法。此外,我们为LLMs在诊断任务中的应用和评估提供了建议。而且,我们评估了当前研究的局限性,并探讨了未来的发展方向。据我们所知,这是首个关于基于LLM的疾病诊断的全面综述。
论文《Large language models for disease diagnosis: a scoping review》核心内容解析
该论文是 2025 年 6 月发表于《npj Artificial Intelligence》的系统性综述,聚焦大语言模型(LLMs)在疾病诊断中的应用,首次对该领域进行全面梳理,为后续研究提供清晰框架。
一、研究问题(Q1-Q3)
论文围绕当前 LLM 辅助疾病诊断领域未解决的三大核心问题展开,旨在填补现有研究的 "碎片化" 空白:
- Q1:适用范围界定LLMs 已应用于哪些疾病类型、临床专科?依赖哪些临床数据(如文本、影像、时序数据)及数据模态?
- Q2:技术选型困境哪些 LLM 技术(如提示工程、微调)对诊断任务最有效?不同场景下如何选择技术方案?
- Q3:评估标准缺失采用何种评估方法(自动评估、人工评估、LLM 自评估)能准确衡量诊断性能?缺乏统一标准导致研究可比性差。
二、现有挑战(当前研究局限性)
论文通过分析 398 项研究,总结出 LLM 诊断领域的五大核心挑战:
- 信息收集不完整多数研究假设 "患者数据充足",但实际临床中(如初诊、复杂疾病)数据常缺失,易导致误诊;且缺乏 "多轮对话式数据补充" 机制,过度依赖医生经验。
- 数据模态与整合缺陷
- 单模态数据为主(文本占比最高),忽视临床中 "多模态融合" 需求(如影像 + 病历 + 检验结果);
- 医疗数据 "孤岛化" 严重,跨机构数据共享困难,限制模型泛化性。
- 技术应用与资源不匹配
- 微调、预训练需大量标注数据和高算力,但基层医疗场景资源有限;
- 提示工程虽轻量化,但复杂疾病诊断中准确性不足(如罕见病 F1 值低于 0.8)。
- 伦理与信任危机
- 模型 "幻觉" 问题(生成看似合理但错误的诊断),如 GPT-4 在精神疾病诊断中幻觉率达 12%;
- 隐私保护不足(如未遵循 HIPAA/GDPR)、公平性缺失(84.5% 数据集来自北美 / 亚洲,存在种族偏见);
- 黑箱特性导致医生不信任,缺乏可解释性(如未说明诊断推理过程)。
- 评估与基准缺陷
- 49.6% 研究使用私有数据集,无法复现;标注数据稀缺,自动化评估依赖 "金标准",但复杂病例无明确金标准;
- 缺乏统一指标(如诊断解释的 "完整性""一致性" 定义不一),且少与传统模型(如 Transformer)对比。
三、创新点
作为首个聚焦 "LLM 疾病诊断" 的系统性综述,论文的创新的体现在三方面:
- 维度化分类框架首次将 LLM 诊断研究拆解为 "疾病 - 专科 - 数据 - 技术 - 评估" 五大维度,建立分类体系(如 19 个临床专科、4 类 LLM 技术、3 类评估方法),解决领域 "碎片化" 问题。
- 技术适用性分析量化对比不同 LLM 技术的资源需求与性能(如提示工程需 0-100 样本,微调需 10³-10⁵样本),为不同场景(如基层筛查、精准诊断)提供技术选型指南。
- 多模态与临床适配性聚焦突出 "多模态 LLM"(如 GPT-4V、LLaVA)的潜力,分析其在 "影像 + 文本""时序 + 文本" 等场景的应用,贴合临床医生 "多源信息整合" 的诊断习惯。
四、研究贡献
- 系统性梳理汇总 2019-2024 年 7 大数据库(PubMed、Scopus 等)的 398 项研究,明确 LLM 诊断的应用边界(如覆盖神经科、心内科等 19 专科,15 + 数据类型)。
- 技术与评估指南
- 提出 LLM 技术 taxonomy(提示工程、检索增强生成 RAG、微调、预训练),对比各技术优劣(如 RAG 降低幻觉率 20%,但依赖高质量知识库);
- 建立评估方法选择矩阵(如大样本用自动评估,复杂病例用人工 + LLM 联合评估)。
- 问题与方向定位明确当前研究的 "数据偏见""伦理缺失" 等关键问题,提出 "多模态数据收集""临床指南整合" 等未来方向,为资助机构和研究者提供优先级参考。
- 开源资源 公开数据集汇总(https://github.com/betterzhou/Awesome-LLM-Disease-Diagnosis),助力领域复现与协作。
五、提出的方法(LLM 诊断核心技术体系)
论文将现有 LLM 诊断技术分为 4 大类,含细分亚型及应用场景:
| 技术类别 | 细分亚型 | 核心原理 | 代表应用场景 | 性能示例 |
|---|---|---|---|---|
| 提示工程 | 硬提示(零样本、少样本、思维链 CoT)、软提示 | 硬提示:自然语言指令(如 "基于病历生成 differential diagnosis");软提示:可学习向量嵌入,整合医学知识 | 抑郁症筛查(零样本)、影像诊断(CoT) | CoT 在鉴别诊断中准确率 64% |
| 检索增强生成(RAG) | 文本 RAG、文本 - 影像 RAG、时序 RAG | 检索外部知识库(如临床指南、病例库),结合 LLM 生成诊断,降低幻觉 | 创伤性脑损伤(指南 RAG)、心律失常(时序 RAG) | 时序 RAG 在 ECG 分析中 AUC 0.96 |
| 微调 | 监督微调(SFT)、强化学习人类反馈(RLHF,含在线 / 离线)、参数高效微调(LoRA) | SFT:用标注诊断数据优化模型;RLHF:对齐人类偏好;LoRA:仅微调部分参数 | 专科诊断(如皮肤病)、多模态融合 | LoRA 微调后皮肤病诊断 F1 0.94 |
| 预训练 | 文本预训练、多模态预训练(影像 - 文本对齐) | 在大规模医疗语料(如 PubMed、电子病历)或影像 - 文本对上预训练,构建领域基础模型 | 罕见病诊断、跨专科通用模型 | 多模态预训练后罕见病识别率提升 30% |
六、评估指标
论文将 LLM 诊断的评估指标分为 3 大类,对应不同诊断任务需求:
- 分类类指标 (适用于 "是否患病" 二分类 / 多分类)
- 核心指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 分数、AUC-ROC;
- 示例:高血压诊断 F1 0.94,心律失常检测 AUC 0.96。
- 鉴别诊断指标 (适用于 "多疾病排序" 任务)
- 核心指标:Top-k 准确率(如 Top-3 准确率:前 3 个预测疾病包含真实诊断的比例);
- 示例:GPT-4 在精神疾病鉴别中 Top-3 准确率 89%。
- 回归类指标 (适用于 "风险概率预测" 任务)
- 核心指标:均方误差(MSE)、平均绝对误差(MAE);
- 示例:抑郁症风险预测中,自一致性提示 + CoT 将 MAE 降低 50%。
- 定性指标 (适用于诊断解释评估)
- 核心维度:解释的完整性(是否覆盖关键症状)、一致性(与临床指南一致)、必要性(无冗余信息);
- 示例:RAG 辅助模型的解释完整性达 89.2%。
七、模型结构(LLM 诊断的典型架构)
论文未提出新模型,而是总结现有主流架构,核心分为 3 类:
- 单模态 LLM 架构 (文本输入)
- 结构:预训练 LLM(如 GPT-3.5、LLaMA)+ 提示层(硬 / 软提示);
- 流程:文本数据(病历、报告)→ 提示层处理 → LLM 输出诊断 / 概率;
- 特点:轻量化,无需修改模型参数,适合资源有限场景。
- 多模态 LLM 架构 (文本 + 影像 / 时序)
- 结构:模态编码器(如影像用 ViT、时序用 CNN)+ 模态对齐层 + 预训练 LLM;
- 流程:多模态数据→分别编码→对齐为统一向量→LLM 输出诊断;
- 代表:GPT-4V(ViT-GPT 融合)、LLaVA(CLIP-LLaMA 融合),支持 CT、X 射线等影像输入。
- RAG-LLM 混合架构
- 结构:检索器(如 FAISS 向量数据库)+ 知识库(临床指南、病例库)+ LLM;
- 流程:用户查询→检索器匹配相关知识→知识 + 查询输入 LLM→输出诊断;
- 特点:降低幻觉,知识可实时更新(如新增指南无需重训模型)。
八、结论
- 技术有效性LLM 在疾病诊断中展现显著潜力:GPT-4 在强迫症诊断中优于精神科医生,多模态 LLM(如 GPT-4V)在影像诊断中接近专科医生水平;提示工程和 RAG 是当前最实用的技术(低资源场景适配性高)。
- 核心瓶颈数据(模态单一、地域偏见)、技术(泛化性差、幻觉)、伦理(隐私、公平性)、临床适配(未整合指南、缺乏多轮对话)是制约 LLM 落地的关键。
- 应用定位LLM 更适合作为 "医生辅助工具"(如初筛、鉴别诊断建议),而非替代医生;基层医疗、大规模筛查(如抑郁症、传染病)是短期优先落地场景。
九、剩余挑战和未来工作
(1)剩余挑战
- 数据层面
- 多模态数据稀缺(现有研究中文本占 70%,影像 + 文本仅 20%);
- 数据隐私与共享矛盾(HIPAA/GDPR 限制,跨机构数据整合难)。
- 技术层面
- 模型泛化性差(在 A 机构训练的模型,在 B 机构准确率下降 10-20%);
- 长时序数据处理弱(如电子病历的 "多年随访数据" 建模不足)。
- 临床适配层面
- 未整合临床指南(仅 5% 研究参考 WHO/ACR 指南);
- 缺乏 "患者 - 医生 - LLM" 交互设计(如患者症状描述模糊时,LLM 无法主动追问)。
- 伦理与监管层面
- 幻觉检测机制缺失(无实时验证输出真实性的方法);
- 监管标准空白(FDA/MDR 未明确 LLM 诊断工具的审批流程)。
(2)未来工作方向
- 数据与技术优化
- 构建多中心、多模态开源数据集(含文本、影像、时序、检验结果);
- 研发 "持续学习 LLM"(解决 "灾难性遗忘",适应新疾病 / 指南)。
- 临床整合
- 设计 "指南驱动 LLM"(将临床指南编码为知识图谱,提升诊断合规性);
- 开发多轮对话诊断系统(如通过强化学习生成追问问题,补充缺失信息)。
- 伦理与信任建设
- 嵌入 "事实核查模块"(如 RAG 实时验证诊断依据);
- 建立公平性评估框架(检测并修正种族、年龄偏见)。
- 部署与监管
- 优化边缘设备部署(如手机端轻量化 LLM,支持基层实时诊断);
- 推动行业标准制定(如 LLM 诊断工具的性能阈值、风险控制流程)。
十、数据集(研究中使用的数据集特征)
论文通过元分析(图 3c、3e、3f)总结了 LLM 诊断研究的数据集特点:
- 地域分布
- 北美(50.6%)、亚洲(33.9%)为主,欧洲(11.9%)及其他地区(3.6%)占比低,存在显著地域偏见。
- 数据类型与模态
- 文本数据:临床笔记(42%)、影像报告(28%)、病例库(15%);
- 多模态数据:文本 + 影像(12%,如 CT + 报告、X 射线 + 病历)、文本 + 时序(3%,如 ECG + 临床记录)。
- 数据可用性
- 公开数据集(50.4%):如 MIMIC(电子病历)、CheXpert(胸部 X 射线);
- 私有数据集(49.6%):医院内部病历,未公开导致复现困难。
- 数据规模
- 预训练数据:多为 10⁵-10⁶样本(如基于 PubMed 的 10⁶+ 文献预训练);
- 微调数据:10³-10⁵样本(如皮肤病诊断用 10⁴张病理图像 + 报告);
- 提示工程数据:零样本(0 样本)、少样本(1-100 样本)为主。
- 专科分布
- 神经科(22%)、呼吸科(18%)、精神科(15%)研究最多;
- 罕见病、儿科等专科数据稀缺(占比 < 5%)。