【2025.6 Nature】Large language models for disease diagnosis: a scoping review

Scoping Review 是循证研究中的一种文献综述方法，核心目标是系统梳理某一研究领域的整体范围、现有研究内容、研究 gaps（空白）及研究趋势，而非像系统综述（Systematic Review）那样聚焦于特定研究问题的 "答案验证"（如某干预措施的有效性）

链接：https://www.nature.com/articles/s44387-025-00011-z?utm_source=chatgpt.com

自动疾病诊断 在临床实践中变得越来越有价值。大型语言模型（LLMs）的出现推动了人工智能领域的范式转变，越来越多的证据支持LLMs在诊断任务中的有效性。尽管该领域受到的关注日益增多，但仍缺乏一个全面的视角。许多关键方面尚不明确，例如LLMs已应用于哪些疾病和临床数据、所采用的LLM技术以及使用的评估方法等。在本文中，我们对基于LLM的疾病诊断方法进行了全面综述。我们的综述从多个维度审视了现有文献，包括疾病类型及相关临床专科、临床数据、LLM技术和评估方法。此外，我们为LLMs在诊断任务中的应用和评估提供了建议。而且，我们评估了当前研究的局限性，并探讨了未来的发展方向。据我们所知，这是首个关于基于LLM的疾病诊断的全面综述。

论文《Large language models for disease diagnosis: a scoping review》核心内容解析

该论文是 2025 年 6 月发表于《npj Artificial Intelligence》的系统性综述，聚焦大语言模型（LLMs）在疾病诊断中的应用，首次对该领域进行全面梳理，为后续研究提供清晰框架。

一、研究问题（Q1-Q3）

论文围绕当前 LLM 辅助疾病诊断领域未解决的三大核心问题展开，旨在填补现有研究的 "碎片化" 空白：

Q1：适用范围界定LLMs 已应用于哪些疾病类型、临床专科？依赖哪些临床数据（如文本、影像、时序数据）及数据模态？
Q2：技术选型困境哪些 LLM 技术（如提示工程、微调）对诊断任务最有效？不同场景下如何选择技术方案？
Q3：评估标准缺失采用何种评估方法（自动评估、人工评估、LLM 自评估）能准确衡量诊断性能？缺乏统一标准导致研究可比性差。

二、现有挑战（当前研究局限性）

论文通过分析 398 项研究，总结出 LLM 诊断领域的五大核心挑战：

信息收集不完整多数研究假设 "患者数据充足"，但实际临床中（如初诊、复杂疾病）数据常缺失，易导致误诊；且缺乏 "多轮对话式数据补充" 机制，过度依赖医生经验。
数据模态与整合缺陷
- 单模态数据为主（文本占比最高），忽视临床中 "多模态融合" 需求（如影像 + 病历 + 检验结果）；
- 医疗数据 "孤岛化" 严重，跨机构数据共享困难，限制模型泛化性。
技术应用与资源不匹配
- 微调、预训练需大量标注数据和高算力，但基层医疗场景资源有限；
- 提示工程虽轻量化，但复杂疾病诊断中准确性不足（如罕见病 F1 值低于 0.8）。
伦理与信任危机
- 模型 "幻觉" 问题（生成看似合理但错误的诊断），如 GPT-4 在精神疾病诊断中幻觉率达 12%；
- 隐私保护不足（如未遵循 HIPAA/GDPR）、公平性缺失（84.5% 数据集来自北美 / 亚洲，存在种族偏见）；
- 黑箱特性导致医生不信任，缺乏可解释性（如未说明诊断推理过程）。
评估与基准缺陷
- 49.6% 研究使用私有数据集，无法复现；标注数据稀缺，自动化评估依赖 "金标准"，但复杂病例无明确金标准；
- 缺乏统一指标（如诊断解释的 "完整性""一致性" 定义不一），且少与传统模型（如 Transformer）对比。

三、创新点

作为首个聚焦 "LLM 疾病诊断" 的系统性综述，论文的创新的体现在三方面：

维度化分类框架首次将 LLM 诊断研究拆解为 "疾病 - 专科 - 数据 - 技术 - 评估" 五大维度，建立分类体系（如 19 个临床专科、4 类 LLM 技术、3 类评估方法），解决领域 "碎片化" 问题。
技术适用性分析量化对比不同 LLM 技术的资源需求与性能（如提示工程需 0-100 样本，微调需 10³-10⁵样本），为不同场景（如基层筛查、精准诊断）提供技术选型指南。
多模态与临床适配性聚焦突出 "多模态 LLM"（如 GPT-4V、LLaVA）的潜力，分析其在 "影像 + 文本""时序 + 文本" 等场景的应用，贴合临床医生 "多源信息整合" 的诊断习惯。

四、研究贡献

系统性梳理汇总 2019-2024 年 7 大数据库（PubMed、Scopus 等）的 398 项研究，明确 LLM 诊断的应用边界（如覆盖神经科、心内科等 19 专科，15 + 数据类型）。
技术与评估指南
- 提出 LLM 技术 taxonomy（提示工程、检索增强生成 RAG、微调、预训练），对比各技术优劣（如 RAG 降低幻觉率 20%，但依赖高质量知识库）；
- 建立评估方法选择矩阵（如大样本用自动评估，复杂病例用人工 + LLM 联合评估）。
问题与方向定位明确当前研究的 "数据偏见""伦理缺失" 等关键问题，提出 "多模态数据收集""临床指南整合" 等未来方向，为资助机构和研究者提供优先级参考。
开源资源 公开数据集汇总（https://github.com/betterzhou/Awesome-LLM-Disease-Diagnosis），助力领域复现与协作。

五、提出的方法（LLM 诊断核心技术体系）

论文将现有 LLM 诊断技术分为 4 大类，含细分亚型及应用场景：

技术类别	细分亚型	核心原理	代表应用场景	性能示例
提示工程	硬提示（零样本、少样本、思维链 CoT）、软提示	硬提示：自然语言指令（如 "基于病历生成 differential diagnosis"）；软提示：可学习向量嵌入，整合医学知识	抑郁症筛查（零样本）、影像诊断（CoT）	CoT 在鉴别诊断中准确率 64%
检索增强生成（RAG）	文本 RAG、文本 - 影像 RAG、时序 RAG	检索外部知识库（如临床指南、病例库），结合 LLM 生成诊断，降低幻觉	创伤性脑损伤（指南 RAG）、心律失常（时序 RAG）	时序 RAG 在 ECG 分析中 AUC 0.96
微调	监督微调（SFT）、强化学习人类反馈（RLHF，含在线 / 离线）、参数高效微调（LoRA）	SFT：用标注诊断数据优化模型；RLHF：对齐人类偏好；LoRA：仅微调部分参数	专科诊断（如皮肤病）、多模态融合	LoRA 微调后皮肤病诊断 F1 0.94
预训练	文本预训练、多模态预训练（影像 - 文本对齐）	在大规模医疗语料（如 PubMed、电子病历）或影像 - 文本对上预训练，构建领域基础模型	罕见病诊断、跨专科通用模型	多模态预训练后罕见病识别率提升 30%

六、评估指标

论文将 LLM 诊断的评估指标分为 3 大类，对应不同诊断任务需求：

分类类指标 （适用于 "是否患病" 二分类 / 多分类）
- 核心指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数、AUC-ROC；
- 示例：高血压诊断 F1 0.94，心律失常检测 AUC 0.96。
鉴别诊断指标 （适用于 "多疾病排序" 任务）
- 核心指标：Top-k 准确率（如 Top-3 准确率：前 3 个预测疾病包含真实诊断的比例）；
- 示例：GPT-4 在精神疾病鉴别中 Top-3 准确率 89%。
回归类指标 （适用于 "风险概率预测" 任务）
- 核心指标：均方误差（MSE）、平均绝对误差（MAE）；
- 示例：抑郁症风险预测中，自一致性提示 + CoT 将 MAE 降低 50%。
定性指标 （适用于诊断解释评估）
- 核心维度：解释的完整性（是否覆盖关键症状）、一致性（与临床指南一致）、必要性（无冗余信息）；
- 示例：RAG 辅助模型的解释完整性达 89.2%。

七、模型结构（LLM 诊断的典型架构）

论文未提出新模型，而是总结现有主流架构，核心分为 3 类：

单模态 LLM 架构 （文本输入）
- 结构：预训练 LLM（如 GPT-3.5、LLaMA）+ 提示层（硬 / 软提示）；
- 流程：文本数据（病历、报告）→ 提示层处理 → LLM 输出诊断 / 概率；
- 特点：轻量化，无需修改模型参数，适合资源有限场景。
多模态 LLM 架构 （文本 + 影像 / 时序）
- 结构：模态编码器（如影像用 ViT、时序用 CNN）+ 模态对齐层 + 预训练 LLM；
- 流程：多模态数据→分别编码→对齐为统一向量→LLM 输出诊断；
- 代表：GPT-4V（ViT-GPT 融合）、LLaVA（CLIP-LLaMA 融合），支持 CT、X 射线等影像输入。
RAG-LLM 混合架构
- 结构：检索器（如 FAISS 向量数据库）+ 知识库（临床指南、病例库）+ LLM；
- 流程：用户查询→检索器匹配相关知识→知识 + 查询输入 LLM→输出诊断；
- 特点：降低幻觉，知识可实时更新（如新增指南无需重训模型）。

八、结论

技术有效性LLM 在疾病诊断中展现显著潜力：GPT-4 在强迫症诊断中优于精神科医生，多模态 LLM（如 GPT-4V）在影像诊断中接近专科医生水平；提示工程和 RAG 是当前最实用的技术（低资源场景适配性高）。
核心瓶颈数据（模态单一、地域偏见）、技术（泛化性差、幻觉）、伦理（隐私、公平性）、临床适配（未整合指南、缺乏多轮对话）是制约 LLM 落地的关键。
应用定位LLM 更适合作为 "医生辅助工具"（如初筛、鉴别诊断建议），而非替代医生；基层医疗、大规模筛查（如抑郁症、传染病）是短期优先落地场景。

九、剩余挑战和未来工作

（1）剩余挑战

数据层面
- 多模态数据稀缺（现有研究中文本占 70%，影像 + 文本仅 20%）；
- 数据隐私与共享矛盾（HIPAA/GDPR 限制，跨机构数据整合难）。
技术层面
- 模型泛化性差（在 A 机构训练的模型，在 B 机构准确率下降 10-20%）；
- 长时序数据处理弱（如电子病历的 "多年随访数据" 建模不足）。
临床适配层面
- 未整合临床指南（仅 5% 研究参考 WHO/ACR 指南）；
- 缺乏 "患者 - 医生 - LLM" 交互设计（如患者症状描述模糊时，LLM 无法主动追问）。
伦理与监管层面
- 幻觉检测机制缺失（无实时验证输出真实性的方法）；
- 监管标准空白（FDA/MDR 未明确 LLM 诊断工具的审批流程）。

（2）未来工作方向

数据与技术优化
- 构建多中心、多模态开源数据集（含文本、影像、时序、检验结果）；
- 研发 "持续学习 LLM"（解决 "灾难性遗忘"，适应新疾病 / 指南）。
临床整合
- 设计 "指南驱动 LLM"（将临床指南编码为知识图谱，提升诊断合规性）；
- 开发多轮对话诊断系统（如通过强化学习生成追问问题，补充缺失信息）。
伦理与信任建设
- 嵌入 "事实核查模块"（如 RAG 实时验证诊断依据）；
- 建立公平性评估框架（检测并修正种族、年龄偏见）。
部署与监管
- 优化边缘设备部署（如手机端轻量化 LLM，支持基层实时诊断）；
- 推动行业标准制定（如 LLM 诊断工具的性能阈值、风险控制流程）。

十、数据集（研究中使用的数据集特征）

论文通过元分析（图 3c、3e、3f）总结了 LLM 诊断研究的数据集特点：

地域分布
- 北美（50.6%）、亚洲（33.9%）为主，欧洲（11.9%）及其他地区（3.6%）占比低，存在显著地域偏见。
数据类型与模态
- 文本数据：临床笔记（42%）、影像报告（28%）、病例库（15%）；
- 多模态数据：文本 + 影像（12%，如 CT + 报告、X 射线 + 病历）、文本 + 时序（3%，如 ECG + 临床记录）。
数据可用性
- 公开数据集（50.4%）：如 MIMIC（电子病历）、CheXpert（胸部 X 射线）；
- 私有数据集（49.6%）：医院内部病历，未公开导致复现困难。
数据规模
- 预训练数据：多为 10⁵-10⁶样本（如基于 PubMed 的 10⁶+ 文献预训练）；
- 微调数据：10³-10⁵样本（如皮肤病诊断用 10⁴张病理图像 + 报告）；
- 提示工程数据：零样本（0 样本）、少样本（1-100 样本）为主。
专科分布
- 神经科（22%）、呼吸科（18%）、精神科（15%）研究最多；
- 罕见病、儿科等专科数据稀缺（占比 < 5%）。