MACD：面向大语言模型的自学习知识多智能体临床诊断（可靠、可解释且可部署的 AI 辅助诊断系统）

MACD: Multi-Agent Clinical Diagnosis with Self-Learned Knowledge for LLM

复制代码

If you use this code or dataset in your research, please cite our paper:

@article{li2025macd,
  title={MACD: Multi-Agent Clinical Diagnosis with Self-Learned Knowledge for LLM},
  author={Li, Wenliang and Yan, Rui and Zhang, Xu and Chen, Li and Zhu, Hongji and Zhao, Jing and Li, Junjun and Li, Mengru and Cao, Wei and Jiang, Zihang and others},
  journal={arXiv preprint arXiv:2509.20067},
  year={2025}
}

摘要

大语言模型（LLMs）已在辅助医学诊断方面展现出前景，其中，基于提示（prompting）的方法为能力增强提供了一种灵活且易于部署的途径。然而，现有的提示工程与多智能体方法往往侧重于优化单次推理过程，而较少关注从临床实践中积累可复用经验，从而限制了其在真实世界场景中的适用性。为此，本研究提出一种新的多智能体临床诊断（Multi-Agent Clinical Diagnosis, MACD）框架。该框架使 LLM 能够通过一条多智能体流水线实现临床知识的自我学习：该流水线对诊断洞见进行总结、精炼并加以应用，从而模拟人类医师的职业成长过程。我们进一步将其扩展为 MACD---人类协作工作流：在该工作流中，多个基于 LLM 的诊断医生智能体开展迭代式会诊；当无法达成一致意见时，在裁决智能体（judge agent）与人类监督的支持下推进决策。我们在 7 种疾病的 4,390 例真实世界患者病例上，使用多种开源 LLM（Llama-3.1 8B/70B、DeepSeek-R1-Distill-Llama 70B）对 MACD 进行了评估。结果表明，MACD 能显著提升主要诊断准确率，其性能相较于既有的权威知识最高提升 22.4%，相较于 GPT-5 的最高提升为 15.8%。此外，MACD---人类工作流相较于仅由医师诊断可获得 18.3% 的提升，展示了人类---人工智能协作的协同潜力。值得注意的是，自学习得到的知识表现出较强的跨模型稳定性、跨 LLM 的可迁移性，以及面向特定模型的个性化能力。该系统还可生成可追溯的诊断推理依据，从而提升透明度与可解释性。因此，本工作提出了一种可扩展的自学习范式，用以弥合 LLM 的内在知识与真实世界临床实践需求之间的差距，并推动构建可靠、可解释且可部署的 AI 辅助诊断系统。

图1 总体示意图

一、引言

随着社会发展不断加速，医疗资源分布不均仍是一个关键的全球性挑战，其受制于传统基础设施的高昂成本 $1,2$ 。在此背景下，大语言模型（Large Language Model, LLM）技术的快速进展，为缓解医学专业知识短缺与医疗资源分布不均带来了变革性潜力 $3--5$ 。在真实世界的医疗场景中，医生通常面对的是开放式诊断；而当前基于 LLM 的解决方案则主要聚焦于问答任务 $6--8$ ，其依赖于简化的情境设定，难以刻画开放式诊断的复杂性 $9--11$ 。因此，当 LLM 面对来自真实世界患者的临床数据时，往往会出现显著的性能差距 $12,13$ 。

尽管通过扩展模型能力与开展专门化后训练能够有效提升 LLM 的医学表现，但这些方法所需的巨大计算资源阻碍了其在资源受限的基层场景中的部署 $14--16$ 。相对而言，具备成本优势的提示工程策略（例如思维链与小样本提示）可以通过引导 LLM 的推理过程来提升诊断能力 $17--20$ 。然而，这些方法将每次诊断推理视为彼此独立的过程，未能利用可复用的临床经验。在真实世界医疗场景中，医生往往通过将标准指南与自身长期积累的经验性知识相结合来实现高效诊断 $21,1$ 。受此启发，将"在既往诊断知识基础上构建并复用经验"的能力进行整合，因而成为临床 AI 系统走向成熟的关键下一步。

在此，我们提出一种新的基于 LLM 的多智能体临床诊断（MACD）框架，通过系统性积累可复用的临床经验来提升诊断准确率。如图 1a 所示，其核心思想是通过使 LLM 能够随时间推移从真实世界诊断病例中自主获取、提炼并内化临床知识，从而模拟医生的职业成长过程。在该框架内，如图 1b 所示，存在一组承担不同认知角色的专门化智能体：知识总结智能体用于从历史病例中识别并提取关键诊断洞见；知识精炼智能体将这些洞见整合并固化为结构化、持续演化的自学习知识；诊断医生智能体则将经整理的自学习知识（Self-Learned Knowledge）作为 LLM 提示（prompt）的关键组成部分，用以指导并改进基于 LLM 的诊断推理。该架构不仅复现了医学专家的经验学习轨迹，也为 LLM 辅助诊断建立了可扩展、可自我改进的范式。

在上述 MACD 框架基础上，本研究进一步构建了 MACD---人类协作工作流。如图 1c 所示，该工作流整合了基于不同 LLM 的诊断医生智能体。这些诊断医生智能体均利用核心自学习机制，通过多轮会诊交换观点，并在输出最终诊断前达成共识。系统还包含一个裁决智能体，负责核验诊断结论的一致性。对于少数诊断医生智能体无法达成一致的病例，工作流引入人类医生以实现人类---LLM 协作：诊断医生智能体的输出作为决策支持，而最终判断由人类医生作出。在性能评估中，该协作框架显著优于任何单一智能体，验证了其可扩展性与临床潜力。

本研究系统性评估了该框架的有效性与泛化性，以及基座模型对其性能的影响。研究的关键发现如下：（1）MACD 框架生成的自学习知识（Self-Learned Knowledge, SLK）在临床诊断中较专业权威知识 $22--30$ 与梅奥诊所知识（Mayo Clinic Knowledge） $31--37$ 更适配 LLM，可将诊断准确率最高提升 22.4%。在配备 SLK 后，诊断医生智能体能够达到超越 GPT-5 等最先进（state-of-the-art, SOTA）LLM 的准确率水平，相较 GPT-5 的诊断结果最高提升 15.8%。此外，该框架相较提示工程策略（例如思维链、小样本提示）与微调方法均具备明显优势，为"模拟经验积累相较传统算法调整可带来更大诊断收益"提供了实证证据。（2）与权威知识相比，SLK 具有更强的稳定性，其带来的性能提升可预测，并与模型的内在能力相一致（更强的智能体获得更高准确率、更弱者更低）；同时，SLK 具有更强的可迁移性，可在多种不同 LLM 上取得显著且一致的准确率增益。（3）MACD 框架生成的 SLK 呈现出模型特异的偏好与个体化特征，主要体现为：与来自其他模型的知识相比，每个模型在使用其自身生成的知识时能够获得最高诊断准确率。同时，SLK 在由人类专家开展的疾病相关性评估中也取得了良好结果，显示出可观的临床价值。（4）进一步评估表明，SLK 在 MACD---人类协作工作流中同样有效。该工作流通过会诊过程为人类医生提供更广泛的诊断视角。与另外两类权威知识相比，SLK 达到最高的诊断一致率（84.0%）与最高的有效意见率（86.3%），表明其更具为医生提供有效诊断视角的能力。在人类医生参与会诊过程的子集评估中，SLK 仍取得最高 83.6% 的诊断准确率，优于仅由医生进行诊断的准确率高出18.3%。(5) 该框架通过生成将诊断与病例和知识联系起来的、透明的纯文本依据，增强了可解释性，确保了推理过程的可追踪和可解释。

总而言之，MACD框架通过显著提高诊断性能，弥合了大语言模型能力与临床现实之间的差距。其高性价比的自学习特征使其适合在基层部署，为解决全球医疗不平等问题提供了一种实用的解决方案。

二、结论

（ 1 ） MACD 框架按照人类认知过程构建

为模拟医生通过真实世界诊断经验积累实现的职业成长（图 1a），我们提出多智能体临床诊断（Multi‑Agent Clinical Diagnosis, MACD）框架，建模迭代病例总结、心智模型精炼与知识应用等关键认知过程（见图 1b）。通过使多个智能体协同从临床病例中学习并开展推理，MACD 支持在高通量临床环境中实现可扩展、效率化的分诊。此外，该框架促进将三甲医疗中心的诊断专长向基层医疗场景迁移，有助于缓解医疗资源与临床决策能力的不均衡。

该框架由三类协作智能体团队具体运行：知识总结智能体用于识别并提取历史病例中的关键诊断洞见；知识精炼智能体将这些洞见整合为结构化、持续演化的知识记忆；诊断医生智能体利用上述经验指导并改进诊断推理。详细描述见"方法"中的"多智能体临床诊断框架"。在技术实现上，为满足临床场景的严格隐私要求，我们采用三种可本地部署的基座 LLM，参数规模与训练策略各异：Llama 3.1‑8B‑Instruct、Llama 3.1‑70B‑Instruct $38$ 与 DeepSeek‑R1‑Distill‑Llama‑3.3‑70B（DeepSeek‑70B） $39$ 。为评估由 MACD 框架协作自主生成的自学习知识（Self‑Learned Knowledge, SLK）的实用效果，我们构建权威基线知识（Baseline Knowledge）基准：该基准为两类外部权威来源的平均诊断准确率------依据机构标准由 Gemini 2.5 Pro 精确抽取的专业知识（Professional Knowledge） $22--30$ 与来源于官方网站的梅奥诊所知识（Mayo Clinic Knowledge） $31--37$ 。我们构建 MIMIC‑MACD 数据集（图 1a，补充材料 S1），包含来自 MIMIC‑CDM $11$ 与 MIMIC‑IV v2.2 $40$ 的 4,390 例病例，覆盖七种疾病。每例病例包含四类信息：现病史、体格检查、实验室结果与影像报告。数据集划分为用于知识自学习的学习集与用于评估的测试集；所有自学习活动严格限定在学习集中，所有报告的实验结果均来自测试集，并以主要诊断准确率表征其性能。

图 2：自学习知识与基线知识的诊断准确率比较。（a）对七种疾病的诊断准确率比较，显示自学习知识相较基线表现的持续提升。（b）自学习知识与梅奥诊所知识及专业知识的性能对比，展示更高诊断准确率。（c）基准结果突出 MACD 相较既定推理方法与资源密集型微调的优势。（d）对比分析显示，配备 MACD 的开源模型优于 SOTA LLM。

（ 2 ）自学习知识在临床诊断优化中的优势

所提出的 MACD 框架作为"即插即用"的临床诊断优化方案，展现出显著的有效性与普适性。通过广泛的对比实验，我们确认由 MACD 智能体团队生成的自学习知识可在多种模型上显著提升诊断准确率，为在资源受限医疗场景中升级诊断能力提供一条可扩展路径。

超越权威知识

首先，我们评估 MACD 能否通过自学习的临床知识释放基座 LLM 的潜在能力（图 2a）。与权威基线知识相比，自学习知识在所有评估模型上均持续提升诊断准确率：Llama‑8B +10.3%、DeepSeek‑70B +8.7%、Llama‑70B +15.9%，在七种疾病上的平均提升为 11.6%。

为进一步评估所学知识本身的质量，我们将其与人类整理的权威来源比较，包括来源于机构标准的专业知识与梅奥诊所知识（图 2b）。在各模型与各疾病类别中，自学习知识表现出更强的引导效应：以 Llama‑70B 为例，相较专业知识提升 22.4%，相较梅奥诊所知识提升 9.3%。即便是较小的 Llama‑8B，MACD 也分别相较专业知识与梅奥诊所知识实现 +11.2% 与 +9.4% 的改进。

我们将这种优势归因于知识生成方式的根本差异：权威知识主要面向人类认知而整理；而自学习知识直接从真实世界临床病例中蒸馏，因而其内容更贴合实际临床情境的复杂性，并与模型自身的推理模式保持内在一致，从而弥合理论知识与实践应用之间的鸿沟，提示其可作为快速分诊的可靠自动化意见。

补充的细化分析（图 2b，雷达图）揭示出协作的尺度效应：更强的基座模型（如 Llama‑70B）从自学习知识中获得的收益更大，并在各疾病上持续扩大其相对人类指南的性能优势。

MACD 相较传统方法的优势

随后，我们将 MACD 与既有方法学范式进行基准对比。与基座模型的内在能力（Zero Knowledge）相比，MACD 框架在所有设置中均持续带来显著增益，提升幅度超过 25%（图 2c，补充材料 S3）。从资源配置视角看，MACD 同时优于常见的提示工程策略与计算代价高昂的训练方法（图 2c，补充材料 S4）。我们开展了与思维链（Chain‑of‑Thought, CoT）、小样本（Few‑shot）以及在同一学习集上训练的 LoRA 微调的比较分析。结果清晰：MACD（如 Llama‑70B 上达 84.5%）不仅显著优于推理时技术（如 CoT 的 57.9%），也优于资源密集的微调（如 54.5%），且在三种模型上均成立。最终，MACD 无需繁琐的后训练即可实现更高的诊断精度，提供一种可扩展、成本友好的临床路径优化方案。

在对标 SOTA LLMs 时实现可及的高诊断准确率

我们将框架对标最先进（State‑of‑the‑Art, SOTA）LLM，以评估其在可扩展临床诊断中的潜力（图 2d，补充材料 S4）。值得注意的是，配备 MACD 的 Llama‑3.1‑70B（84.5%）明显优于多种 SOTA 模型，包括 DeepSeek V3.1（55.2%）、Qwen3‑235B（60.5%），并且超过领先的 GPT‑5（69.6%） $41--43$ 。此外，即便是较小的 Llama‑8B 与 DeepSeek‑70B，也可达到与顶级 GPT‑5 相当的表现。这表明 MACD 使更小的 LLM 能够超越显著更大的 LLM 的性能；通过将诊断能力与巨量参数需求解耦，我们的框架有助于实现成本友好的本地部署，降低计算开销并缓解隐私风险。

图3

（ 3 ）自学习知识具有稳健的可预测性与可迁移性

实验设置。如实验流程（图 3a）所示，三种不同的知识来源（梅奥诊所、专业知识与自学习知识）被注入诊断医生智能体以执行临床诊断。为确保可迁移性与可预测性的标准化评估，本节统一采用由表现最优的 Llama‑3.1‑70B 智能体团队生成的自学习知识。

自学习知识的可预测性。在临床系统部署中，性能可预测性至关重要：理想情况下，诊断准确率应当随基座模型的内在能力线性扩展。如图 3b 所示，"零知识（Zero Knowledge）"基线建立了清晰的内在能力层级：Llama‑8B（42.6%）→ DeepSeek‑70B（45.9%）→ Llama‑70B（56.8%）。然而，引入权威知识会打破这种可预测性并引入显著波动。例如，梅奥诊所知识产生 V 形下探：其对 Llama‑70B 非常有效（75.2%），但在 DeepSeek‑70B 上显著失效（60.2%），甚至明显低于更小的 Llama‑8B（61.5%）。相反，专业知识呈现相反趋势：在 DeepSeek‑70B 上达到峰值（65.2%），却无法有效引导更强的 Llama‑70B（62.1%）。与此形成鲜明对比的是，自学习知识恢复了临床上的可预测性：当应用由 Llama‑70B 统一生成的知识时，诊断准确率与模型内在能力完美对齐，随能力提升而递进：Llama‑8B（63.7%）→ DeepSeek‑70B（69.4%）→ Llama‑70B（84.5%）。这一线性进展表明，自学习知识具备内在可预测性：随着基座模型能力的增强，诊断准确率以可预期的方式增长，避免不可预期的劣化。

自学习知识的可迁移性。除稳定性之外，自学习知识在多种 LLM 间表现出稳健的可迁移性（图 3c，补充材料 S5）。我们将可迁移性定义为：在充分知识条件下，于多样模型上带来显著性能提升的一般原则。与该定义一致，由 Llama‑70B 智能体团队蒸馏的自学习知识，不仅提升 Llama 系列模型，在完全不同架构上亦有效。总体上，自学习知识在所有测试模型上均优于梅奥诊所知识；与专业知识相比，自学习知识在整体上具有竞争性或更优表现。例如，在 Qwen3‑235B 上，自学习知识（72.2%）明显优于专业知识（68.6%）；在 DeepSeek V3.1 上，自学习知识与权威知识相当；即便在 SOTA 的 GPT‑5 上，我们的方法亦保持优势（86.5%），略高于专业知识（86.0%）。这确认了该知识并非模型特异的过拟合，而是对临床逻辑的通用表征，可增强从轻量开源到顶级模型在内的多种模型的诊断能力。为进一步佐证这些机器生成洞见的临床有效性，我们开展了人类专家评估（表 1 与"方法"中的读者研究）。基于补充材料 S2 定义的概念相关性，专家评估知识与特定目标疾病之间的相关性。结果显示，自学习知识持续保持与目标疾病的显著临床相关性，从而在实际诊断情境中有效支撑其医学价值与可靠性。

表 1：人类专家对概念相关性的评估结果。

（ 4 ） LLM 更偏好使用其自身学习得到的知识

我们的研究揭示出一个明确的"自偏好（Self‑Preference）"现象：每个诊断医生智能体仅在使用由其本团队生成的知识时达到峰值性能（图 3d，补充材料 S6）。这一自偏好具有普遍性且呈双向：一方面，用更强的 Llama‑70B 的知识替换较小模型的知识不会带来增益，反而导致退化------例如 Llama‑8B 在切换至 Llama‑70B 的知识时准确率从 70.9% 下降至 63.7%（‑7.2%）。重要的是，该规则同样适用于能力最强的模型：当 Llama‑70B 使用来自 DeepSeek‑70B 或 Llama‑8B 的外部知识时也无法保持峰值表现。这表明诊断能力不仅取决于知识的"绝对质量"，更取决于知识生成者与使用者之间的内在兼容性。我们将此归因于各 LLM 所固有的不同"认知风格"。表征相似性分析（图 3e 的热图）与语言学审阅（补充材料 S10）证实，不同模型的知识表征之间存在显著语义差异。这一现象与临床实践相呼应：医师对普适医学知识会形成个性化的启发式理解；这种个体化的认知图式对其本人成效显著，但对同侪往往难以同等可迁移。

表 2：系统性消融揭示上下文规模、知识整合、患者模态与精炼对 MACD 诊断性能的贡献。注：w/ general 表示仅使用自学习知识的"常见"部分；w/ rare 表示仅使用"少见"部分；Full 表示完整自学习知识；pl（体格检查与实验室结果）、pi（体格检查与影像报告）、li（实验室结果与影像报告）、full（全部可用患者信息）；Sum. Only（仅总结智能体）、Sum. + Ref.（总结 + 精炼，完整 MACD 框架）。

（ 5 ）系统性消融研究揭示上下文、知识与精炼如何驱动 MACD 性能

我们围绕四个维度开展系统性消融研究：上下文长度、知识构成、患者信息模态与精炼智能体（Refiner Agent），以识别影响 MACD 性能的关键因素。

上下文长度呈非单调效应（表 2，面板 A）。结果显示，性能与上下文长度不呈线性相关。8k token 长度在所有模型上均取得最佳结果。例如，DeepSeek‑70B 在 8k 处达到峰值平均准确率 0.714，显著优于 4k 与 16k 的 0.677。类似地，Llama‑8B 在 8k 达到 0.709，相较 4k 的 0.694 与 16k 的 0.707 更优。这些发现表明 8k 在"足够的诊断细节"与"过长带来的噪声"之间取得平衡。

知识构成对性能至关重要，"常见（general）"与"少见（rare）"知识具有互补作用（面板 B）。使用完整的自学习知识库在各模型上均达到最高准确率。Llama‑70B 在完整知识下达到 0.845，分别高于仅用"General"（0.795）与仅用"Rare"（0.752）。对 DeepSeek‑70B 而言，将输入限制为"Rare"使准确率降至 0.602，而恢复完整集合则回升至 0.714。

当临床关键信息被移除时，诊断准确率显著下降（面板 C）。使用完整患者信息的模型稳定优于仅使用部分信息的模型。比如，将输入限制为体格检查与部分实验室结果使 Llama‑8B 的准确率从 0.709 降至 0.598，DeepSeek‑70B 从 0.714 降至 0.631，强调整合多模态临床证据的必要性。

精炼智能体通过消除噪声与冗余对稳健诊断至关重要（面板 D）。尽管总结智能体（Summarizer）能够聚合初始洞见，但常保留有害噪声。精炼智能体（Refiner）去除干扰与冗余，显著提升准确率（如 Llama‑8B 在阑尾炎上由 0.595 提升至 0.895）。这表明对原始总结进行精炼对保障知识质量、释放有效诊断能力至关重要。

图4

（ 6 ）在 MACD--- 人类协作工作流中，自学习知识优于权威知识

为进一步评估不同知识来源在协作推理语境中的影响，我们将 MACD---人类协作工作流实现为面向医师的会诊系统，并基于上述三种 LLM 提供"有效意见"。我们引入两项评估指标：有效意见率与诊断一致率（定义见"评估指标"）。在不提供差异报告的条件下，分别在自学习知识、梅奥诊所知识与专业知识指导下评估该框架的表现。结果显示，自学习知识在有效意见率上具有显著优势，为医师提供更具价值的参考结果；结合差异报告后，该框架的有效意见率达到 86.3%（图 4a），明显高于在专业知识（83.0%）与梅奥诊所知识（79.3%）指导下的表现。

在该工作流中，自学习知识实现了最高的诊断一致率。研究分析了不同轮次中的诊断一致率，以衡量智能体收敛至共识的速度。在第一轮讨论中，使用自学习知识指导的框架达到最高一致率 61.0%，分别高于专业指南（50.1%）与梅奥诊所指南（49.3%）（图 4b）。这一优势持续至第三轮，自学习知识达到 84.0%，显著优于梅奥诊所指南（74.3%）与专业知识（73.5%）。

为评估 MACD---人类协作工作流内不同模块的作用，我们进行消融研究：以仅在首轮提供自学习知识且不提供差异报告为基线，比较三种协作设置：各轮均提供知识但不提供差异报告（w/o Diff.）、仅提供差异报告（w/o Know.）与同时提供知识与差异报告（MACD‑human）。如图 4c 所示，综合的 MACD‑human 工作流取得最优表现，有效意见率达 86.3%。当移除差异报告（w/o Diff.）时，降至 85.1%，表明差异报告对一致性质量具有温和提升作用；而移除持续知识提供（w/o Know.）则显著下降至 79.6%，与基线（79.4%）接近。上述结果验证：差异报告虽有助于细化临床分析与理解，但贯穿各轮的持续知识注入在推动会诊收敛与提升有效性方面起关键作用。

此外，我们邀请三位临床医师独立验证该工作流在 MIMIC‑MACD‑human 数据集上的有效性（方法中的"读者研究"）。诊断准确率统计包括工作流达成一致的病例的正确结果以及由人类专家作出的最终诊断结果。图 4d 将协作工作流与单一表现最优的诊断医生智能体（Llama‑3.1‑70B）以及人类医师群体进行对比：协作工作流达到 83.3% 的准确率，高于单一 Llama‑3.1‑70B 智能体的 81.0% 与人类医师的 65.0%。各医师个体准确率详见补充材料 S7。

（ 7 ） MACD 框架在诊断过程中提供可解释性

为增强诊断医生智能体的透明度与可信度，MACD 框架引入可解释性设计，主要包括对自学习知识的因果干预与诊断理由输出。作为知识精炼智能体工作流的一部分，我们采用基于概念的因果干预方法（见"方法"中的"多智能体临床诊断框架"），通过对特定疾病逐一移除自学习知识片段并观察准确率变化，量化各知识片段对最终诊断准确率的影响。补充材料 S8 展示了基于不同模型的知识精炼智能体的影响。值得注意的是，在憩室炎的诊断中，移除三个对诊断产生负面影响的概念可使 Llama‑70B 的准确率提升 3.5%（详见补充材料 S8.3）。这一方法不仅有助于识别与优化自学习知识内容，也为理解智能体的决策过程提供可探索的基础。

此外，我们要求诊断医生智能体在给出最终诊断的同时显式输出诊断判据。不同于仅输出诊断结果的"黑箱式"方案，这一路径化文本显著增强了过程的可追溯性与最终输出的可解释性。典型输出示例如补充材料 S9 所示。对于给定病例，MACD 框架在以自学习知识支持诊断的同时，确保在最终输出中呈现与病例原文及所提供自学习知识紧密关联的依据，展示清晰、可追溯的诊断决策基础。

三、讨论

本研究的主要发现是：通过模拟临床医师的经验积累过程，可以为弥合 LLM 的通用医学知识与临床实践的细致要求之间的差距提供明确方案。既往研究 $44,45,11,46$ 一再强调，尽管 LLM 具备广泛的通识知识，但在具体复杂的临床情境中，其准确性与推理可靠性依然受限；我们的结果显示，MACD 框架能够有效克服这些限制。

通过使智能体在"实践---反思---知识固化"的循环中自主构建自学习知识（Self‑Learned Knowledge），该框架将通用医学知识有效转译为高密度的自学习形式。正如我们的发现所证实，这一机制确保所得知识与模型自身的推理模式内在匹配。这种认知上的相容性使得更小的模型也能更有效地利用知识，从而实现媲美甚至超越更大系统的诊断准确率（例如，配备自学习知识的 Llama‑8B 优于使用权威知识的 Qwen‑235B）。通过以知识质量替代参数规模的能力，该框架实质上实现了将高性能诊断能力与海量计算资源依赖的解耦。因此，MACD 在资源配置上提供了一种战略性、可持续的解法，使成本友好的模型在资源受限环境中亦能交付接近 SOTA 的诊断。

MACD 的优势源于对临床知识积累核心过程的模拟，从而弥合抽象医学理论与临床实践细腻现实之间的落差。首先，框架并非"强行灌输知识"，而是引导智能体从真实病例中自主蒸馏与精炼概念，捕获正式指南中常被省略的细微线索。知识总结智能体不仅提取教科书中的高频特征（如阑尾炎的"右下腹痛"、胰腺炎的"血清脂肪酶>3 倍上限"），还捕捉具有指征性的启发式线索；例如，针对胰腺炎的自学习知识明确纳入"近期大量乙醇摄入史"作为潜在病因，从而有效强化模型对关键疾病特征的语义理解。随后，知识精炼智能体模拟专科医师的反思，通过"冗余---重要性"的双重过滤去除误导性条目，并锚定关键证据，形成高度优化的知识库。

其次，该过程揭示了关于知识"格式适配性"的关键洞见：虽然人类指南具有权威性，但其结构往往不如自生成内容那样适合 LLM 处理。机构标准固然是临床理论的金标准，然而其语言与逻辑层级专为人类认知与流程设计。例如，在胰腺炎影像部分，指南更关注检查方式与严重程度分级；而在憩室炎部分，则侧重基于影像结果的分期。对基于 LLM 的智能体而言，高层级的外部信息需要额外的解读过程，可能引入理解偏差。相较之下，自学习知识纳入了模型的个体化理解，将复杂概念蒸馏为与其内部推理天然兼容的描述，例如将详尽的影像判定标准简化为"CT 显示胰腺炎性改变"等直接诊断线索。这种"LLM‑中心"的表征使智能体更顺畅地利用诊断洞见，使推理过程较"穿越人本指南"的路径更直接、高效。

除优化源模型外，本研究的重要发现还在于：自学习知识展现出显著的普适性与内在权威性，实际上建立起一种"面向 LLM 的原生知识标准"。跨模型可迁移性研究（图 3c）显示，MACD 框架蒸馏的知识在应用于架构与规模显著不同的更大模型（如 Qwen‑235B、DeepSeek V3.1 与 GPT‑5）时仍保持高效，部分情形甚至超越人类撰写的专业指南。这种强健的跨模型适用性确认了框架捕获的是医学中的基本"真理"，而非仅仅对某个模型认知偏好的过拟合。它提示：通过从临床现实中自主提炼逻辑，MACD 产出的医学知识相较传统"人为摘要"更易于 AI 消化与应用，具备成为更广泛医学 AI 社群可靠通用知识源的潜力。

与现有方案（如新颖提示结构或参数微调以增强医学知识理解 $47$ ）相比，MACD 在理念上不同且具独特优势。首先，不同于聚焦"单次推理过程优化"的 prompting 方法（如 CoT $48$ 、RoT $49$ 、ToT $50$ 、self‑refine $51$ ），本框架的真正价值在于构建长期、可复用且可增长的经验积累。我们并不优化模型的单次推理，而是通过经验累积持续缩小模型医学知识与实际病例之间的差距，以一种更贴近人类专家成长轨迹的方式在实践中自学。其次，相较依赖参数微调注入领域知识的方案，MACD 更轻量、灵活与安全：微调将知识隐性而永久地编码进权重，成本高、迭代难；而本框架通过 prompt 显式且动态地注入知识，既显著降低技术门槛与实践成本，也赋予系统更强的可更新性与可解释性，因为累积的经验可借由"人类可读"的新病例迭代。

将诊断性能与模型规模解耦所带来的技术突破，对优化全球医疗资源配置具有深远意义：MACD 使得成本友好且可部署的 LLM 达到专家级准确率，为基层与初级医疗提供可行方案；在资源稀缺、专科能力不足的地区，此类"数字专科医师"可作为全科医生的助手，促成早期识别、减少不必要转诊；在急诊等高需求场景，MACD 智能体可嵌入智能分诊流程，作为预筛机制快速分层病情与建议初步诊断，让人类专家集中精力处理最关键复杂的病例，进而提升人力效用。

尽管结果积极，仍有若干限制：其一，当前 MACD 依赖结构化、半自动的工作流，作为有效诊断流程的"概念验证"，后续尚需探索更复杂、全自动的智能体系统；其二，MIMIC‑IV 数据主要为文本，由人类医师撰写，存在预处理与人为偏倚，真实环境下医师还需直接解读医学影像，未来让 LLM 直接处理影像数据或进一步提升其对关键信息的理解；其三，MIMIC‑IV 主要来源于美国的英语数据，跨国家与地区的普适性仍待验证，需要更丰富多样的临床数据。

本研究成功构建并验证了 MACD 框架。通过计算机化模拟医师经验积累过程，该框架有效地将专家级诊断能力从对海量计算资源的依赖中解耦。我们展示：寻找一条成本友好的路径来弥合通用医学知识与临床实践之间的差距，比单纯依赖更大参数规模的 LLM 更为重要。更进一步，这项工作代表着向"可持续且公平"的医疗 AI 范式的转向：通过将"黑箱"LLM 转化为可在可及硬件上运行的、以经验驱动且透明的智能体，我们为再分配优质医疗资源提供了有希望的蓝图。我们相信，这种路径将拓展专家级诊断的可获得性，赋能基层医疗系统，并最终促成一个更高效的全球医疗生态------无论地理或经济条件如何，优质诊疗皆可触达。

图5 方法框架示意图

四、方法

（1）数据集构建

本研究使用一个名为 MIMIC‑MACD 的复合数据集，基于 MIMIC‑IV v2.2 数据库构建，总计包含 4,390 例患者病例，覆盖七种腹部与胸部疾病。该数据集整合两个子集：

腹部子集（MIMIC‑CDM）：来源于 Hager 等人的工作 $11$ ，包含 2,400 例真实世界急诊病例，覆盖四种急性腹部疾病：阑尾炎（n=957）、胆囊炎（n=648）、憩室炎（n=257）与胰腺炎（n=538）。
胸部子集：我们遵循相同的纳入原则构建了一个新的胸部疾病数据集。该子集包含 1,990 例病例，覆盖三类主要胸部疾病：肺炎（n=1024）、肺栓塞（n=852）与心包炎（n=114）。

所有病例均遵循标准化结构，保留来自四个关键部分的去标识化文本信息：现病史、体格检查、实验室结果与影像报告。不同于依赖随机数据划分的传统监督学习，MACD 框架旨在模拟人类对成功实践的反思。为确保自学习知识源自有效临床推理而非幻觉或错误逻辑，我们实施"成功驱动的采样策略" $2$ 。该过程按以下步骤将数据集划分为学习集与测试集：首先，三类基座诊断医生智能体（Llama‑3.1‑8B、Llama‑3.1‑70B 与 DeepSeek‑R1‑Distill‑Llama‑3.3‑70B）对整个数据集开展首轮开放式诊断。对于每种疾病，我们识别出至少被一个智能体正确诊断的病例子集。该过滤确保用于知识总结智能体的源材料包含清晰、可识别的诊断模式。在这一"正确响应池"中，我们为每个智能体就每种疾病随机抽取 90 例病例，作为该智能体的专属"学习病例"。对于诊断难度较高且初始正确诊断较少的疾病（具体为心包炎），将所有可用的正确病例全部纳入（n=23），以最大化学习信号。

学习集：由任一智能体团队选定的全部学习病例的并集构成学习集。这些病例仅用于知识总结智能体生成自学习知识，并严格排除在最终评估之外。

测试集：未被纳入学习的所有剩余病例构成测试集。

该划分的合理性：需强调，这一划分策略在事实上形成了更具挑战性的评估基准。由于学习集主要由在首轮诊断中易于正确识别的典型病例组成，测试集自然保留了更高比例的非典型或复杂病例（包括首轮误诊样本）。在这一剩余数据集上评估 MACD 框架，可严格检验其将已学模式泛化至更含混临床情境的能力，并为其真实世界效用提供稳健量度。

（2）模型选择与部署

本研究选择三种通用开源 LLM 作为 MACD 框架的基座模型：Llama3.1‑8B、Llama3.1‑70B 与 DeepSeek‑R1‑Distill‑Llama‑3.3‑70B。选择依据包括：（1）均属于先进的开源模型序列，在多项基准测试中表现优异；（2）参数规模与训练策略存在差异，可用于评估 MACD 框架在不同推理能力模型上的稳健性与有效性；（3）模型规模适合本地部署。

为确保实验结果的一致性，我们为模型配置特定部署参数：上下文窗口限定为 16384 tokens；temperature 设为 0.01、top‑k 设为 1、top‑p 设为 0.05。所有实验均在 NVIDIA A100‑80G GPU 上进行。

（3）权威知识的构建

为比较模型自主生成的自学习知识与权威知识，我们基于临床指南构建两类基线。其一，我们从梅奥诊所官方网站"Diseases & Conditions"目录中按目标疾病手工抽取相关诊断信息，汇编其概览、症状与诊断三部分的完整内容，形成"梅奥诊所基线知识"。该内容直接集成为提示并提供给 LLM，作为权威知识源之一（见补充材料 S11）。

其二，我们收集多个国际权威医学组织发布的临床实践指南，包括世界急诊外科协会（WSES）、欧洲心脏病学会（ESC）与欧洲呼吸学会（ERS）。考虑到原始指南文档篇幅较长且信息密集，我们使用 Google Gemini 2.5 Pro（preview）模型对其进行处理。通过特定提示指令（详见补充材料 S12），我们要求该模型仅精确总结与目标疾病诊断相关的信息，并严格约束其不添加任何自身知识。该过程产生高聚焦且忠实于原文的"专业知识"，见补充材料 S13。

（4）多智能体临床诊断框架

概览。多智能体临床诊断（MACD）框架由两类知识智能体与一类诊断医生智能体构成（见图 5a）。知识总结智能体对学习病例进行自主回顾，为特定疾病生成广泛的诊断概念池；知识精炼智能体对该概念池进行处理，依据冗余与重要性进行过滤，并优化自学习知识；在最终诊断环节，该知识可提供给单一诊断医生智能体，或在更复杂推理情形下，作为内部知识用于 MACD---人类协作工作流，以诊断新病例。该机制为智能体的推理过程提供清晰、基于经验的指引，引导其更精准地关注疾病关键特征，从而提升最终诊断准确率。

形式化描述。为严格描述 MACD 框架的机制，我们将其形式化为"疾病特异的迭代过程"。令 n ∈ $1, N$ 表示第 n 种病理（如阑尾炎），t ∈ $1, T$ 表示知识状态累积的第 t 步。在知识积累阶段，系统在正确诊断病例的驱动下演化。起始时，诊断医生智能体（Mdiag）在当前知识库 K^t_n 的条件下，对学习数据集 D_learning 进行诊断：

ŷ^n_i = M_diag(x_i, K^t_n), x_i ∈ D_learning. (1)

我们对生成结果进行过滤，构造通过核验的正确诊断集合 ŷ^n_i，记为 Y^n_correct。关键在于，知识总结智能体 M_sum 从该正确诊断集合中识别并整合突出的诊断洞见。该设计迫使智能体从有效的推理轨迹中抽象临床知识：

e^n = M_sum(Y^n_correct). (2)

随后，知识精炼智能体 M_refine 将上述提炼的经验 e^n 整合入知识库，更新至下一迭代：

K^{t+1}_n = M_refine(K^t_n, e^n). (3)

在临床决策阶段，诊断医生智能体将最终累积的知识 K^T = {K^T_1, K^T_2, ..., K^T_n} 应用于测试集 D_test 的未见病例，确保临床部署受益于经核验的历史经验。需注意的是，诊断医生智能体在使用该知识时仍以开放式诊断方式运行。病例示例见补充材料 S9：

ŷ^n_j = M_diag(x_j, K^T), x_j ∈ D_test, K^T = {K^T_1, K^T_2, ..., K^T_n}. (4)

诊断智能体。在 MACD 框架中，诊断智能体执行开放式临床决策任务。不同于判别式的多选分类，模型不会给出候选列表供其选择。相反，其基于参考的推理范式运行：将特定医学知识（如自学习知识或专业知识）注入上下文窗口，作为诊断参考，同时要求智能体基于逻辑证据映射生成自由文本的诊断结论。对于每一次诊断推理，输入序列由三部分严格拼接而成：定义角色与输出格式的标准化提示模板（见补充材料 S14）；作为条件锚的特定医学知识上下文；按四个关键部分结构化的去标识化患者病例。为确保评估严谨，每个患者病例在完全隔离的会话中处理，重置上下文窗口，避免数据泄漏或跨样本模式推断。为有效应对上下文溢出问题，当输入长度超过最大上下文窗口时，我们实施摘要机制：由 LLM 将之前内容压缩为简洁摘要后再引入剩余上下文。此外，还要求智能体生成双重输出：准确的"主要诊断名称"以及从病例中提取的"具体支撑依据"。对显式证据的要求有助于降低随机猜测的概率，迫使 LLM 在生成最终结论之前开展演绎推理过程。

知识总结智能体。对于知识总结智能体，我们通过精心设计的提示指令引导其处理学习病例中的关键信息。在该过程中，智能体自主学习并总结临床洞见，形成结构化的诊断知识，并将其划分为"常见（General）"与"少见（Rare）"两类组成。该知识构成针对特定疾病的诊断逻辑、关键临床特征及其关联的内部表征。智能体在该过程中的行为受一个由 5 元组构成的提示模板约束（详见补充材料 S15）。

知识精炼智能体。为提升生成知识的质量与效率，我们设计一个基于"冗余与重要性"的双重过滤的知识精炼智能体。该方法首先去除重复或高度相似的诊断概念，以保留语义多样性；随后通过重要性评估，剔除可能误导或对诊断产生负面影响的概念。双重过滤最终得到高效、可靠且面向模型自身的自学习知识。

（1）冗余过滤：由于诊断概念从大量既往病例中提取，同一疾病的不同病例之间往往存在特征重叠。为此，我们通过 BioBERT 的语义嵌入方法 $52$ 实施去重。具体而言，通过计算概念向量的余弦相似度 Sim(c, c′)，采用基于最大边际相关性的贪心算法，迭代选择与已选概念语义差异度最大的候选概念，从而得到保留的诊断概念集合。该过程分别应用于"常见"与"少见"概念集合，以确保诊断知识的全面性。

（2）重要性评估：对于经冗余过滤后保留的概念，我们实施基于概念的因果干预方案。保留集合仍可能包含错误或伪相关的概念，因此需要进一步评估其对诊断的实际影响，并据此剔除可能降低诊断质量的概念，最终获得高质量的自学习知识集合。

（5）MACD--- 人类协作工作流

为模拟真实世界临床会诊的协作本质，我们构建 MACD---人类协作工作流（见图 5b）。该架构由三类诊断医生智能体与一个裁决智能体组成，模拟多位医师开展会诊并达成共识诊断的过程。该框架被设计为医学助手，在人类医生的实际诊疗过程中提供"有效意见"。在模拟的会诊与讨论过程中，三位诊断医生智能体对病例进行分析，收集彼此意见以作进一步分析，并迭代直至达成共识或达到最大讨论轮数（提示模板见补充材料 S17）。裁决智能体在每一轮讨论后评估三位诊断医生智能体是否已达成一致。该框架的基本原则之一是：每个智能体均使用其自身独特的、由模型自生成的自学习知识，以保持实验中识别的模型特异知识个性。

诊断过程由裁决智能体以协作与迭代策略进行治理（详见"评估指标"）。在每轮讨论中，三位诊断医生智能体首先独立诊断病例，其结果随后由裁决智能体进行评估。若未达成共识，裁决智能体调用 GPT‑4.1 生成"差异报告"，突出不一致结果之间的客观临床特征差异（提示模板见补充材料 S18）。病例连同自学习知识、所有冲突结果及新生成的差异报告，自动进入下一轮诊断循环。在后续讨论中，所有诊断医生智能体将获得更丰富的信息上下文，其中包含前一轮的匿名化诊断输出与差异报告，以引导其开展更为精细的分析。循环持续，直至达成共识或达到预设的最大讨论轮数。对于达成共识的病例，共识结果作为最终输出；若未达成共识，则最终一轮的诊断结果作为"最终有效意见"，并提交人类医生做出最终诊断。

（6）评估指标

我们采用分层评估策略对诊断准确率进行定量分析。针对单智能体性能，应用两级匹配体系：第一级，若模型输出包含目标疾病的核心医学术语（精确术语匹配），则判定为正确，忽略修饰性形容词。为考虑临床实践中常见的术语变体，我们设计第二级、更为宽容的基于解剖位置的匹配规则：允许在同一器官系统内作出合理推断（例如将"心包积液"视为对"心包炎"的宽容性准确诊断），并允许与疾病严重程度相关的修饰性形容词（补充材料 S19）。在 Hager 等人工作 $11$ 基础上，我们为心包炎、肺炎与肺栓塞新增宽容匹配规则，均经人类专家审阅并批准。

为评估 MACD 框架在不均衡分布数据集上的性能，我们在两个层级报告准确率：其一，分别对七类疾病单独计算准确率，即各疾病类别中"正确诊断病例数/该类别总病例数"（N_correct/N_total）；其二，报告系统总体的平均准确率，将七类疾病的准确率作无权重平均，按疾病类别作为独立单元进行计算，与样本量无关。

除单智能体准确率外，本研究建立协作评估策略，以裁决 MACD 协作框架内的共识。该共识评估超越简单字符串匹配，更贴近临床意义，包含两阶段流程：第一阶段，使用先前描述的宽容名称匹配规则处理各智能体的原始诊断结果，将临床等效术语标准化为目标疾病的核心医学术语，同时保留不符合者的原始术语。第二阶段，使用 BioBERT 模型开展语义相似度分析。仅当所有诊断结果的两两余弦相似度超过预定义阈值时，才确认其为一致。该双重方法确保仅将真正语义一致的诊断视为一致，从而为裁决一致性提供稳健且可靠依据。在此基础上，我们定义"诊断一致率"为：在特定疾病的某一诊断轮次中，三位诊断医生智能体经语义处理后达成统一诊断的病例占比。此外，为评估框架最终输出的临床效用，我们引入"有效意见率"，其定义为：协作框架在全部病例中给出"有效意见"的比例。仅当协作框架提供的诊断结果中至少一次提及正确目标疾病时，该病例输出被视为"有效"；否则视为"无效"。

（7）读者研究（ Reader study ）

为建立人类专家性能基线，我们邀请七位具有 3 年至 20 余年专业经验的急诊医学主治医师参与诊断研究。医师分为两组：三位负责胸部疾病病例的诊断，四位负责腹部疾病病例的诊断。各类别内的病例在相应组内均衡分配。评估主要覆盖以下两方面。

首先，邀请人类专家评估自学习知识的医学可靠性。七位医师中的六位独立地对由三种不同 LLM 生成的每一份自学习知识进行评分。评估的核心在于考察知识中每个概念与其目标疾病之间的关联强度。评分采用 5 分李克特量表。最终，汇总所有医师对某一模型生成的全部概念的平均评分，作为该模型知识的总体相关性评分。

其次，为建立 LLM 性能的可靠参考基准，我们评估人类医师的诊断能力。医师需独立诊断一个随机抽样子集：腹部病例 80 例（四种疾病各 20 例），胸部病例 60 例（三种疾病各 20 例）。为确保公平，每位医师获得的病例信息与可能疾病类型列表与 LLM 所获信息完全一致。病例信息包含现病史、体格检查、实验室结果与影像报告。基于这些信息，医师需给出其最可能的主要诊断。为防止医师识别出疾病模式，我们额外加入 20 例腹部与 15 例胸部其他相关疾病作为干扰病例。因此，各组中的每位医师分别评估了共计 100 例腹部或 75 例胸部病例。所有病例均通过我们自建网站提供（补充材料 S20），其内容与呈现格式与提供给 LLM 的一致，病例顺序完全随机化。在全部医师独立完成诊断后，我们计算该组的平均诊断准确率，作为最终的人类专家性能基线。

（8）代码与数据可用性、致谢与作者贡献

代码可用于非商业目的，链接：https://github.com/qjdzj/MACD。所有 LLM 提示包含于补充材料。

数据集可用于非商业目的，链接：https://github.com/qjdzj/MACD。

致谢：感谢 Xin Li 在实验数据呈现、医学参考提供与文章校对方面的贡献；感谢 Chunjiang Wang 对补充材料部分的建议。

作者贡献：W.L.、R.Y. 与 X.Z. 共同构思与实施研究、访问与核验数据，作为共同一作等贡献；K.Z. 与 S. Kevin Z. 构思研究并在方法设计与论文内容开发上提供指导，审阅与修订论文并作最终提交决定；W.W.、C.L.、Z.J.、H.Z.、J.L.、M.L. 与 W.C. 提供医学指导并贡献人类医师的临床评估结果；Z.J. 参与引言部分写作并提供部分结果修订建议。所有作者已阅读并批准最终稿件。

利益冲突：作者声明无竞争性利益。

伦理与纳入声明：不相关。

五**、参考文献**

$1$ Custers, E. J. Thirty years of illness scripts: theoretical origins and practical applications. Medical Teacher 37, 457--462 (2015).

$2$ Zelikman, E., Wu, Y., Mu, J. & Goodman, N. D. Star: Self-taught reasoner bootstrapping reasoning with reasoning. In Proc. the 36th International Conference on Neural Information Processing Systems, vol. 1126 (2024).

$3$ Chang, Y. et al. A survey on evaluation of large language models. ACM Transactions on Intelligent Systems and Technology 15, 1--45 (2024).

$4$ Gomez-Cabello, C. A. et al. Artificial-intelligence-based clinical decision support systems in primary care: A scoping review of current clinical implementations. European Journal of Investigation in Health, Psychology and Education 14, 685--698 (2024).

$5$ Delourme, S., Redjdal, A., Bouaud, J. & Seroussi, B. Measured performance and healthcare professional perception of large language models used as clinical decision support systems: a scoping review. Digital Health and Informatics Innovations for Sustainable Health Care Systems 841--845 (2024).

$6$ Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. Pubmedqa: A dataset for biomedical research question answering. arXiv preprint arXiv:1909.06146 (2019).

$7$ Jin, D. et al. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. Applied Sciences 11, 6421 (2021).

$8$ Thirunavukarasu, A. J. et al. Large language models in medicine. Nature Medicine 29, 1930--1940 (2023).

$9$ Singhal, K. et al. Toward expert-level medical question answering with large language models. Nature Medicine 1--8 (2025).

$10$ Chen, Z. et al. Meditron-70b: Scaling medical pretraining for large language models. arXiv preprint arXiv:2311.16079 (2023).

$11$ Hager, P. et al. Evaluation and mitigation of the limitations of large language models in clinical decisionmaking. Nature Medicine 30, 2613--2622 (2024).

$12$ Gaber, F. et al. Evaluating large language model workflows in clinical decision support for triage and referral and diagnosis. npj Digital Medicine 8, 1--14 (2025). 31

$13$ Bedi, S. et al. A systematic review of testing and evaluation of healthcare applications of large language models (llms). medRxiv 2024--04 (2024).

$14$ Qiu, P. et al. Quantifying the reasoning abilities of llms on clinical cases. Nature Communications 16, 9799 (2025).

$15$ Kim, H. et al. Small language models learn enhanced reasoning skills from medical textbooks. npj Digital Medicine 8, 240 (2025).

$16$ Chen, J. et al. Huatuogpt-o1, towards medical complex reasoning with llms. arXiv preprint arXiv:2412.18925 (2024).

$17$ Savage, T., Nayak, A., Gallo, R., Rangan, E. & Chen, J. H. Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine. npj digital medicine, 7 (1), 20. npj Digital Medicine (2024).

$18$ Guo, G. et al. Structured outputs enable general-purpose llms to be medical experts. arXiv preprint arXiv:2503.03194 (2025).

$19$ Zhao, J., Guo, Q., Liang, J., Li, Z. & Xiao, Y. Effective in-context learning for named entity recognition. In 2024 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 1376--1382 (IEEE, 2024).

$20$ Sahoo, P. et al. A systematic survey of prompt engineering in large language models: Techniques and applications. arXiv preprint arXiv:2402.07927 (2024).

$21$ Thomas, L. H. et al. Guidelines in professions allied to medicine. Cochrane Database of Systematic Reviews 2010 (1996).

$22$ Konstantinides, S. V. et al. 2019 esc guidelines for the diagnosis and management of acute pulmonary embolism developed in collaboration with the european respiratory society (ers) the task force for the diagnosis and management of acute pulmonary embolism of the european society of cardiology (esc). European Heart Journal 41, 543--603 (2020).

$23$ Metlay, J. P. et al. Diagnosis and treatment of adults with community-acquired pneumonia. an official clinical practice guideline of the american thoracic society and infectious diseases society of america. American Journal of Respiratory and Critical Care Medicine 200, e45--e67 (2019).

$24$ Torres, A. et al. International ers/esicm/escmid/alat guidelines for the management of hospital-acquired pneumonia and ventilator-associated pneumonia: Guidelines for the management of hospital-acquired 32pneumonia (hap)/ventilator-associated pneumonia (vap) of the european respiratory society (ers), european society of intensive care medicine (esicm), european society of clinical microbiology and infectious diseases (escmid) and asociaci´on latinoamericana del t´orax (alat). European Respiratory Journal 50 (2017).

$25$ Adler, Y. et al. 2015 esc guidelines for the diagnosis and management of pericardial diseases: The task force for the diagnosis and management of pericardial diseases of the european society of cardiology (esc). European Heart Journal 36, 2921--2964 (2015).

$26$ Lepp¨aniemi, A. et al. 2019 wses guidelines for the management of severe acute pancreatitis. World journal of emergency surgery 14, 1--20 (2019).

$27$ Sartelli, M. et al. 2020 update of the wses guidelines for the management of acute colonic diverticulitis in the emergency setting. World Journal of Emergency Surgery 15, 1--18 (2020).

$28$ Pisano, M. et al. 2020 world society of emergency surgery updated guidelines for the diagnosis and treatment of acute calculus cholecystitis. World journal of emergency surgery 15, 1--26 (2020).

$29$ Di Saverio, S. et al. Wses jerusalem guidelines for diagnosis and treatment of acute appendicitis. World Journal of Emergency Surgery 11, 1--25 (2016).

$30$ Di Saverio, S. et al. Diagnosis and treatment of acute appendicitis: 2020 update of the wses jerusalem guidelines. World journal of emergency surgery 15, 1--42 (2020).

$31$ Appendicitis- Symptoms and causes. URL https://www.mayoclinic.org/diseases-conditions/ appendicitis/symptoms-causes/syc-20369543.

$32$ Cholecystitis- Symptoms and causes. URL https://www.mayoclinic.org/diseases-conditions/ cholecystitis/symptoms-causes/syc-20364867.

$33$ Diverticulitis- Symptoms and causes. URL https://www.mayoclinic.org/diseases-conditions/ diverticulitis/symptoms-causes/syc-20371758.

$34$ Pancreatitis- Symptoms and causes. URL https://www.mayoclinic.org/diseases-conditions/ pancreatitis/symptoms-causes/syc-20360227.

$35$ Pericarditis- Symptoms and causes. URL https://www.mayoclinic.org/diseases-conditions/ pericarditis/symptoms-causes/syc-20352510.

$36$ Pneumonia- Symptoms and causes. URL https://www.mayoclinic.org/diseases-conditions/ pneumonia/symptoms-causes/syc-20354204. 33

$37$ Pulmonary embolism- Symptoms and causes. URL https://www.mayoclinic.org/ diseases-conditions/pulmonary-embolism/symptoms-causes/syc-20354647.

$38$ Meta, A. Introducing llama 3.1: Our most capable models to date, 2024. URL https://ai. meta. com/blog/meta-llama-3-1/. New models including flagship 405B parameter model, along with upgraded 8B and 70B models featuring 128K context length and multilingual capabilities (2024).

$39$ Guo, D. et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025).

$40$ Goldberger, A. L. et al. Physiobank, physiotoolkit, and physionet: components of a new research resource for complex physiologic signals. Circulation 101, e215--e220 (2000).

$41$ DeepSeek-AI. Deepseek-v3 technical report (2024). URL https://arxiv.org/abs/2412.19437. 2412. 19437.

$42$ Team, Q. Qwen3 technical report (2025). URL https://arxiv.org/abs/2505.09388. 2505.09388.

$43$ OpenAI. Introducing gpt-5 (2025). introducing-gpt-5/. URL https://openai.com/zh-Hans-CN/index/

$44$ Chen, X. et al. Enhancing diagnostic capability with multi-agents conversational large language models. npj Digital Medicine 8, 159 (2025).

$45$ Bedi, S., Jain, S. S. & Shah, N. H. Evaluating the clinical benefits of llms. Nature Medicine 30, 2409--2410 (2024).

$46$ Kwon, T. et al. Large language models are clinical reasoners: Reasoning-aware diagnosis framework with prompt-generated rationales. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, 18417--18425 (2024).

$47$ Zhou, S. et al. Large language models for disease diagnosis: A scoping review. arXiv preprint arXiv:2409.00097 (2024).

$48$ Wei, J. et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems 35, 24824--24837 (2022).

$49$ Wang, L. et al. Prompt engineering in consistency and reliability with the evidence-based guideline for llms. npj Digital Medicine 7, 41 (2024).

$50$ Yao, S. et al. Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing systems 36, 11809--11822 (2023). 34

$51$ Madaan, A. et al. Self-refine: Iterative refinement with self-feedback. Advances in Neural Information Processing Systems 36, 46534--46594 (2023).

$52$ Deka, P., Jurek-Loughrey, A. & P, D. Evidence extraction to validate medical claims in fake news detection. In International Conference on Health Information Science, 3--15 (Springer, 2022).