中医临床决策５款大语言模型，谁主沉浮？

背景

中医临床决策需整合辨证论治、体质评估与个体化方药，难以标准化与质控。大语言模型具备医学知识整合与临床推理能力，但其在中医领域的应用，尤其在辨证与组方方面，仍未被充分探索。

目的

本研究评估5种主流大语言模型在中医临床决策中的表现，并对比人机协作与独立决策模式的效果。具体目标为：评测模型的中医知识水平、评估临床案例分析能力、筛选最优模型、评价人机协作的决策质量、效率与接受度。

方法

选取5种模型（Claude 3.7 Sonnet-Extended、ChatGPT 4.5、Grok3-DeepSearch、Gemini 2.0 Flash Thinking Experimental、DeepSeek-R1），通过４阶段评估：

(1) 160道标准化中医知识题考核；

(2) 30例不同系统、不同复杂度临床案例分析；

(3) 加权计分筛选最优模型（知识占40%，临床分析占60%）；

(4) 10名中医师与2名专家参与，对比纯医师、纯 AI、人机协作３组在5例临床案例中的表现。统计方法包括描述性统计、信度分析、组间比较与回归分析。

大语言模型的选取与配置

表1 大语言模型特性与配置详情

所有模型均在2025年3月测试期间通过官方接口或网页界面以标准配置访问。TCM：中医学；RL：强化学习；SFT：监督微调。

结果

DeepSeek-R1在２方面均最优，知识考核准确率96.7%，临床案例评分17.31/20（SD 2.65），显著优于其他模型（P<0.001）。人机协作较医师独立决策显著提升：质量提高16.1%（33.62 vs 28.97；P<0.001），耗时减少66.1%（162.6 s vs 479.2 s；P<0.001）。系统可用性评分良好（系统可用性量表76.8分；P=0.002），接受度高（采纳74.25%、修改24%、拒绝1.75%）。AI辅助在方剂配伍与药物选择环节获益最大（P<0.001）。

模型整体表现

表2 各模型中医知识考核表现

基于中医执业资格考试160道单选题，每题重复测试3次（每模型总应答480次）；所有模型整体比较的Friedman检验P<0.001。