中医临床决策5款大语言模型,谁主沉浮?

背景

中医临床决策需整合辨证论治、体质评估与个体化方药,难以标准化与质控。大语言模型具备医学知识整合与临床推理能力,但其在中医领域的应用,尤其在辨证与组方方面,仍未被充分探索。

目的

本研究评估5种主流大语言模型在中医临床决策中的表现,并对比人机协作与独立决策模式的效果。具体目标为:评测模型的中医知识水平、评估临床案例分析能力、筛选最优模型、评价人机协作的决策质量、效率与接受度。

方法

选取5种模型(Claude 3.7 Sonnet-Extended、ChatGPT 4.5、Grok3-DeepSearch、Gemini 2.0 Flash Thinking Experimental、DeepSeek-R1),通过4阶段评估:

(1) 160道标准化中医知识题考核;

(2) 30例不同系统、不同复杂度临床案例分析;

(3) 加权计分筛选最优模型(知识占40%,临床分析占60%);

(4) 10名中医师与2名专家参与,对比纯医师、纯 AI、人机协作3组在5例临床案例中的表现。统计方法包括描述性统计、信度分析、组间比较与回归分析。

大语言模型的选取与配置

表1 大语言模型特性与配置详情

所有模型均在2025年3月测试期间通过官方接口或网页界面以标准配置访问。TCM:中医学;RL:强化学习;SFT:监督微调。

结果

DeepSeek-R1在2方面均最优,知识考核准确率96.7%,临床案例评分17.31/20(SD 2.65),显著优于其他模型(P<0.001)。人机协作较医师独立决策显著提升:质量提高16.1%(33.62 vs 28.97;P<0.001),耗时减少66.1%(162.6 s vs 479.2 s;P<0.001)。系统可用性评分良好(系统可用性量表76.8分;P=0.002),接受度高(采纳74.25%、修改24%、拒绝1.75%)。AI辅助在方剂配伍与药物选择环节获益最大(P<0.001)。

模型整体表现

表2 各模型中医知识考核表现

基于中医执业资格考试160道单选题,每题重复测试3次(每模型总应答480次);所有模型整体比较的Friedman检验P<0.001。

疾病系统与难度分层分析

图1 中医知识评估中3种难度层级的模型准确率

案例分析总体评分

表3 各模型及各评估维度的临床案例分析表现

基于中医执业资格考试标准评估30例临床案例(15例简单、15例复杂),数据为均值(标准差);总分为20分;疾病诊断、证候诊断、病位鉴别、药物组成满分3分;辨证依据满分4分;治法、方剂名称满分2分;模型整体比较的单因素方差分析P<0.001。

按评估维度分层的表现

图2 5种大语言模型各评估维度的临床案例分析表现

雷达图

质量对比分析

表4 临床案例分析中不同决策模式的对比

基于5例不同疾病系统、不同复杂度的临床案例;AI:人工智能;效应量采用Cohen d值(小0.2、中0.5、大0.8);主要比较为人机协作vs纯医师。

效率分析

图3 3种决策模式的质量与效率对比

所有模型均在2025年3月测试期间通过官方接口或网页界面以标准配置访问。

临床应用价值与医师体验

表5 统可用性评估与医师体验评价

基于10名具有5年以上临床经验的中医师反馈;评分等级:1.0--2.4差,2.5--3.4中等,3.5--4.4良好,4.5--5.0优秀;系统可用性量表与68分基线比较的单样本t检验:t=4.433,P=0.002。

系统可用性与协作模式分析

图4 各临床决策领域的人机协作模式

结论

大语言模型(尤其是DeepSeek-R1)在中医知识考核与临床案例分析中表现优异。人机协作显著提升中医临床决策质量与效率,医师接受度高。该结果为中医AI辅助决策的临床价值提供了实证依据,有望解决中医知识标准化、临床培训与诊疗效率的核心痛点。

详细总结

思维导图(mindmap)

4阶段评估体系

大语言模型知识考核结果

人机协作核心效果

参考

JMIR Form Res. 2026 Mar 2:10:e80167. doi: 10.2196/80167.

Digitally Assisted Clinical Decision-Making in Traditional Chinese Medicine: Comparative Study of 5 Large Language Models

260302TCM_5LLMs.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

相关推荐
有来有去95271 小时前
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
人工智能·深度学习·语言模型·gpu算力·vllm
BomanGe101 小时前
NSK NH35EM 高负载法兰型直线导轨详述
服务器·网络·数据库·经验分享·规格说明书
卡卡西Sensei1 小时前
2026华为HDC AI 编程核心成果总结
人工智能·华为·hdc
2401_885665191 小时前
从零搭建CNN到迁移学习:以食物分类为例深入理解PyTorch图像分类实战
人工智能·pytorch·深度学习·分类·cnn·迁移学习
wen_zhufeng1 小时前
AudioX\-Turbo:面向通用音频生成的高效多模态统一框架
人工智能·算法·音视频
IT新视界1 小时前
星环科技发布XClaw:全能桌面智能体,开启轻量安全的AI助手新时代
人工智能·科技·安全
knight_9___1 小时前
AI Agent 是什么?
人工智能·python·agent·rag·mcp
何极光1 小时前
MySQL 8.0详细安装教程(附下载地址)
数据库·mysql·adb
百胜软件@百胜软件1 小时前
货品“精”营:ABC-XYZ分类如何驱动鞋服全渠道库存效率革命?
人工智能·分类·数据挖掘·零售数字化·数智中台·珠宝行业