文章:MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow
代码:https://github.com/jinlabimvr/MedAgent-Pro
单位:新加坡国立大学、牛津大学、哈尔滨工业大学(深圳)、国防科技大学、浙江大学医学院附属第二医院
一、问题背景
现代临床诊断需要结合文字病历、医学影像等多模态信息,医生会按照权威医疗指南,通过定性观察+定量分析的标准化步骤做出判断,每一步都有临床证据支撑。但目前主流的医疗AI模型,却存在诸多明显短板:
-
视觉语言模型(VLM)如GPT-4o,缺乏专业医疗知识和精细的视觉感知能力,不会精准计算临床指标,只能做定性描述,甚至直接回避诊断;
-
现有医疗智能体系统,只是简单拼接各类医疗工具,没有符合临床的标准化诊断流程,更像"工具集合箱",无法处理复杂的多模态诊断任务;
-
多数模型直接给出诊断结果,没有步骤化的推理过程,也无定量分析和证据验证,结果的可靠性和临床适配性大打折扣。
简单来说,现有医疗AI做诊断,更像"凭感觉猜答案",而不是像医生一样"步步有据做判断",这也让AI在临床落地中面临诸多阻碍。

二、方法创新
为了让AI复刻医生的临床诊断逻辑,研究团队提出的MedAgent-Pro打造了分层级的推理工作流,核心是"疾病层面标准化规划+患者层面个性化推理",并融入检索增强、定量分析、证据验证三大关键设计,让每一步诊断都有依据、可验证。

1. 疾病层面:基于医疗指南的标准化诊断规划
内置RAG检索增强智能体,对接包含上千种疾病、4000+篇专家评审文献的医疗知识库,收到疾病诊断需求后,会精准检索对应的权威医疗指南,提炼核心临床指标,搭配预设的专业工具集,生成一套标准化的诊断步骤,明确每一步该用什么工具、分析什么对象、得到什么结果,让诊断有"标准化流程可依"。

2. 患者层面:基于证据的个性化分步推理
针对具体患者的多模态数据(影像、病历、体征等),系统会先筛选出可执行的诊断步骤,再依次执行:
-
调用专业工具做定量分析:如用图像分割模型定位眼底视神经、用计算模块算出杯盘比,用三维影像分析模型计算左心室射血分数,解决了传统模型不会算临床指标的问题;
-
加入证据验证机制:每一步推理后都会评估结果可靠性,靠谱的结果才会作为下一步的证据,不靠谱则直接终止推理,避免错误传递;
-
结构化融合结果:按临床指南为各指标分配权重,通过加权计算得出风险分数,结合阈值给出最终诊断,而非让模型直接对原始指标做判断,提升结果的科学性。

整体而言,MedAgent-Pro不再是"直接给答案",而是像医生一样,"按指南定流程→按流程做分析→按证据推结论"。
三、实验结果
研究团队在多类权威数据集上开展了全面实验,涵盖青光眼、心脏病等单病种诊断,以及胸部X光、多模态影像的多疾病诊断,对比了主流视觉语言模型、现有医疗智能体、任务专用模型,同时邀请临床专家做人工评估,结果表现亮眼:
-
对比主流VLM:在青光眼、心脏病诊断上,比GPT-4o的平衡准确率分别提升34%、21%,F1分数分别提升55.3%、44.2%;在胸部X光诊断的12个子任务中,平均性能提升13.7%;
-
对比现有医疗智能体:在REFUGE2、MITEA、NEJM等数据集上,全面超越MedAgents、MMedAgent等系统,解决了这类模型无法处理复杂多模态诊断的问题;
-
对比任务专用模型:即使是零样本状态,在青光眼诊断上的AUC、平衡准确率等指标,仍超越REFUGE2挑战赛的优胜模型,实现了"通用框架媲美专用模型";
-
临床专家评估:在诊断相关性、全面性、可靠性、推理连贯性等5个维度,评分均远高于其他模型,且诊断步骤与医生对疾病的临床复杂度判断高度契合,流程贴合真实临床场景。

四、优势与局限
核心优势
-
临床适配性高:完全复刻现代医学的诊断流程,有标准化规划、步骤化推理,结果更易被临床医生接受,落地性更强;
-
诊断更精准可靠:融入定量分析和证据验证,解决了传统模型"定性不定量、无证据无验证"的痛点,每一步推理都有支撑;
-
通用性与鲁棒性强:支持10+影像学模态、20+解剖部位、50+疾病的诊断,即使部分专业工具无法使用,仍能保持良好的诊断效果;
-
零样本性能优异:无需针对单一疾病做专门训练,就能媲美甚至超越任务专用模型,降低了模型的训练和应用成本。
现存局限
-
依赖专业视觉工具:部分医疗领域尚未开发对应的专业分析工具,这类场景下系统无法发挥定量分析的优势;
-
定性分析仍有短板:定性分析环节依赖通用大模型,仍可能存在大模型固有的不一致性和"幻觉"问题;
-
暂未覆盖全病种:虽支持50+疾病,但面对一些罕见病、疑难病,仍缺乏对应的医疗指南和工具支撑。
五、一句话总结
MedAgent-Pro通过分层级的推理工作流和证据化的设计,让医疗AI真正实现了"像医生一样步步有据做诊断",大幅提升了多模态医疗诊断的精准性和临床适配性,为AI在临床诊断中的实际落地迈出了关键一步。