华西医院联合多伦多大学、盛京医院等机构发布多模态智能体检索模型，实现 AI 循证推理全链条权威可溯

小罗碎碎念

核心内容来源：发表于第40届国际人工智能顶会AAAI 2026的论文《Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning》，核心作者团队来自四川大学华西医院病理科、多伦多大学、惠灵顿维多利亚大学、中国医科大学盛京医院等机构。

长期以来，病理AI的落地，始终被"幻觉"和"黑箱"两个难题卡住------AI哪怕准确率再高，只要它的结论没有证据支撑，临床就不敢用。

而Patho-AgenticRAG的提出，试图让病理AI的推理过程对齐人类医生的循证诊断逻辑，让AI从一个"会背书的实习生"，变成了一个"会查书、会推理、会严谨下结论的靠谱助理"。

这正是AI与医疗交叉最有价值的地方：它从来不是要取代人类医生，而是用技术给医生赋能，让优质的医疗资源，能触达更多需要的人；让严谨的循证医学，能守护更多人的生命与健康。

如今，能看图识物的视觉语言大模型（Vision Language Models, VLMs），早已在X光、CT等医学影像场景落地，却在病理诊断领域频频翻车------哪怕它背完了整本权威病理教材，也经常对着切片说出和视觉证据完全不符的结论，也就是AI圈里所说的"幻觉"。

为什么会出现这种落差？

今天和大家分享的这篇论文给出了核心答案：和常规医学影像不同，病理切片有着超高分辨率、极致精细的组织结构、复杂到难以量化的语义差异，诊断的核心是"看形态"------细胞的排列方式、染色特征、空间结构，才是判断肿瘤类型的关键。

四川大学华西医院病理科团队联合多伦多大学、惠灵顿维多利亚大学等机构，带来了登上第40届国际人工智能顶会AAAI 2026的框架------Patho-AgenticRAG。

它用多模态智能体检索+强化学习的创新设计，打破了病理AI的幻觉困局，给癌症诊断装上了一个"会主动查书、会严谨推理、每一步结论都有权威证据支撑"的智能大脑。

医学AI交流群

目前小罗全平台关注量120,000+，交流群总成员3000+，大部分来自国内外顶尖院校/医院，期待您的加入！！

由于近期入群推销人员较多，已开启入群验证，扫码添加我的联系方式，备注姓名-单位-科室/专业，即可邀您入群。

团队自营 |病理 AI 多模态融合实战课

8 讲病理 AI 实战课，拆解 Pathomic Fusion/SurvPath 等经典研究，手把手教您学会病理 + 影像 + 基因组整合建模；

从临床问题拆解到多模态设计，从代码复现到课题迁移，覆盖病理切片 / 影像 / 组学整合全流程，帮你把方法落地到临床课题！

感兴趣的老师和同学可以扫码联系小助理，了解详情，购买课程。

一、从"死记硬背"到"循证推理"

和传统RAG系统"被动搜文本、搜完就答题"的僵化逻辑不同，Patho-AgenticRAG的核心创新，是把病理诊断从"AI背书答题"，变成了"AI模拟资深病理医生的完整诊断流程"；

先拆解问题，再规划检索路径
接着同步查找权威教材的文字描述与对应病理图像
最后交叉验证、严谨推理，给出有完整证据链的结论

先搭好"病理图文图书馆"

病理医生诊断的底气，来自权威的病理教科书；而Patho-AgenticRAG的第一步，就是给AI建一座规范、全面的"病理图文图书馆"。

团队收集了600余本国际权威病理教科书，总计约30万页内容，经过去重、筛选、质控后，保留了超过20万页高质量的图文页面。

和传统知识库把文字、图片分开存储不同，团队用ColQwen2模型，把每一页的文字描述和对应的病理图像，打包嵌入到同一个向量空间里，再用HNSW算法建立索引，存入Milvus向量数据库。

这就像把课本的每一页都做成了"图文绑定的知识卡片"，而不是把文字和插图拆成零散的词条。

AI检索的时候，能同时匹配查询的文字描述和对应的视觉特征，不会漏掉任何关键的形态学线索。

会拆解任务的"智能诊断规划师"

遇到复杂的鉴别诊断，资深病理医生不会直接下结论，而是先把问题拆成几个步骤：先锁定目标疾病的核心特征，再查找鉴别诊断的要点，最后逐一排除错误选项。

Patho-AgenticRAG里的Agentic Router（智能体路由模块），就是干这件事的"诊断规划师"。

它是整个框架的"大脑"，接到用户的诊断查询后，会先完成4步核心决策：

判断这个问题要不要调用检索？简单常识题直接回答，复杂诊断题立刻启动检索流程；
要不要重写查询？把口语化、模糊的问题，改成更贴合教材内容的专业检索词，提升检索准确率；
要不要用组织特异性分类器？比如乳腺相关的问题，就只检索乳腺病理分区的内容，不用翻完整座图书馆，大幅提升效率；
最终锁定检索分区，给后续的检索模块下达明确指令。

能精准找证据的"图文检索官"

拿到规划好的检索任务，VRAG Agent模块就化身成了严谨的"证据收集官"，负责完成多轮检索、图文重排序、信息蒸馏的全流程工作。

传统的图文检索，大多是简单的"文字相似度+图片相似度"加权打分，很容易被噪声干扰------比如一页内容泛泛提到了多种乳腺癌，整体相似度很高，但没有你要的核心特征，也会被排在前面。

而Patho-AgenticRAG专门设计了Patho-Fusion多模态融合公式，核心逻辑是：优先筛选出"和查询内容高度聚焦的页面"，也就是只有一小部分内容和查询高度相关、相似度集中的页面，而不是那种全页都沾边、但都不深入的"泛泛而谈"的内容。

这就像你查一个知识点，一页专门讲解该知识点的内容，永远比一本通篇都在泛讲相关主题的书更有用。这个设计能精准过滤掉噪声，让AI在100个检索结果里，72次能在第一个结果就找到最匹配的教材页面，远超传统检索方法。

拿到检索结果后，VRAG Agent还会完成多轮迭代：第一次检索锁定核心疾病特征，第二次检索补充鉴别诊断要点，再把所有返回的图文内容，蒸馏成结构化的证据摘要，交给最终的推理模型，而不是扔一堆杂乱的资料。

用奖惩机制打磨出的"严谨决策力"

怎么让这个AI助理的决策越来越靠谱，不会乱检索、漏检索？团队给出的答案，是基于GRPO算法的工具集成强化学习训练范式。

团队先设计了一套分层奖励函数，给AI的每一步决策都打分：

要不要检索的决策对了，先拿基础分；
查询重写的次数和内容对了，再加1分；
正确选择了要不要用分类器，再加2分；
最终锁定的检索分区完全正确，再加1分；
只要关键决策错了，直接0分。

训练的时候，团队先用400条专家标注的优质案例，给AI做"冷启动"的监督微调（SFT），让它先学会基础的诊断流程；再用GRPO强化学习，给AI大量的考题，让它在反复的决策中，学会最优的检索规划路径。

论文的消融实验明确证明：跳过冷启动，AI的训练完全无法收敛；用太多数据做监督微调，AI又会变得僵化，只会按固定模板答题，没有泛化能力；只有"少量SFT冷启动+GRPO强化学习"的组合，能让AI既懂基础规则，又能灵活应对复杂问题。

比如在Quilt-VQA数据集上，这个组合让AI的准确率从60.93%直接提升到75.80%，涨幅高达14.87%。

二、从病理考试到真实诊断，它的实力到底有多强？

100道题，72次一次找对答案

为了验证Patho-Fusion多模态检索的能力，团队用100组由病理专家标注的图文问答对，搭建了测试数据集，和当前主流的检索方法做了头对头对比。

实验结果一目了然：

Patho-AgenticRAG的Rec@1（第一个结果就命中正确答案的概率）达到了0.720，也就是100次检索里，72次能一次就找到最匹配的教材页面；
纯文本检索的CoPaLi方法，Rec@1只有0.640；
纯图像检索的CoPaLi和通用图文融合方法WeiMoCIR，Rec@1都只有0.060，几乎找不到正确答案。

这组数据清晰地证明：通用的图文检索方法，在专业性极强的病理场景里完全失效；而专门针对病理场景设计的Patho-Fusion，能精准锁定图文匹配的权威内容，从根源上减少了AI因为找不到正确资料而产生的幻觉。

诊断能力对决

病理AI的核心使命，是完成准确的诊断问答。

团队用行业公认的6个权威病理VLM基准数据集，给Patho-AgenticRAG安排了一场"病理执业医师资格考试"，对比对象包括InternVL3、Llama3.2V、Qwen2.5VL等主流通用大模型，以及此前性能最优的专用病理大模型Patho-R1-7B。

在最具挑战性的PathMMU-test专家级病理基准上，Patho-AgenticRAG的准确率达到78.32%，而通用大模型里表现最好的InternVL3-8B只有54.07%，差距超过24个百分点；
对比专用病理大模型Patho-R1-7B，它的提升同样显著：Quilt-VQA数据集准确率从64.72%提升到75.80%，涨幅13.37%；MedXpertQA专家级问答数据集，准确率从22.00%飙升到60.00%，涨幅38%；OmniMedVQA的Bright Challenge赛道，准确率从70.79%提升到90.11%，涨幅19.32%。

通俗来说，这场考试里，通用大模型只能考三四十分，此前最好的专用病理AI能考六七十分，而Patho-AgenticRAG能稳定考到八九十分，尤其是最难的、最考验知识储备和推理能力的专家级考题，它的提升幅度最大。

它像资深医生一样完成鉴别诊断

论文里的一个真实乳腺癌诊断案例，还原了Patho-AgenticRAG的工作流程，也让我们看到了它落地临床的核心价值。

面对这样一道诊断题："小而一致的肿瘤细胞以单列兵样模式浸润，是以下哪种乳腺癌？A. 小叶癌 B. 导管癌 C. 乳头状癌 D. 黏液癌"，Patho-AgenticRAG没有直接答题，而是完成了完整的循证诊断流程：

先调用RAG工具，检索"乳腺浸润性小叶癌的组织学特征，包括单列兵样模式"，拿到了权威教材的结论："浸润性小叶癌的核心特征，就是小而一致的圆形肿瘤细胞，以单列（兵样）排列的方式浸润间质"；
再调用RAG工具，检索"如何从组织学上鉴别导管、乳头状、黏液性乳腺癌"，拿到了其他三种癌症的核心特征，逐一排除错误选项；
最后完成对比推理，给出了正确答案A，同时附上了完整的思考过程和证据来源。

和传统AI"黑箱式答题"不同，Patho-AgenticRAG的每一步推理都有权威证据支撑，每一个结论都可追溯、可验证，完全对齐了人类病理医生的诊断思维。这也是它能获得临床信任的核心原因------它不是在"猜答案"，而是在"做诊断"。

三、不止于减少误诊：Patho-AgenticRAG将给医疗带来什么？

Patho-AgenticRAG的意义，从来不是"用AI取代病理医生"，而是给病理医生打造一个最靠谱、最严谨、最博学的AI助理，彻底解决病理行业长期存在的痛点。

给基层医院送去"随身的病理专家库"

我国病理医生的缺口高达数万人，基层医院的病理科力量尤为薄弱，很多县级医院甚至没有专职的病理医生，疑难病例只能送到上级医院会诊，患者要等上几天甚至十几天才能拿到诊断结果。

而Patho-AgenticRAG，就像一个装在电脑里的"随身病理专家库"。

基层医生遇到疑难病例，只要上传切片图像、描述核心特征，AI就能立刻检索权威教材，给出鉴别诊断建议和完整的证据链，帮基层医生减少误诊漏诊，也让患者不用再长途奔波，在家门口就能拿到接近三甲医院水平的诊断参考。

给医学生打造"一对一的病理导师"

病理是医学生最难学的课程之一------文字描述的特征很抽象，必须结合病理切片图才能理解，但很多院校的教学资源有限，学生很难拿到足够的优质病例和教材资源。

Patho-AgenticRAG能解决这个问题：医学生对着切片图，随时可以提问，AI会立刻找到对应的教材图文内容，拆解核心特征，讲解鉴别要点，就像一位一对一的病理导师，随时答疑解惑，帮学生更快建立"文字-图像-诊断"的思维体系。

给数字病理打开更广阔的想象空间

论文里的框架，还有着无限的拓展可能。

未来，它可以整合更多的权威资源，不止是病理教材，还能纳入最新的临床指南、顶级期刊的研究成果，让AI的知识库永远保持最新；可以和数字病理扫描仪深度结合，医生扫切片的时候，AI实时识别切片里的异常特征，同步检索对应的诊断要点，给出实时的辅助诊断建议；

甚至可以结合患者的基因组学、蛋白组学数据，完成更精准的肿瘤分型和预后判断，推动精准医疗的落地。

结束语

本期推文的内容就到这里啦，如果需要获取医学AI领域的最新发展动态，请关注小罗的推送！

除以上全职岗位外，团队也正在招聘实习生/分析师（兼职）/讲师（兼职），欢迎医工交叉方向的优秀硕博，投递个人简历到团队邮箱：lxltx2025@163.com