小罗碎碎念
核心内容来源:发表于第40届国际人工智能顶会AAAI 2026的论文《Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning》,核心作者团队来自四川大学华西医院病理科、多伦多大学、惠灵顿维多利亚大学、中国医科大学盛京医院等机构。

长期以来,病理AI的落地,始终被"幻觉"和"黑箱"两个难题卡住------AI哪怕准确率再高,只要它的结论没有证据支撑,临床就不敢用。
而Patho-AgenticRAG的提出,试图让病理AI的推理过程对齐人类医生的循证诊断逻辑,让AI从一个"会背书的实习生",变成了一个"会查书、会推理、会严谨下结论的靠谱助理"。
这正是AI与医疗交叉最有价值的地方:它从来不是要取代人类医生,而是用技术给医生赋能,让优质的医疗资源,能触达更多需要的人;让严谨的循证医学,能守护更多人的生命与健康。
如今,能看图识物的视觉语言大模型(Vision Language Models, VLMs),早已在X光、CT等医学影像场景落地,却在病理诊断领域频频翻车------哪怕它背完了整本权威病理教材,也经常对着切片说出和视觉证据完全不符的结论,也就是AI圈里所说的"幻觉"。
为什么会出现这种落差?
今天和大家分享的这篇论文给出了核心答案:和常规医学影像不同,病理切片有着超高分辨率、极致精细的组织结构、复杂到难以量化的语义差异,诊断的核心是"看形态"------细胞的排列方式、染色特征、空间结构,才是判断肿瘤类型的关键。
四川大学华西医院病理科团队联合多伦多大学、惠灵顿维多利亚大学等机构,带来了登上第40届国际人工智能顶会AAAI 2026的框架------Patho-AgenticRAG。

它用多模态智能体检索+强化学习的创新设计,打破了病理AI的幻觉困局,给癌症诊断装上了一个"会主动查书、会严谨推理、每一步结论都有权威证据支撑"的智能大脑。
医学AI交流群
目前小罗全平台关注量120,000+,交流群总成员3000+,大部分来自国内外顶尖院校/医院,期待您的加入!!
由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群。
团队自营 |病理 AI 多模态融合实战课
8 讲病理 AI 实战课,拆解 Pathomic Fusion/SurvPath 等经典研究,手把手教您学会病理 + 影像 + 基因组整合建模;
从临床问题拆解到多模态设计,从代码复现到课题迁移,覆盖病理切片 / 影像 / 组学整合全流程,帮你把方法落地到临床课题!
感兴趣的老师和同学可以扫码联系小助理,了解详情,购买课程。
一、从"死记硬背"到"循证推理"
和传统RAG系统"被动搜文本、搜完就答题"的僵化逻辑不同,Patho-AgenticRAG的核心创新,是把病理诊断从"AI背书答题",变成了"AI模拟资深病理医生的完整诊断流程";
- 先拆解问题,再规划检索路径
- 接着同步查找权威教材的文字描述与对应病理图像
- 最后交叉验证、严谨推理,给出有完整证据链的结论
先搭好"病理图文图书馆"
病理医生诊断的底气,来自权威的病理教科书;而Patho-AgenticRAG的第一步,就是给AI建一座规范、全面的"病理图文图书馆"。
团队收集了600余本国际权威病理教科书,总计约30万页内容,经过去重、筛选、质控后,保留了超过20万页高质量的图文页面。
和传统知识库把文字、图片分开存储不同,团队用ColQwen2模型,把每一页的文字描述和对应的病理图像,打包嵌入到同一个向量空间里,再用HNSW算法建立索引,存入Milvus向量数据库。
这就像把课本的每一页都做成了"图文绑定的知识卡片",而不是把文字和插图拆成零散的词条。
AI检索的时候,能同时匹配查询的文字描述和对应的视觉特征,不会漏掉任何关键的形态学线索。
会拆解任务的"智能诊断规划师"
遇到复杂的鉴别诊断,资深病理医生不会直接下结论,而是先把问题拆成几个步骤:先锁定目标疾病的核心特征,再查找鉴别诊断的要点,最后逐一排除错误选项。
Patho-AgenticRAG里的Agentic Router(智能体路由模块),就是干这件事的"诊断规划师"。
它是整个框架的"大脑",接到用户的诊断查询后,会先完成4步核心决策:
- 判断这个问题要不要调用检索?简单常识题直接回答,复杂诊断题立刻启动检索流程;
- 要不要重写查询?把口语化、模糊的问题,改成更贴合教材内容的专业检索词,提升检索准确率;
- 要不要用组织特异性分类器?比如乳腺相关的问题,就只检索乳腺病理分区的内容,不用翻完整座图书馆,大幅提升效率;
- 最终锁定检索分区,给后续的检索模块下达明确指令。
能精准找证据的"图文检索官"
拿到规划好的检索任务,VRAG Agent模块就化身成了严谨的"证据收集官",负责完成多轮检索、图文重排序、信息蒸馏的全流程工作。
传统的图文检索,大多是简单的"文字相似度+图片相似度"加权打分,很容易被噪声干扰------比如一页内容泛泛提到了多种乳腺癌,整体相似度很高,但没有你要的核心特征,也会被排在前面。
而Patho-AgenticRAG专门设计了Patho-Fusion多模态融合公式,核心逻辑是:优先筛选出"和查询内容高度聚焦的页面",也就是只有一小部分内容和查询高度相关、相似度集中的页面,而不是那种全页都沾边、但都不深入的"泛泛而谈"的内容。
这就像你查一个知识点,一页专门讲解该知识点的内容,永远比一本通篇都在泛讲相关主题的书更有用。这个设计能精准过滤掉噪声,让AI在100个检索结果里,72次能在第一个结果就找到最匹配的教材页面,远超传统检索方法。
拿到检索结果后,VRAG Agent还会完成多轮迭代:第一次检索锁定核心疾病特征,第二次检索补充鉴别诊断要点,再把所有返回的图文内容,蒸馏成结构化的证据摘要,交给最终的推理模型,而不是扔一堆杂乱的资料。
用奖惩机制打磨出的"严谨决策力"
怎么让这个AI助理的决策越来越靠谱,不会乱检索、漏检索?团队给出的答案,是基于GRPO算法的工具集成强化学习训练范式。
团队先设计了一套分层奖励函数,给AI的每一步决策都打分:
- 要不要检索的决策对了,先拿基础分;
- 查询重写的次数和内容对了,再加1分;
- 正确选择了要不要用分类器,再加2分;
- 最终锁定的检索分区完全正确,再加1分;
- 只要关键决策错了,直接0分。
训练的时候,团队先用400条专家标注的优质案例,给AI做"冷启动"的监督微调(SFT),让它先学会基础的诊断流程;再用GRPO强化学习,给AI大量的考题,让它在反复的决策中,学会最优的检索规划路径。
论文的消融实验明确证明:跳过冷启动,AI的训练完全无法收敛;用太多数据做监督微调,AI又会变得僵化,只会按固定模板答题,没有泛化能力;只有"少量SFT冷启动+GRPO强化学习"的组合,能让AI既懂基础规则,又能灵活应对复杂问题。
比如在Quilt-VQA数据集上,这个组合让AI的准确率从60.93%直接提升到75.80%,涨幅高达14.87%。
二、从病理考试到真实诊断,它的实力到底有多强?
100道题,72次一次找对答案
为了验证Patho-Fusion多模态检索的能力,团队用100组由病理专家标注的图文问答对,搭建了测试数据集,和当前主流的检索方法做了头对头对比。
实验结果一目了然:
- Patho-AgenticRAG的Rec@1(第一个结果就命中正确答案的概率)达到了0.720,也就是100次检索里,72次能一次就找到最匹配的教材页面;
- 纯文本检索的CoPaLi方法,Rec@1只有0.640;
- 纯图像检索的CoPaLi和通用图文融合方法WeiMoCIR,Rec@1都只有0.060,几乎找不到正确答案。
这组数据清晰地证明:通用的图文检索方法,在专业性极强的病理场景里完全失效;而专门针对病理场景设计的Patho-Fusion,能精准锁定图文匹配的权威内容,从根源上减少了AI因为找不到正确资料而产生的幻觉。
诊断能力对决
病理AI的核心使命,是完成准确的诊断问答。
团队用行业公认的6个权威病理VLM基准数据集,给Patho-AgenticRAG安排了一场"病理执业医师资格考试",对比对象包括InternVL3、Llama3.2V、Qwen2.5VL等主流通用大模型,以及此前性能最优的专用病理大模型Patho-R1-7B。
- 在最具挑战性的PathMMU-test专家级病理基准上,Patho-AgenticRAG的准确率达到78.32%,而通用大模型里表现最好的InternVL3-8B只有54.07%,差距超过24个百分点;
- 对比专用病理大模型Patho-R1-7B,它的提升同样显著:Quilt-VQA数据集准确率从64.72%提升到75.80%,涨幅13.37%;MedXpertQA专家级问答数据集,准确率从22.00%飙升到60.00%,涨幅38%;OmniMedVQA的Bright Challenge赛道,准确率从70.79%提升到90.11%,涨幅19.32%。
通俗来说,这场考试里,通用大模型只能考三四十分,此前最好的专用病理AI能考六七十分,而Patho-AgenticRAG能稳定考到八九十分,尤其是最难的、最考验知识储备和推理能力的专家级考题,它的提升幅度最大。
它像资深医生一样完成鉴别诊断
论文里的一个真实乳腺癌诊断案例,还原了Patho-AgenticRAG的工作流程,也让我们看到了它落地临床的核心价值。
面对这样一道诊断题:"小而一致的肿瘤细胞以单列兵样模式浸润,是以下哪种乳腺癌?A. 小叶癌 B. 导管癌 C. 乳头状癌 D. 黏液癌",Patho-AgenticRAG没有直接答题,而是完成了完整的循证诊断流程:
- 先调用RAG工具,检索"乳腺浸润性小叶癌的组织学特征,包括单列兵样模式",拿到了权威教材的结论:"浸润性小叶癌的核心特征,就是小而一致的圆形肿瘤细胞,以单列(兵样)排列的方式浸润间质";
- 再调用RAG工具,检索"如何从组织学上鉴别导管、乳头状、黏液性乳腺癌",拿到了其他三种癌症的核心特征,逐一排除错误选项;
- 最后完成对比推理,给出了正确答案A,同时附上了完整的思考过程和证据来源。
和传统AI"黑箱式答题"不同,Patho-AgenticRAG的每一步推理都有权威证据支撑,每一个结论都可追溯、可验证,完全对齐了人类病理医生的诊断思维。这也是它能获得临床信任的核心原因------它不是在"猜答案",而是在"做诊断"。
三、不止于减少误诊:Patho-AgenticRAG将给医疗带来什么?
Patho-AgenticRAG的意义,从来不是"用AI取代病理医生",而是给病理医生打造一个最靠谱、最严谨、最博学的AI助理,彻底解决病理行业长期存在的痛点。
给基层医院送去"随身的病理专家库"
我国病理医生的缺口高达数万人,基层医院的病理科力量尤为薄弱,很多县级医院甚至没有专职的病理医生,疑难病例只能送到上级医院会诊,患者要等上几天甚至十几天才能拿到诊断结果。
而Patho-AgenticRAG,就像一个装在电脑里的"随身病理专家库"。
基层医生遇到疑难病例,只要上传切片图像、描述核心特征,AI就能立刻检索权威教材,给出鉴别诊断建议和完整的证据链,帮基层医生减少误诊漏诊,也让患者不用再长途奔波,在家门口就能拿到接近三甲医院水平的诊断参考。
给医学生打造"一对一的病理导师"
病理是医学生最难学的课程之一------文字描述的特征很抽象,必须结合病理切片图才能理解,但很多院校的教学资源有限,学生很难拿到足够的优质病例和教材资源。
Patho-AgenticRAG能解决这个问题:医学生对着切片图,随时可以提问,AI会立刻找到对应的教材图文内容,拆解核心特征,讲解鉴别要点,就像一位一对一的病理导师,随时答疑解惑,帮学生更快建立"文字-图像-诊断"的思维体系。
给数字病理打开更广阔的想象空间
论文里的框架,还有着无限的拓展可能。
未来,它可以整合更多的权威资源,不止是病理教材,还能纳入最新的临床指南、顶级期刊的研究成果,让AI的知识库永远保持最新;可以和数字病理扫描仪深度结合,医生扫切片的时候,AI实时识别切片里的异常特征,同步检索对应的诊断要点,给出实时的辅助诊断建议;
甚至可以结合患者的基因组学、蛋白组学数据,完成更精准的肿瘤分型和预后判断,推动精准医疗的落地。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!
除以上全职岗位外,团队也正在招聘实习生/分析师(兼职)/讲师(兼职),欢迎医工交叉方向的优秀硕博,投递个人简历到团队邮箱:lxltx2025@163.com