哈工大团队联合德累斯顿工业大学联合发布医学AI智能体综述,讲述计算病理如何从图像分类任务演变成自主诊段工作流

小罗碎碎念

一百多年前,显微镜的发明,让人类第一次看到了细胞层面的病变,开启了现代病理学的时代;而今天,计算病理智能体的出现,让AI第一次拥有了像人类病理医生一样的思考、探索、学习能力,正在开启数字病理的全新时代。

本文核心内容基于综述论文《The Landscape of Computational Pathology Agents From Static Analysis to Autonomous Diagnostic Workflows》,核心作者为Jingyun Chen、Fengchun Liu、Songhan Jiang、Linghan Cai,来自哈尔滨工业大学(深圳)与德累斯顿工业大学,论文预印本于2026年1月发布于TechRxiv平台。

从早期的监督学习模型,到近年大火的病理基础模型,AI已经解决了病理标注成本极高的行业痛点,能完成固定场景下的图像分类任务。

早期阶段(1959--2018):基于形态学的传统方法

这是计算病理学的起步阶段,核心思路是从病理图像的形态特征出发,用人工设计或传统机器学习提取特征,完成基础的病理分析。

  • 核心技术:依赖病理学家定义的形态学特征(如细胞大小、核质比、腺体结构等),结合传统机器学习模型(如SVM、随机森林)做分类或分割。
  • 局限:高度依赖人工特征工程,泛化能力弱,只能处理简单、标准化的病理场景,无法挖掘深层的生物学信息。

中期阶段(2018--2021):多实例学习与组织分割

随着深度学习的普及,计算病理学进入深度学习驱动的精准分析阶段,核心是解决WSI(全切片图像)的超高分辨率问题,并向临床可解释性迈进。

  1. Multiple Instance Learning(多实例学习,MIL):把超大WSI切分为小Patch(图像块),用"袋-实例"结构建模,解决全切片级别的分类/预测问题(如肿瘤分级、预后风险)。
  2. Nuclei/Tissue Segmentation(细胞核/组织分割):用CNN、U-Net等模型精准定位细胞、腺体、肿瘤区域,为后续分析提供基础结构信息。
  3. Biomarker Prediction(生物标志物预测):从病理图像中预测分子标志物(如ER/PR/HER2状态、基因突变),实现"形态学→基因组"的跨模态关联。

让病理AI从"看形态"升级为"读信息",开始具备临床辅助决策的潜力,但仍局限于单任务、单模态的静态学习。

进阶阶段(2021--2024):跨模态对齐与自监督学习

这一阶段的核心是打破模态壁垒,用自监督学习挖掘病理数据的通用表征,为后续大模型应用打基础。

  1. Image-Text Alignment(图文对齐):把病理图像和病理报告/医学文献做跨模态对齐,让模型理解"图像形态"和"文本描述"的对应关系。
  2. Image-Omic Alignment(图像-组学对齐):进一步关联病理图像与基因组、转录组等组学数据,挖掘形态背后的分子机制。
  3. Self-supervised Learning(自监督学习):用海量无标注病理图像做预训练,学习通用的病理特征表征,降低对标注数据的依赖,提升模型泛化能力。

为病理大模型奠定了基础,让AI能从"单一任务"走向"通用理解",为后续VLM和多智能体系统铺路。

近期阶段(2024--2025.06):基于视觉语言大模型(VLM)的方法

随着多模态大模型的爆发,计算病理学进入"看图说话"的自然交互阶段,核心是用VLM直接处理病理图像+文本,实现更贴近临床场景的交互。

  • 代表模型:PathoChat、SlideChat、WSI-LLaVa等,都是基于LLaVA、Gemini等通用VLM改造的病理专用模型。
  • 核心能力:
    • 直接输入WSI/Patch+自然语言提问,输出病理描述、诊断建议、文献引用等。
    • 支持"图像-文本"的双向交互,比如"请描述这张切片里的肿瘤形态""这张切片对应的分子亚型可能是什么"。
  • 局限:仍以"单轮交互+静态推理"为主,缺乏复杂的任务规划、工具调用和自我校验能力,临床可信度仍需提升。

当前与未来阶段(2025.06--至今):多模态推理与多智能体协作

这是计算病理学的下一代范式,核心是从"被动应答"升级为"主动协作、终身学习",向真正的AI Copilot(病理助手) 迈进。

  1. Multi-Modal Reasoning(多模态推理):代表模型如Patho-R1、TeamPath、SmartPath-R1,能整合图像、文本、组学、临床数据,做复杂的逻辑推理(如"结合这张切片和患者病史,判断预后风险并给出治疗建议")。
  2. Planning & Tool Use(规划与工具调用):代表模型如CPathAgent、SurvAgent、Patho-AgenticRAG,能拆解复杂任务、调用外部工具(如数据库、分割模型、检索系统),完成端到端的临床任务。
  3. Self-evolving Agent(自进化智能体):代表项目如TissueLab,能从临床反馈、新数据中持续学习,自动更新模型知识,实现终身学习。

医学AI交流群

目前小罗全平台关注量120,000+,交流群总成员3000+,大部分来自国内外顶尖院校/医院,期待您的加入!!

由于近期入群推销人员较多,已开启入群验证,扫码添加我的联系方式,备注姓名-单位-科室/专业,即可邀您入群


科研服务

我们是一支由国内外顶尖高校硕博组成的科研团队,能够提供一系列医工交叉前沿的科研服务。

有兴趣的老师欢迎扫码与我们取得联系!


一、解码计算病理智能体的"类人诊断大脑"

计算病理智能体的核心创新,是把病理诊断从一个静态的图像分析任务,变成了一个交互式、多步骤的问题解决过程。

自由缩放的"数字病理眼"

病理诊断的核心,是"看"的能力------但传统AI的"眼睛",始终被固定在单一分辨率下,要么丢了全局组织架构,要么丢了微观细胞细节,更无法整合多种来源的诊断信息。而智能体的感知系统,完全复刻了人类医生的诊断视觉逻辑,实现了三个维度的突破。

首先是多尺度金字塔视觉。

人类医生的诊断天生就是分层的:先低倍镜扫完整张切片,看清组织整体架构,锁定可疑病变区;再切换高倍镜,放大观察细胞异型性、核分裂象等恶性特征。

文献中提到的HIPT模型,就用分层视觉Transformer架构实现了这种能力:它能依次编码不同分辨率的视觉特征,把高倍镜下的细胞细节,嵌入到低倍镜的全局组织上下文里,让AI既能看到"整片森林",也能看清"每一棵树",真正理解病理结构的生物学层级,而不是把切片当成一堆孤立的像素。

其次是全切片全局理解。

一张十亿像素的WSI,对传统AI来说是无法突破的上下文窗口瓶颈,大多数模型只能把切片拆成小碎片处理,最终丢失了肿瘤浸润范围、免疫细胞分布等全局关键信息。

而智能体通过全新的架构设计解决了这个问题:

  • Prov-GigaPath用LongNet的扩张注意力机制,能把整张切片当成一个完整的"叙事文本"处理;
  • TITAN模型则通过分层上下文整合,能回答跨越整张切片的空间关系问题,让AI真正拥有了全局视野,而不是"盲人摸象"。

最后是多模态信息融合。

在现代临床中,一张HE染色切片从来不是诊断的唯一依据,医生需要结合免疫组化、基因数据、患者病史才能给出准确结论。

传统AI大多只能处理单一的图像数据,而智能体的感知系统,能把不同模态的信息整合到同一个语义空间里。

比如文献中的KEEP模型,能把病理图像特征和生物医学知识图谱、文本描述对齐;TeamPath框架则让专门的智能体分别处理HE切片、转录组学数据,最终整合形成完整的患者画像,就像一个肿瘤多学科会诊团队,把所有维度的信息融合在一起,做出最全面的判断。


复刻病理医生的"诊断思维逻辑"

如果说感知是智能体的眼睛,那认知就是它的大脑,也是它和传统静态模型最本质的区别------传统AI只会"给结果",而智能体学会了"像医生一样思考"。

这种思考能力的核心,是思维链(Chain-of-Thought, CoT)推理。病理诊断从来不是非黑即白的选择题,而是一个"提出假设-验证证据-鉴别诊断"的演绎过程。一个合格的病理医生,绝不会只给一个"良性/恶性"的结论,一定会附上完整的诊断思路。

而传统AI就是典型的"黑箱",哪怕结果是对的,也可能是"蒙对的",医生无法验证它的逻辑。智能体则通过思维链,把这个黑箱完全打开:面对一个边界模糊的病变,它会先生成内部思考:"核异型性提示恶性,但病变边界清晰更符合良性肿瘤特征,需要进一步寻找核分裂象确认",再根据这个思路去收集证据,最终给出结论。

文献中提到的Patho-R1模型,更是用分组相对策略优化(GRPO)的强化学习方法,让AI主动优化自己的推理逻辑,不仅让决策更可靠,也让医生能清晰地验证每一步推理,彻底解决了黑箱问题。


为了避免AI"凭空思考",智能体还拥有知识增强能力,确保所有推理都建立在权威医学事实之上。

就像医生遇到罕见病例会翻WHO肿瘤分类指南、查最新文献,智能体也不会只靠自己的内部知识下判断。

Patho-AgenticRAG模型会在遇到不确定性时,主动生成检索指令,从权威医学指南和文献中查找依据;KEEP模型则直接把结构化的生物医学知识图谱注入模型,让AI真正理解医学实体之间的语义关系。

这种"动态检索+静态注入"的双重机制,从根源上减少了AI的幻觉问题,确保它的推理不仅"逻辑通顺",更"医学合规"。


而复杂诊断任务的拆解能力,则让智能体的思考有了清晰的执行路径。

一句"诊断这张切片",对传统AI来说是无法处理的抽象指令,但对智能体来说,它会像人类医生一样,把这个大目标拆成可执行的子任务。

文献中的PathFinder模型,就把诊断流程拆解成了"低倍镜锁定感兴趣区域→导航到目标区域→高倍镜分析形态特征→综合所有发现给出诊断"的完整步骤,把诊断从一个静态图像分析问题,变成了一个有规划、有顺序的决策过程,不仅能高效分配算力,还能确保没有关键区域被遗漏,完全对齐了人类医生的诊断流程。


会操作、会调用工具的"数字手"

一个真正的诊断专家,不仅会看、会想,更会动手操作、会用工具。这也是智能体和传统静态模型最核心的区别:传统AI只能被动接收别人给它的数据,而智能体能主动和环境交互,自己去收集需要的信息。

这种行动能力,首先体现在模拟显微镜操作上。

你可以把传统AI想象成一个被人把所有切片碎片都堆在面前的人,只能被动地看,不能自己选择看哪里;而智能体就像一个能亲手操作显微镜的医生,拥有完整的操作权限:放大、缩小、平移、聚焦,完全复刻人类医生的显微镜操作。

文献中提到的CPathAgent、Pathology-CoT,通过学习资深病理医生的操作轨迹,掌握了最优的切片导航策略:先在低倍镜下沿着组织边缘扫描,锁定可疑区域,再放大到高倍镜下观察细节,而不是随机扫描整张切片。

这种主动视觉模式,极大减少了计算冗余,让AI能把算力集中在真正有诊断价值的区域,完全复刻了人类医生"搜索-确认"的诊断流程。


而外部工具调用能力,更是让智能体从"一个模型"变成了"一个诊断总指挥"。

就像医生不会手动数切片里的上千个细胞,而是用专门的图像分析工具;遇到罕见基因突变,会去查专业医学数据库,智能体也不需要用一个模型包打天下,而是作为核心控制器,调用专门的工具完成子任务。

文献里的UnPuzzle模型,搭建了一个"模型动物园",里面有预训练好的细胞核分割器、组织分类器等专用工具,智能体遇到对应任务,就会生成调用指令,让专用工具完成任务,再把结果整合到自己的推理链里;

而MedResearcher-R1,更是能直接访问医学数据库和搜索引擎,查找罕见突变的相关资料、最新的肿瘤分期指南,把整个互联网变成自己的外部认知延伸,解决那些罕见的、长尾的临床病例。


不会"看了就忘"的"临床经验库"

病理诊断是一个极度依赖记忆的工作,医生既要在看切片时记住已经看过的区域,避免"只见树木不见森林",也要靠常年积累的病例库,给新病例提供参考。

而传统AI最大的问题之一,就是"看了就忘"------处理高倍镜细节时,会丢失低倍镜的全局上下文;处理完一个病例,也不会积累任何经验。

智能体的记忆模块,就完美解决了这个问题。


首先是工作记忆,解决了"迷失在切片里"的难题。

一张WSI能包含超过10万个切片碎片,传统AI处理一个新碎片时,会忘记之前看过的内容,很容易出现前后矛盾的结论。就像你在森林里走路,不记路就会迷路,而智能体的工作记忆,就是它的"导航地图"。

文献中的ALPaCA模型,会动态维护一个切片级的上下文向量,智能体每浏览一个区域,就会把这个区域的特征整合到工作记忆里,让它能把不同区域的信息串联起来,始终保持对整张切片的全局认知,不会因为看了细节就忘了全局,确保诊断结论的一致性和全面性。

而长期记忆,则让智能体从"一次性分析工具",变成了能不断学习的"资深专家"。

人类病理医生的水平会随着接诊病例的增加而提升,靠的就是自己积累的病例库。

智能体也一样,文献中的SurvAgent模型,搭建了一个"病例银行",存储了过往患者的组织学特征、治疗结果、生存数据。

遇到新病例时,它会从长期记忆里检索视觉和临床特征相似的历史病例,参考过往的诊断和预后结果,不仅能给出更准确的诊断,还能基于实证数据给出预后判断。

这种能力,让智能体每处理一个病例,就能积累一份经验,真正实现了基于经验的持续学习。


二、计算病理智能体的能力究竟有多强?

从"全能单兵"到"协同团队"的全场景覆盖

基于不同的临床场景,计算病理智能体已经形成了三类成熟的架构范式,覆盖了从简单对话到全流程自主诊断、从单机运行到人机协同的全场景需求。

第一类是单模型端到端智能体,就像临床里的全科医生,用一个统一的多模态大模型,完成从图像输入到诊断报告输出的全流程。

这类架构的优势是训练和部署简单,端到端的设计也能保证语义对齐。

  • 早期代表PathChat,用视觉适配器把病理图像特征和Llama 2大模型对齐,让医生能直接和AI对话,询问切片病变区域的细节;
  • 而SlideChat、MUSK等模型,更是突破了十亿像素WSI的上下文窗口限制,能直接处理整张切片,实现了端到端的全切片诊断;
  • Patho-R1、SmartPath-R1则把思维链推理直接嵌入单模型架构,让AI在给出诊断前,先生成完整的推理步骤,大幅提升了复杂病例的诊断可靠性。

第二类是多智能体协同系统,如果说单模型是全科医生,那这类架构就是一个完整的病理多学科会诊团队。

它把复杂的诊断任务拆分成不同的专业角色,交给专门的智能体完成,既能突破单模型的上下文长度限制,也能通过多角色交叉校验,大幅减少幻觉和错误。

  • 比如SlideSeek设计了"主管-探索者-报告者"的三级架构:主管智能体负责制定诊断计划,探索者智能体负责在WSI里自主导航、寻找病变证据,报告者智能体负责整合信息、生成诊断报告;
  • PathFinder则把诊断流程拆分成"分诊-导航-描述-诊断"的闭环,像人类医生一样一步步完成诊断;
  • WSI-Agents更是专门设置了"批评家智能体",负责校验逻辑和事实,实现了系统的自我纠错,极大提升了诊断的准确性。

第三类是交互式&人在环中智能体,核心目标不是替代医生,而是对齐人类专家的诊断逻辑,成为医生的"数字学徒"。

这类架构的核心,是把病理医生的隐性知识、操作经验,转化成AI能学习的内容,实现人机协同的最优效果。

  • 比如Pathology-CoT,通过行为克隆学习资深病理医生的显微镜缩放、平移轨迹,复刻人类的视觉思维链;
  • PathoGaze结合了医生的眼动追踪数据,让AI的注意力和资深专家的视线焦点对齐,避免把精力浪费在无关的组织上;
  • 而TissueLab,能根据医生的实时反馈,不断优化自己的策略,和医生一起协同进化,真正成为医生的诊断副驾,而不是一个独立的"机器诊断系统"。

从"看结果"到"看过程"

传统的计算病理模型,只用准确率、AUC这些分类指标来衡量,就像只看考试的最终分数,却不看解题过程。

但对于能自主推理、自主行动的智能体来说,这种评估方式完全不够。

在基准测试方面,领域已经从简单的分类数据集,升级到了能全面考察临床能力的专用基准。

  • 比如PathMMU,是专家级的多模态理解数据集,包含33428道病理多选题,覆盖PubMed、医学图谱等专业来源,每道题都有详细的专家解析;
  • PathGen-1.6M则通过多智能体协同,生成了160万对高质量病理图像-文本对,覆盖27种组织类型,为模型训练提供了大规模的高质量数据;
  • 而WSI-Bench,更是专门为十亿像素WSI设计的大规模基准,包含来自30种癌症的9850张WSI、179569个问答对,覆盖了从形态分析、组织学分型、分级,到预后预测、治疗建议、报告生成的11个核心病理任务,相当于给AI准备了一套完整的"病理执业医师资格考试",全面考察AI的临床能力,而不是简单的识图能力。

在评估体系上,领域也完成了从"只看结果"到"结果+过程+安全"的全维度升级。

除了传统的分类指标,新的评估体系还包含四大核心维度:

  • 一是推理质量评估,不再只看诊断结果对不对,还要验证AI的思维链逻辑是否严谨,有没有"蒙对答案",确保AI的每一步推理都有证据支撑;
  • 二是导航效率评估,考察AI能不能高效找到病变区域,有没有浪费算力随机扫描背景组织,衡量它的主动视觉能力;
  • 三是幻觉与安全性评估,通过事实一致性校验,严格惩罚AI编造的形态特征和临床关联,同时区分良性错误和致命的误诊,优先消除高风险的临床错误;
  • 四是人类专家盲审,这也是最终的金标准,比如PathChat、HistoGPT等模型,在盲审实验中,资深病理医生根本分不清AI生成的报告和人类医生写的报告,证明顶级的智能体,已经能达到和人类专家相当的诊断报告水平。

三、计算病理智能体将如何改变病理诊断的行业生态?

病理诊断是现代医学的基石,但在全球范围内,病理医生都面临着巨大的缺口------在中国,每10万人口仅有不到2名病理医生,基层医院的病理诊断能力更是严重不足;

而一张肿瘤WSI,资深医生也要花几十分钟才能看完,巨大的工作负荷,也带来了误诊、漏诊的风险。计算病理智能体的出现,不是要替代病理医生,而是要彻底重塑这个行业的生态,让病理诊断更精准、更高效、更可及。

在当下,它首先能解决行业最核心的痛点:通过全切片初筛,自动锁定可疑病变区域,把医生从海量、重复性的筛查工作中解放出来,让医生能把精力集中在复杂病例的诊断、和患者的沟通上;

对于基层医院来说,智能体就像一个"随身的资深病理专家",能结合权威医学指南、全球的病例数据,帮助基层医生提高诊断准确率,减少误诊,让优质的病理诊断资源,能覆盖到更多偏远地区的患者。

除此之外,智能体的多模态融合能力,还能实现以前根本做不到的事情:比如直接从HE染色切片里,预测患者的基因突变状态、治疗响应和预后,把形态学和分子生物学、临床信息完美整合,真正推动精准医疗的落地。


当然,计算病理智能体还处在发展的早期,这篇综述也明确指出了它面临的核心挑战:首先是推理数据的稀缺,现在的数据集大多只有"切片-诊断报告"的输入输出对,没有记录医生诊断过程中的思考轨迹、操作流程,而这些"隐性知识",恰恰是病理诊断的核心;

其次是十亿像素级数据的计算效率瓶颈,一张WSI的处理需要巨大的算力和时间,很难满足临床实时诊断的需求;最核心的,还是临床安全性和监管问题,生成式AI的幻觉问题,在医疗这个高风险领域,是绝对不能忽视的红线。

针对这些挑战,综述也指出了未来的发展方向:

  • 未来的智能体,会通过行为克隆、眼动追踪等技术,把医生的隐性诊断知识显性化,实现基于过程的监督;
  • 会通过自适应注意力、分层记忆架构,平衡全局上下文和计算效率,实现实时的切片处理;
  • 会通过多智能体的自我校验、检索增强生成等技术,打造可验证、可追溯的AI,解决幻觉问题,满足临床监管的要求;

最终,会进化成以人为中心的协同智能体------它不是要替代病理医生,而是要成为医生最可靠的诊断伙伴,医生负责复杂的临床决策、伦理判断,AI负责海量的信息整合、重复性的筛查、证据的收集验证,形成人机协同的全新诊断模式。


结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!

团队正在招聘实习生/分析师/讲师,欢迎医工交叉方向的优秀硕博,投递个人简历到团队邮箱:lxltx2025@163.com

相关推荐
wincheshe2 小时前
AI Agent 开发学习 --- 框架开发实践(三)
人工智能·学习
新缸中之脑2 小时前
Autoresearch 代码深度解析
人工智能
love530love2 小时前
OpenClaw 手机直连配置全流程
人工智能·windows·python·智能手机·c#·agent·openclaw
VillanelleS2 小时前
AI工程化之Agent架构
人工智能·架构
余俊晖2 小时前
多模态大模型后训练强化学习训练方法:Shuffle-R1
人工智能·自然语言处理·多模态
黄焖鸡能干四碗2 小时前
网络安全建设实施方案(Word文件参考下载)
大数据·网络·人工智能·安全·web安全·制造
未来之窗软件服务3 小时前
为何模型越强、幻觉越大、工业越弱[AI人工智能(六十二)]—东方仙盟
人工智能·仙盟创梦ide·东方仙盟
云上的云端3 小时前
vLLM-Ascend operator torchvision::nms does not exist 问题解决
人工智能·pytorch·深度学习
szxinmai主板定制专家3 小时前
基于ZYNQ MPSOC船舶数据采集仪器设计(一)总体设计方案,包括振动、压力、温度、流量等参数
arm开发·人工智能·嵌入式硬件·fpga开发