Sci. Adv.（IF=12.5）首都医科大学宣武医院卢洁等团队：一种用于预测乳腺癌新辅助化疗病理完全缓解的多模态全自动系统

文献信息

本次分享的文献是由首都医科大学宣武医院卢洁等团队联合北京大学深圳医院、青岛大学附属医院、复旦大学附属肿瘤医院等多中心合作团队于2025年4月30日在《Science Advances》（中科院1区top，IF=12.5）上发表的研究"A multimodal and fully automated system for prediction of pathological complete response to neoadjuvant chemotherapy in breast cancer"即一种用于预测乳腺癌新辅助化疗病理完全缓解的多模态全自动系统，该研究开发了一款名为"多模态整合全自动流水线系统（MIFAPS）"的深度学习模型，通过整合治疗前磁共振成像（MRI）、全切片图像（WSI）及临床风险因素，实现对局部晚期乳腺癌患者新辅助化疗（NAC）后病理完全缓解（pCR）的精准预测。研究基于1004例多中心、前瞻性患者数据验证，结果显示MIFAPS在外部测试集（AUC=0.882）和前瞻性测试集（AUC=0.909）中均表现优异，显著优于单模态模型（P<0.05）；同时通过可视化与RNA测序，揭示高模型分数与免疫相关通路激活、抗肿瘤免疫细胞浸润相关，为乳腺癌个性化治疗提供了可靠工具。

图 2：研究工作流

三模态签名开发：

MRI模块（A）：整合T2WI、DWI、CE-T1WI三序列，通过"自动分割子网络（编码器+解码器）"和"自动分类子网络"提取深度特征，无需人工标注ROI。

WSI模块（B）：采用"WSI切片-特征提取-注意力骨干网络-注意力分支"的多实例学习框架，自动聚焦肿瘤关键区域，避免病理医生手动勾画。

临床模块（C）：通过单因素+多因素logistic回归，筛选出年龄、HER2、分子亚型3个独立风险因素，构建临床签名。

多模态融合与延伸（D-G）：用逻辑回归整合三模态签名，后续通过"生物学基础探索（RNA测序、免疫细胞分析）""模型评估（多测试集验证）""临床应用（指导治疗方案）"形成闭环。

研究背景及目标

研究背景

疾病现状：乳腺癌是全球女性最常见恶性肿瘤，NAC是局部晚期乳腺癌的主要治疗方案，可缩小肿瘤、降低转移率、提高保乳手术概率；10%-50%患者可达到pCR，且pCR与良好预后相关（如可能省略乳房切除术）。

现有技术局限：

传统影像手段（如MRI、超声、钼靶）预测pCR敏感性低，例如MRI敏感性仅64%，且RECIST标准评估pCR存在不足与延迟。

放射组学研究存在可重复性低、样本量小的问题，"手工提取特征"难以捕捉图像全部信息。

单模态深度学习模型仅依赖单一影像（如MRI或WSI），准确性需提升，且缺乏多中心或前瞻性验证。

多模态数据（影像+病理+临床）融合对pCR预测的价值尚未在乳腺癌中明确，且深度学习模型的"黑箱"机制缺乏生物学解释。

研究目标

开发并验证多模态整合全自动流水线系统（MIFAPS），通过整合治疗前磁共振成像、苏木精-伊红染色活检全切片图像及临床风险因素，预测局部晚期乳腺癌患者新辅助化疗后的病理完全缓解，同时可视化模型关键区域并探索深度学习预测的生物学基础。

MIFAPS模型架构

MIFAPS采用"三模态特征提取+逻辑回归融合"的架构，具体分为三个核心模块：

MRI深度学习模块：

输入：多序列MRI（T2加权成像T2WI、扩散加权成像DWI、对比增强T1加权成像CE-T1WI）。

流程：基于U型网络实现肿瘤自动分割，再用DenseNet121、ResNeXt101、ResNet101三种网络构建分类子网络，通过"均值投票"整合多序列特征，输出MRI分数。

WSI深度学习模块：

输入：苏木精-伊红（H&E）染色的活检全切片图像（40× magnification）。

流程：基于CLAM库实现多实例学习，通过注意力模块自动聚焦关键组织区域（无需手动标注ROI），提取1024维特征向量，经全连接层输出WSI分数。

临床特征模块：

输入：患者临床指标（年龄、肿瘤大小、雌激素受体ER、孕激素受体PR、人表皮生长因子受体2 HER2、Ki-67、分子亚型）。

流程：通过单变量与多变量逻辑回归筛选独立风险因素（最终确定年龄、HER2、分子亚型3个因素），输出临床分数。

融合公式：MIFAPS score=6.933×MRI score+5.560×WSI score+3.321×临床score-8.358（基于逻辑回归系数确定）。

数据和方法

研究数据

数据规模：共纳入1004例局部晚期乳腺癌患者，均接受NAC后手术，且有完整的治疗前MRI、WSI及临床数据。

数据分组：

训练验证集：383例，烟台毓璜顶医院（2018.3-2022.4）

内部测试集：95例，烟台毓璜顶医院（同回顾性）

外部合并测试集：417例，多中心（2019.3-2022.10）

前瞻性测试集：109例，烟台毓璜顶医院（2022.9-2023.1）

pCR定义：术后手术标本及区域淋巴结中无残留浸润癌与原位癌（依据Miller-Payne分级系统，由2-3名资深病理医师评估）。

图 1：患者入组工作流

研究方法

数据收集与质控：制定严格入排标准（如排除有放化疗史、治疗不完整、影像质量差的患者），确保数据完整性与一致性。

模型训练与优化：

各模态模型采用PyTorch框架训练，MRI模块用Adam优化器（初始学习率1e-4，batch size=8），WSI模块添加dropout（0.25）抑制过拟合。

融合阶段对比逻辑回归、K近邻、决策树、支持向量机等算法，最终选择逻辑回归（AUC最高）。

模型验证：采用ROC曲线（AUC）、PR曲线（AUPRC）评估性能，计算敏感性、特异性、准确性等指标；用DeLong检验比较不同模型AUC差异（P<0.05为显著）。

可视化与生物学验证：

可视化：用Grad-CAM生成MRI关键区域热图，用注意力热图标注WSI关键tiles；用HoverNet分割细胞类型（肿瘤细胞、淋巴细胞等）。

生物学基础：对67例患者进行RNA测序，筛选差异表达基因（DEGs）；通过GSEA分析富集通路；用CibersortX评估免疫细胞丰度；用免疫组化（IHC）验证CD4记忆T细胞、M1/M2巨噬细胞。

实验结果图

图 3：模型预测性能与亚组分析

ROC与PR曲线（A-H）：

ROC曲线：MIFAPS在训练验证集（A，AUC=0.994）、内部测试集（B，AUC=0.932）、外部合并测试集（C，AUC=0.882）、前瞻性测试集（D，AUC=0.909）均显著优于MRI（0.813-0.969）、WSI（0.774-0.895）、临床单模态模型（0.653-0.840），且双模态模型（如MRI+WSI AUC=0.861）也不及MIFAPS。

PR曲线：应对pCR样本少的数据不平衡问题，MIFAPS在外部合并测试集（G，AUPRC=0.781）、前瞻性测试集（H，AUPRC=0.833）表现稳定，证明模型在真实临床场景（样本不均衡）中的实用性。

亚组分析（I-L）：

分子亚型：HER2过表达亚型AUC最高（外部测试集0.962），三阴性亚型次之（0.758），Luminal A+B亚型稳定（0.836），说明模型对HER2阳性患者的pCR预测更精准。

病灶大小：≤2cm病灶AUC（外部0.916、前瞻性0.962）高于>2cm（外部0.876、前瞻性0.889），可能因小病灶异质性低，多模态特征更易捕捉。

模型校正（M-R）：MIFAPS可修正单模态模型的误判，如外部测试集中，修正MRI模型33.33%非pCR和89.47% pCR误判，修正WSI模型91.28%非pCR和84.85% pCR误判，凸显融合的纠错能力。

图 4：MIFAPS临床决策支持

混淆矩阵（A-B）：外部合并测试集（A）中，93例真阳性（pCR被正确预测）、236例真阴性（非pCR被正确预测）；前瞻性测试集（B）中，22例真阳性、70例真阴性，直观展示模型分类效果。

治疗建议（C-D）：

真阳性患者：93例（外部）、22例（前瞻性）可能受益于保乳手术，甚至豁免手术（替代乳房切除术）。

真阴性患者：236例（外部，76.6%）、70例（前瞻性，85.4%）可避免无效NAC，转入新疗法临床试验。

误判情况：仅14.7%（外部）、18.5%（前瞻性）患者可能错过有效治疗，误判率低。

图 5：多模态模型可视化

MRI可视化（A）：通过Grad-CAM生成热图，红色/黄色区域（肿瘤及瘤周组织）对pCR预测贡献更高，绿色/蓝色区域（正常组织）贡献低，说明模型能精准聚焦病灶。

WSI可视化（B-F）：

原始WSI（B）：高评分患者肿瘤区域更集中，低评分患者纤维组织占比高。

注意力热图（C）：红色区域为高注意力区，高评分患者聚焦肿瘤组织，低评分聚焦肿瘤+纤维组织。

细胞分类（D-F）：高注意力区域中，高评分患者淋巴细胞（绿色）更多、肿瘤细胞（红色）更少（P<0.05），与生物学基础一致。

图 6：MIFAPS生物学基础

差异基因与通路（A-B）：

火山图（A）：高评分与低评分患者间存在差异表达基因（DEGs），如CCL5、CXCL10、CXCL13（免疫相关）、EEF1A2（细胞增殖相关）。

GSEA富集（B）：高评分患者显著富集"免疫反应""干扰素-γ生成正调控""T细胞增殖"通路，证明模型高评分与免疫激活相关。

免疫细胞分析（C-D）：

箱线图（C）：高评分组CD4记忆T细胞（P=0.010）、M1巨噬细胞（P=0.073）含量更高，M2巨噬细胞更低，M1（抗肿瘤）vsM2（促肿瘤）的平衡偏向抗肿瘤。

IHC染色（D）：高评分患者CD4记忆T细胞染色强、M1巨噬细胞多，低评分患者M2巨噬细胞多，直观验证免疫细胞差异。

图 7：误分类病例分析

MRI误判（A）：误判病例中，模型关注非肿瘤区域（如50岁非pCR患者MRI病灶5.8cm，模型却聚焦无关区域），可能因MRI肿瘤分割学习不充分。

WSI误判（B-C）：非pCR患者高注意力区域淋巴细胞多，pCR患者聚焦结缔组织，导致误判；统计显示误判的pCR患者高注意力区域淋巴细胞少于正确病例（P<0.05）。

基因通路（D）：11例误判病例中，高评分患者免疫反应通路下调，与正确病例的"免疫激活"相反，推测免疫通路下调→淋巴细胞少→模型误判。

表3：临床风险因素

单多因素logistic结果：列出年龄、肿瘤大小、ER/PR/HER2/Ki-67、分子亚型等因素的OR值、95% CI及P值，最终筛选出"年龄（OR=0.354，P<0.05）""HER2状态（OR=8.064，P<0.05）""分子亚型（OR=2.236，P<0.05）"为独立预测因素。

讨论

创新方向

技术创新：实现全自动多模态融合，MRI模块自动分割肿瘤（减少人为干扰），WSI模块无需手动标注ROI（提升临床适用性）；对比多种融合算法，选择最优的逻辑回归融合策略。

设计创新：首次在乳腺癌pCR预测中整合"MRI+WSI+临床"三模态数据，并通过多中心前瞻性验证，解决了传统模型样本量小、可重复性低的问题。

机制创新：通过RNA测序、免疫细胞分析、IHC验证，揭示了模型预测的生物学基础，打破深度学习"黑箱"，为模型临床转化提供理论支撑。

临床价值

个性化治疗：治疗前预测pCR，帮助医生为患者制定精准方案（标准NACvs新药试验），避免"一刀切"治疗。

减少医疗资源浪费：降低无效化疗比例，减少患者毒副作用，同时节省医疗成本。

推动精准医疗：为乳腺癌多模态AI模型的临床转化提供范式，可推广至其他癌症的治疗响应预测。

技术亮点

实用性强：全自动流程（无需手动分割/标注），符合临床快节奏需求，易于推广。

性能稳定：在不同分子亚型、肿瘤大小、化疗方案的亚组中均表现良好，泛化性优异。

可解释性高：通过Grad-CAM、注意力热图、细胞计数、分子通路分析，多维度解释模型决策，降低临床应用顾虑。