Adv Sci 复旦大学附属中山医院宋志坚&复旦大学上海肿瘤医院黄丹等团队：基于基础模型的多模态深度学习用于结直肠癌不完整模态的预后预测

文献学习

今天分享的文献是由复旦大学附属中山医院宋志坚、复旦大学上海肿瘤医院黄丹等团队于2026年1月20日在《Advanced Science》（中科院1区top，IF=14.1）上发表的研究"Foundation Model-Enabled Multimodal Deep Learning for Prognostic Prediction in Colorectal Cancer with Incomplete Modalities: A Multi-Institutional Retrospective Study"即基于基础模型的多模态深度学习在不完整模态结直肠癌预后预测中的应用，该研究提出了一种名为FLARE 的多模态深度学习框架，整合病理图像、CT影像与临床文本，用于结直肠癌患者的生存预后预测，特别针对临床常见的模态缺失问题进行优化。研究基于1679例多中心患者数据，验证了模型在预后分层与预测精度上的优越性。

创新点：①多模态融合 ：首次整合病理图像、放射影像与临床文本，构建统一深度学习框架，突破单模态局限。②基础模型驱动 ：采用预训练基础模型进行特征提取，提升模型效率与跨模态协同能力。③缺失数据处理：引入提示机制与伪嵌入技术，有效应对临床中常见的数据缺失问题。

临床价值：①泛化能力强 ：经多中心外部验证，模型在真实临床环境中表现稳定，适用于不同医疗机构。②精准风险分层 ：能有效区分高/低风险患者，为个体化治疗与随访策略提供依据。③可解释性高：通过热图、免疫与基因通路分析，增强预测结果的可信度与临床可操作性。

图 1：研究整体设计图

a：多中心多模态数据集构成

b：模态特异性基础模型特征提取

展示FLARE的特征编码逻辑------针对不同模态采用专用预训练基础模型：病理图像用病理基础模型、CT影像用放射学基础模型、临床文本用医学大语言模型（Med-LLM）。

c：缺失模态处理策略

呈现三大创新技术：模态感知提示（Modality-aware Prompts）、缺失感知提示（Missing-aware Prompts）、可学习伪嵌入（Pseudo Embedding）、模态级数据增强（Modality Dropout，丢弃率30%）。

d：多分支注意力融合网络

设计3个并行注意力分支（Attention Branch 1-3），结合"互斥多样性损失函数（Multiple Exclusive Diversity Loss）"，实现跨模态特征的差异化融合。

e：模型评估与可解释性分析框架

验证层面采用Kaplan-Meier（KM）分析和一致性指数（C-index），在1个内部验证集+3个外部验证集上评估；可解释性层面通过临床因素分析、免疫浸润分析、基因通路分析、热图可视化实现。

研究背景及目的

研究背景

结直肠癌是全球范围内高发且致命的恶性肿瘤之一，准确预测患者预后对于制定个体化治疗策略和改善临床结局至关重要 。当前临床实践广泛采用的预后评估体系，如AJCC/TNM分期，主要依赖于病理学家的主观判读，局限于肿瘤尺寸、浸润深度和转移等宏观指标 ，而未能充分整合病理图像、放射影像和临床文本报告等多维度信息 ，导致预测与真实结局存在偏差。此外，关键的预后因素，如肿瘤出芽、肿瘤微环境中的免疫细胞密度等，虽可通过影像学手段识别，却在现有分期系统中被忽视；同时，蕴含家族史、疾病进展和实验室标志物等关键信息的临床报告也未得到有效利用。这凸显了构建一个能够融合多模态数据的预后预测框架的迫切需求。

近年来，深度学习技术在医学数据分析中展现出巨大潜力，多模态数据融合成为研究前沿 。然而，现有研究多聚焦于单模态（如病理图像、放射影像或文本）或双模态融合，在处理三种及以上异质性模态时能力有限 。不同模态数据属性差异巨大：病理图像具有超高分辨率，需分割为数千个斑块；放射影像（如CT）需进行三维层面分析；文本报告则需语义建模。这种异质性，加之高质量多模态数据集的稀缺，使得有效的端到端训练异常困难 。更为严峻的是，临床实践中普遍存在模态数据缺失问题 ，而多数现有模型假设训练或测试阶段数据完整，严重限制了其实用性。此外，现有多模态深度学习模型的"黑箱"特性导致其临床可解释性不足 ，医生难以理解模型决策背后的临床、免疫或基因组学模式。因此，开发一个能够高效整合异质多模态数据、鲁棒处理模态缺失、且具备良好可解释性的深度学习框架，是当前结直肠癌精准预后预测领域亟待突破的核心挑战。

研究目的

本研究的核心目的是开发并验证一个名为FLARE的新型多模态深度学习框架，以显著提升结直肠癌患者的预后预测精度，并解决当前该领域面临的关键技术瓶颈 。具体而言，本研究旨在实现以下几个目标：首先，构建一个能够无缝整合全切片病理图像、放射影像（CT）和临床文本报告（含分子标志物信息）这三种关键模态数据的统一架构 ，以模拟临床医生综合多种信息进行诊断决策的完整过程，从而超越传统单模态或双模态方法的局限性。其次，创新性地解决临床实践中不可避免的模态缺失问题 ，通过设计模态感知与缺失感知提示、可学习的伪嵌入向量以及模态层面的数据增强策略，使模型在训练和推理阶段都能鲁棒地处理不完整数据，避免性能退化，增强其在真实世界临床环境中的适用性。

再者，提升模型的可解释性，建立其预测结果与临床生物学意义之间的桥梁 。研究计划通过热图可视化展示模型在病理切片、CT影像和文本中的关注区域，并结合统计分析，探究模型划分的高/低风险组在关键临床因素（如AJCC分期）、免疫浸润模式以及基因通路富集上的显著差异 ，从而揭示模型决策的潜在生物学依据，增强临床医生对模型的信任。最后，在大型多中心回顾性数据集上对所提框架进行 rigorous 验证 。通过使用一致性指数（C-index）和Kaplan-Meier生存分析等指标，在内部及多个独立外部验证队列中评估FLARE在预测总生存期（OS）和无进展生存期（PFS）方面的性能，旨在证明其不仅优于传统临床模型和现有先进多模态方法，更具有卓越的泛化能力和临床应用的稳健性，最终为结直肠癌的精准预后评估和个体化治疗提供一种先进的AI工具。

数据和方法

研究数据

**数据类型：**多中心回顾性多模态数据集，包含病理切片（WSI）、放射CT图像、临床文本报告（含分子标志物突变、病史、病理/放射学结论等信息）。

**样本量：**共1679例结直肠癌患者，来自4个独立临床中心：

复旦大学上海肿瘤医院（FUSCC）：839例（训练+内部验证集，五折交叉验证）

复旦大学附属中山医院（FUZSH）：169例（外部验证集）

复旦大学附属华山医院（FUHSH）：87例（外部验证集）

TCGA-COAD&READ公共数据库：584例（外部验证集）

**数据特征：**部分患者存在模态缺失（如TCGA队列无放射数据），所有患者均有完整的随访数据（OS、PFS、复发状态等）。

图 2：多中心多模态数据集及队列特征图

技术方法

（1）模型架构：FLARE框架

模态特异性基础模型特征编码：

病理图像（WSI）：采用预训练病理视觉语言模型PLIP提取2D patch特征；

放射CT图像：采用预训练放射影像基础模型MedSAM提取3D层状特征（含位置信息）；

临床文本：采用预训练医学大语言模型BioLinkBERT-large提取语义特征。

多分支注意力融合模块：设计3个并行注意力分支，结合"互斥多样性损失函数"，增强不同模态特征的差异性和互补性。

模态缺失处理策略：

模态感知+缺失感知提示：编码模态类型和缺失状态，优化多模态整合；

可学习伪嵌入：动态生成缺失模态的补偿特征；

模态级数据增强：训练时随机丢弃30%模态（至少保留1种），模拟临床缺失场景。

预后预测网络：通过自注意力模块融合特征，全连接网络输出患者风险评分。

（2）评估方法

预测准确性：一致性指数（C-index）；

风险分层：Kaplan-Meier生存分析+Log-rank检验；

对比实验：与传统临床模型（Cox回归，含AJCC/TNM分期、年龄等）、单模态模型、现有主流多模态模型（生成式、特征平均、注意力聚合）对比；

消融实验：验证模态增强、提示机制、多分支结构等核心组件的有效性；

可解释性分析：热图可视化（多模态关键区域）、临床因素关联分析（AJCC/TNM分期等）、免疫浸润分析（CIBERSORT）、基因通路富集分析（GSEA-KEGG/GO）。

图 3：FLARE模型架构图

a：模型整体架构

模态特异性编码：病理图像（WSI）经Path-FM编码、CT影像经RAD-FM编码、临床报告经Med-LLM编码，生成模态特征集；

多分支互斥建模：每个模态特征输入3个并行注意力分支，结合"互斥多样性损失函数（D-LossBlock）"，促进差异化特征学习；

融合与预测：经自注意力模块（Self-Attention）融合跨模态特征，输入多模态预后风险预测网络（Multi-Modal SurvNet）输出风险评分；

b：缺失模态处理细节

提示编码：为每个模态分配模态感知哈希编码（病理"01"、放射"10"、文本"11"）和缺失感知编码（存在"1"、缺失"0"），拼接至特征向量中；

可学习伪嵌入：当模态缺失时，生成动态优化的伪嵌入向量替代缺失特征，补偿信息损失。

实验结果

预测性能：

FLARE在全部4个队列中C-index最高（OS: 0.730--0.812，PFS: 0.725--0.901），显著优于单模态模型与传统临床模型。

风险分层能力：

Kaplan-Meier分析显示高低风险组生存差异显著（Log-rank P<0.05）。

可解释性分析：

热图可视化显示模型关注与预后相关的病理区域（如坏死、浸润）、CT影像特征（如淋巴结肿大）及文本关键词（如"便血"）。

高风险组与低风险组在AJCC分期、pT/N分期、免疫细胞组成（如CD4+ T细胞、巨噬细胞）及基因通路（如免疫相关通路）上均有显著差异。

图 4：模型性能评估图

图 5：模态可解释性分析图

图 6：临床-免疫-分子层面可解释性分析图

研究结论

本研究提出并验证了一种基于基础模型的多模态深度学习框架FLARE ，用于结直肠癌（CRC）的预后预测，能够有效处理临床中常见的多模态数据缺失问题 。通过整合病理图像、放射影像和临床文本报告 ，FLARE在包含1679例患者的多中心回顾性数据集中 表现出卓越的预测性能，其在总体生存（OS）和无进展生存（PFS）预测中的C指数显著高于传统临床模型及现有多模态方法 ，并在外部验证队列中表现出强泛化能力 。模型通过注意力多分支架构、模态感知提示、可学习伪嵌入和模态级数据增强 等机制，有效缓解了因模态缺失导致的性能下降。此外，FLARE具备良好的临床可解释性 ，其风险分层结果与AJCC/TNM分期、免疫微环境特征及关键基因通路显著相关，揭示了免疫抑制与肿瘤进展的生物学关联 。尽管存在回顾性设计、未包含基因组原始数据 等局限，FLARE仍为结直肠癌的精准预后评估提供了一个稳健、可扩展的多模态深度学习框架，具备推动临床决策向个性化、智能化方向发展的潜力。

参考文献：Qu L, Zhang C, Hou Y, Tang F, Sheng W, Huang D, Song Z. Foundation Model-Enabled Multimodal Deep Learning for Prognostic Prediction in Colorectal Cancer with Incomplete Modalities: A Multi-Institutional Retrospective Study. Adv Sci (Weinh). 2026 Jan 20:e10931. doi: 10.1002/advs.202510931.