EBioMedicine美国佐治亚理工学院与埃默里大学：基于深度学习的放射组学与病理学多模态融合预测HPV相关口咽鳞状细胞癌预后

文献信息

本次分享的文献是由佐治亚理工学院和埃默里大学华莱士·H·库尔特生物医学工程系Anant Madabhushi教授团队联合美国克利夫兰医学中心、埃默里大学医院、爱荷华大学霍尔顿综合癌症中心、南京信息工程大学人工智能医学学院（中国）等12家机构2025年3月在柳叶刀子刊《eBioMedicine》（中科院1区，IF=10.8）上发表的研究"Deep learning informed multimodal fusion of radiology and pathology to predict outcomes in HPV-associated oropharyngeal squamous cell carcinoma"即基于深度学习的放射组学与病理组学多模态融合预测HPV相关口咽鳞状细胞癌的预后，提出了一种基于Swin Transformer** 的多模态深度学习框架SMuRF，整合CT影像和病理全幻灯片图像（WSI），对HPV相关口咽鳞癌（OPSCC）患者进行生存期和肿瘤分级的预测。**

Fig.1：SMuRF 研究工作流程图

该图清晰地勾勒出了SMuRF模型的完整工作流，分为四个主要部分：

a) 多模态数据整理与标注(Multimodal data curation and annotation):

展示了数据的原始形态：病理WSI （绿色轮廓是组织碎片，红色是病理医生标注的肿瘤区域）和放射CT（黄色是原发肿瘤，蓝色是转移淋巴结）。

强调了数据的基础是经过专业医生精确标注的。

b) 预处理(Preprocessing):

病理端: 使用CLAM工具箱进行组织分割和背景去除。

放射端: 展示了从CT体积中提取出的原发肿瘤和淋巴结的3D子区域。

c) 多区域多尺度融合(Multi-region and multiscale fusion with SwinT):

这是模型的核心。展示了两个独立的数据流：

病理流 : WSI碎片被输入到2D Swin Transformer 块中。图中标出了W-MSA 和SW-MSA模块，表明模型通过窗口自注意力机制学习病理特征。

放射流 : CT子体积被输入到3D Swin Transformer块中（分别处理肿瘤和淋巴结）。

最后，通过一个融合模块（ likely based on self-attention pooling）将多模态特征整合。

d) 模型推断 (Model inference):

融合后的特征被输入到一个多任务学习层，最终输出生存风险评分 和肿瘤分级概率。

图中还在CT和WSI上以红色区域示意了模型关注的重点预后区域，为后续的可解释性分析埋下伏笔。

研究背景及目标

研究背景

临床问题：

HPV+OPSCC预后较好，但部分患者仍面临复发、治疗毒性及生存质量下降，需个体化风险分层（如降阶治疗vs.强化治疗）。

现有局限：

分子标志物（如PIK3CA突变）仅反映部分生物学特性，忽略肿瘤微环境异质性。

单模态模型（仅影像或病理）无法捕捉多尺度信息互补性。

既往研究忽视淋巴结与原发灶的联合预后价值。

研究目标

提出SMuRF框架，整合CT与WSI的多区域（原发灶PT+淋巴结LN）、多尺度特征。

验证SMuRF对DFS、OS及肿瘤分级的预测性能，并评估其独立预后价值。

数据和方法

研究数据

队列：277例HPV+ OPSCC患者（Cleveland Clinic n =230, Winship n=47）

数据内容：

影像数据：治疗前增强CT（原发灶+最大转移淋巴结的3D标注）

病理数据：H&E染色全切片图像（WSI），经病理专家标注肿瘤区域

临床变量：T/N分期、年龄、吸烟、性别、治疗方案

终点指标：

主要终点：无病生存期（DFS）

次要终点：总生存期（OS）、肿瘤分级（低/高级别）

数据划分 ：训练集（n =120）、验证集（n =52）、测试集（n=105）

技术方案

SMuRF框架核心流程

病理特征提取：

使用HIPT模型（Hierarchical Image Pyramid Transformer）分层嵌入特征：

细胞级（16×16像素→61μm）→ 区域级（256×256像素）→ 全切片级（2048×2048像素→1mm²）

输出192维向量，保留微观至宏观空间信息。

影像特征提取：

CT原发灶及淋巴结各取4个48×48×3子区域（含瘤周15mm扩展区）。

3D Swin Transformer模块捕获局部与全局空间依赖。

多模态融合：

跨模态/跨区域注意力机制：通过窗口多头自注意力（W-MSA）和移位窗口（SW-MSA）融合PT/LN的CT特征与WSI特征。

自注意力池化：优化特征交互，替代传统拼接（Concatenation）或Kronecker乘积。

多任务输出：

Cox损失预测生存风险 + 交叉熵损失预测肿瘤分级。

可解释性分析

Integrated Gradients (IG)：可视化CT中预后相关区域（瘤内/瘤周）。

注意力热力图：定位WSI关键形态特征（如肿瘤-胶原界面、细胞簇）。

实验结果图

Fig.2：SMuRF 模型性能验证图

此图由多个子图组成，是展示结果核心的关键图表。

a, b, c) DFS生存曲线: 分别展示了训练集、验证集和测试集上，根据SMuRF评分分为高风险和低风险组后的Kaplan-Meier曲线。

结果 : 在所有三个数据集中，两组患者的生存曲线都表现出高度显著的分离（log-rank test p值应很小）。高风险组的3年DFS率（测试集为54%）显著低于低风险组（测试集为92%），直观证明了SMuRF强大的预后分层能力。

d, e, f) 肿瘤分级ROC曲线: 分别展示了三个数据集上SMuRF预测肿瘤分级（高 vs. 低）的ROC曲线。

结果 : AUC值在训练集、验证集和测试集上分别为0.99, 0.84, 0.74。训练集AUC极高可能存在过拟合，但验证集和测试集（尤其是测试集0.74）的AUC表明模型具有良好的、可泛化的分类性能。

g) 消融实验对比: 比较了7种不同模型在测试集上的性能（C-index for DFS, AUC for Grade）。

关键发现 : SMuRF (T+N+WSI) 取得了最佳性能（C-index=0.79, AUC=0.74），显著优于仅使用单一模态（如仅CT或仅WSI）或单一区域（如仅肿瘤T）的模型。这强有力地证明了多模态、多区域融合的必要性和优越性。

h) 融合策略对比: 比较了使用相同数据下，不同特征融合策略的性能。

关键发现 : Self-Attention Pooling （即SMuRF所用方法）优于简单的向量拼接（Concatenation）或Kronecker乘积。这表明先进的注意力融合机制能更有效地捕捉跨模态交互。

Fig.3：SMuRF 独立预后价值与变量重要性分析图

此图旨在证明SMuRF是一个独立于临床因素的强预后指标。

a) 多变量回归森林图:

左侧是Cox回归（针对DFS），显示在调整了所有临床变量后，SMuRF评分仍然是极其显著的预测因子（HR=17, 95% CI: 4.9-58, p<0.0001）。

右侧是Logistic回归（针对分级），同样显示SMuRF是显著预测因子（OR=3.7, 95% CI: 1.4-10.5, p=0.01）。

b, d) SHAP蜜蜂群图:

展示了每个变量对所有患者预测结果的影响方向和幅度。每个点代表一个患者，颜色代表特征值的高低（红色高，蓝色低），X轴是SHAP值（对模型输出的影响程度）。

关键发现 : SMuRF的SHAP值分布最广，且远离零点，表明其影响力最大且最稳定。例如在(b)中，高SMuRF评分（红点）几乎总是与正的SHAP值（增加死亡风险）相关。

c, e) 特征贡献度饼图:

将每个变量的平均|SHAP值|转换为贡献百分比。

关键发现 : SMuRF在DFS预测中贡献了37.3% ，在分级预测中贡献了58.1%，远超过其他临床变量，是其最重要的预测因子。

Fig.4：SMuRF 预测的可解释性图（CT 影像 IG 热图）

该图通过**Integrated Gradients (IG)**方法，将模型的决策过程可视化到原始CT图像上。

展示了4个代表性患者的案例（2个高风险，2个低风险）。

对于每个患者，展示了：

裁剪出的原发肿瘤CT图像 （c）和对应的IG热力图（d）。

裁剪出的转移淋巴结CT图像 （e）和对应的IG热力图（f）。

关键发现:

原发肿瘤 : 模型不仅关注肿瘤内部，还非常关注瘤周区域（peritumoral area）。这与现有研究（瘤周 microenvironment的重要性）相符，表明模型学到了有生物学意义的特征。

淋巴结 : 模型的注意力更加集中于淋巴结内部（如大小、形状、纹理），而非其周围组织。这表明对于淋巴结，其内在的影像学特征更具预后价值。

图5: WSI图像的模型可解释性(Fig. 5)

该图展示了SMuRF在病理图像 上关注的重点，并揭示了其多尺度洞察能力。

对比了一个高风险 和一个低风险患者的WSI。

宏观尺度 (256x256 patches):

高风险患者（c）的注意力高度集中在肿瘤-胶原纤维接口（tumor-collagen fiber interface）。

低风险患者（d）的注意力则更多集中在肿瘤细胞簇（tumor cell clusters）本身。

微观尺度 (16x16 patches):

高风险患者（e）的注意力集中在单个胶原纤维上。

低风险患者（f）的注意力集中在单个肿瘤细胞上。

关键发现 : 模型不仅找到了有判别性的区域，还能在细胞级和组织级 等不同尺度上识别出与预后相关的不同形态学特征。高风险特征似乎与肿瘤和间质（胶原纤维）的相互作用密切相关。

作用与意义 : 提供了病理学层面的生物学解释，将模型的预测与具体的、可被病理医生理解的形态学特征联系起来，极大提升了研究成果的临床接受度和科学价值。

讨论

创新点与技术亮点

多尺度融合：HIPT+3D Swin Transformer统一微观（细胞）至宏观（影像）特征。

跨区域建模：首次联合原发灶与淋巴结的影像-病理特征，揭示区域协同预后价值。

可解释性：IG与注意力热力图提供生物学见解（如瘤周CT特征与WSI胶原结构的关联）。

局限性

回顾性队列：需前瞻性验证SMuRF的临床适用性。

样本多样性：队列以男性为主（89.9%），需扩大种族/性别代表性。

未整合分子数据：未来可融合基因组学（如PIK3CA突变）构建多组学模型。

临床转化方向

治疗决策：识别适合降阶治疗的低危患者（避免过度治疗）或需强化治疗的高危患者。

生物机制探索：模型定位的关键区域（如肿瘤-胶原界面）可能成为新治疗靶点。