EBioMedicine美国佐治亚理工学院与埃默里大学:基于深度学习的放射组学与病理学多模态融合预测HPV相关口咽鳞状细胞癌预后

01

文献信息

本次分享的文献是由佐治亚理工学院和埃默里大学华莱士·H·库尔特生物医学工程系Anant Madabhushi教授团队联合美国克利夫兰医学中心、埃默里大学医院、爱荷华大学霍尔顿综合癌症中心、南京信息工程大学人工智能医学学院(中国)等12家机构2025年3月在柳叶刀子刊《eBioMedicine》(中科院1区,IF=10.8)上发表的研究"Deep learning informed multimodal fusion of radiology and pathology to predict outcomes in HPV-associated oropharyngeal squamous cell carcinoma"即基于深度学习的放射组学与病理组学多模态融合预测HPV相关口咽鳞状细胞癌的预后,提出了一种基于Swin Transformer** 的多模态深度学习框架SMuRF,整合CT影像和病理全幻灯片图像(WSI),对HPV相关口咽鳞癌(OPSCC)患者进行生存期和肿瘤分级的预测。**

Fig.1:SMuRF 研究工作流程图

该图清晰地勾勒出了SMuRF模型的完整工作流,分为四个主要部分:

a) 多模态数据整理与标注(Multimodal data curation and annotation):

展示了数据的原始形态:病理WSI (绿色轮廓是组织碎片,红色是病理医生标注的肿瘤区域)和放射CT(黄色是原发肿瘤,蓝色是转移淋巴结)。

强调了数据的基础是经过专业医生精确标注的。

b) 预处理(Preprocessing):

病理端: 使用CLAM工具箱进行组织分割和背景去除。

放射端: 展示了从CT体积中提取出的原发肿瘤和淋巴结的3D子区域。

c) 多区域多尺度融合(Multi-region and multiscale fusion with SwinT):

这是模型的核心。展示了两个独立的数据流

病理流 : WSI碎片被输入到2D Swin Transformer 块中。图中标出了W-MSASW-MSA模块,表明模型通过窗口自注意力机制学习病理特征。

放射流 : CT子体积被输入到3D Swin Transformer块中(分别处理肿瘤和淋巴结)。

最后,通过一个融合模块( likely based on self-attention pooling)将多模态特征整合。

d) 模型推断 (Model inference):

融合后的特征被输入到一个多任务学习层,最终输出生存风险评分肿瘤分级概率

图中还在CT和WSI上以红色区域示意了模型关注的重点预后区域,为后续的可解释性分析埋下伏笔。

02

研究背景及目标

研究背景

临床问题

  • HPV+OPSCC预后较好,但部分患者仍面临复发、治疗毒性及生存质量下降,需个体化风险分层(如降阶治疗vs.强化治疗)。

现有局限

  • 分子标志物(如PIK3CA突变)仅反映部分生物学特性,忽略肿瘤微环境异质性。
  • 单模态模型(仅影像或病理)无法捕捉多尺度信息互补性。

既往研究忽视淋巴结与原发灶的联合预后价值。

研究目标

  • 提出SMuRF框架,整合CT与WSI的多区域(原发灶PT+淋巴结LN)、多尺度特征。
  • 验证SMuRF对DFS、OS及肿瘤分级的预测性能,并评估其独立预后价值。

03

数据和方法

研究数据

队列 :277例HPV+ OPSCC患者(Cleveland Clinic n =230, Winship n=47)

数据内容

影像数据:治疗前增强CT(原发灶+最大转移淋巴结的3D标注)

病理数据:H&E染色全切片图像(WSI),经病理专家标注肿瘤区域

临床变量:T/N分期、年龄、吸烟、性别、治疗方案

终点指标

主要终点:无病生存期(DFS)

次要终点:总生存期(OS)、肿瘤分级(低/高级别)

数据划分 :训练集(n =120)、验证集(n =52)、测试集(n=105)

技术方案

SMuRF框架核心流程

病理特征提取

使用HIPT模型(Hierarchical Image Pyramid Transformer)分层嵌入特征:

细胞级(16×16像素→61μm)→ 区域级(256×256像素)→ 全切片级(2048×2048像素→1mm²)

输出192维向量,保留微观至宏观空间信息。

影像特征提取

CT原发灶及淋巴结各取4个48×48×3子区域(含瘤周15mm扩展区)。

3D Swin Transformer模块捕获局部与全局空间依赖。

多模态融合

跨模态/跨区域注意力机制:通过窗口多头自注意力(W-MSA)和移位窗口(SW-MSA)融合PT/LN的CT特征与WSI特征。

自注意力池化:优化特征交互,替代传统拼接(Concatenation)或Kronecker乘积。

多任务输出

Cox损失预测生存风险 + 交叉熵损失预测肿瘤分级。

可解释性分析

Integrated Gradients (IG):可视化CT中预后相关区域(瘤内/瘤周)。

注意力热力图:定位WSI关键形态特征(如肿瘤-胶原界面、细胞簇)。

04

实验结果图

Fig.2:SMuRF 模型性能验证图

此图由多个子图组成,是展示结果核心的关键图表。

a, b, c) DFS生存曲线: 分别展示了训练集、验证集和测试集上,根据SMuRF评分分为高风险和低风险组后的Kaplan-Meier曲线。

结果 : 在所有三个数据集中,两组患者的生存曲线都表现出高度显著的分离(log-rank test p值应很小)。高风险组的3年DFS率(测试集为54%)显著低于低风险组(测试集为92%),直观证明了SMuRF强大的预后分层能力。

d, e, f) 肿瘤分级ROC曲线: 分别展示了三个数据集上SMuRF预测肿瘤分级(高 vs. 低)的ROC曲线。

结果 : AUC值在训练集、验证集和测试集上分别为0.99, 0.84, 0.74。训练集AUC极高可能存在过拟合,但验证集和测试集(尤其是测试集0.74)的AUC表明模型具有良好的、可泛化的分类性能。

g) 消融实验对比: 比较了7种不同模型在测试集上的性能(C-index for DFS, AUC for Grade)。

关键发现 : SMuRF (T+N+WSI) 取得了最佳性能(C-index=0.79, AUC=0.74),显著优于仅使用单一模态(如仅CT或仅WSI)或单一区域(如仅肿瘤T)的模型。这强有力地证明了多模态、多区域融合的必要性和优越性

h) 融合策略对比: 比较了使用相同数据下,不同特征融合策略的性能。

关键发现 : Self-Attention Pooling (即SMuRF所用方法)优于简单的向量拼接(Concatenation)或Kronecker乘积。这表明先进的注意力融合机制能更有效地捕捉跨模态交互

Fig.3:SMuRF 独立预后价值与变量重要性分析图

此图旨在证明SMuRF是一个独立于临床因素的强预后指标。

a) 多变量回归森林图:

左侧是Cox回归(针对DFS),显示在调整了所有临床变量后,SMuRF评分仍然是极其显著的预测因子(HR=17, 95% CI: 4.9-58, p<0.0001)。

右侧是Logistic回归(针对分级),同样显示SMuRF是显著预测因子(OR=3.7, 95% CI: 1.4-10.5, p=0.01)。

b, d) SHAP蜜蜂群图:

展示了每个变量对所有患者预测结果的影响方向和幅度。每个点代表一个患者,颜色代表特征值的高低(红色高,蓝色低),X轴是SHAP值(对模型输出的影响程度)。

关键发现 : SMuRF的SHAP值分布最广,且远离零点,表明其影响力最大且最稳定。例如在(b)中,高SMuRF评分(红点)几乎总是与正的SHAP值(增加死亡风险)相关。

c, e) 特征贡献度饼图:

将每个变量的平均|SHAP值|转换为贡献百分比。

关键发现 : SMuRF在DFS预测中贡献了37.3% ,在分级预测中贡献了58.1%,远超过其他临床变量,是其最重要的预测因子。

Fig.4:SMuRF 预测的可解释性图(CT 影像 IG 热图)

该图通过**Integrated Gradients (IG)**方法,将模型的决策过程可视化到原始CT图像上。

展示了4个代表性患者的案例(2个高风险,2个低风险)。

对于每个患者,展示了:

裁剪出的原发肿瘤CT图像 (c)和对应的IG热力图(d)。

裁剪出的转移淋巴结CT图像 (e)和对应的IG热力图(f)。

关键发现:

原发肿瘤 : 模型不仅关注肿瘤内部,还非常关注瘤周区域(peritumoral area)。这与现有研究(瘤周 microenvironment的重要性)相符,表明模型学到了有生物学意义的特征。

淋巴结 : 模型的注意力更加集中于淋巴结内部(如大小、形状、纹理),而非其周围组织。这表明对于淋巴结,其内在的影像学特征更具预后价值。

图5: WSI图像的模型可解释性(Fig. 5)

该图展示了SMuRF在病理图像 上关注的重点,并揭示了其多尺度洞察能力。

对比了一个高风险 和一个低风险患者的WSI。

宏观尺度 (256x256 patches):

高风险患者(c)的注意力高度集中在肿瘤-胶原纤维接口(tumor-collagen fiber interface)。

低风险患者(d)的注意力则更多集中在肿瘤细胞簇(tumor cell clusters)本身。

微观尺度 (16x16 patches):

高风险患者(e)的注意力集中在单个胶原纤维上。

低风险患者(f)的注意力集中在单个肿瘤细胞上。

关键发现 : 模型不仅找到了有判别性的区域,还能在细胞级和组织级 等不同尺度上识别出与预后相关的不同形态学特征。高风险特征似乎与肿瘤和间质(胶原纤维)的相互作用密切相关。

作用与意义 : 提供了病理学层面的生物学解释,将模型的预测与具体的、可被病理医生理解的形态学特征联系起来,极大提升了研究成果的临床接受度和科学价值。

05

讨论

创新点与技术亮点

多尺度融合:HIPT+3D Swin Transformer统一微观(细胞)至宏观(影像)特征。

跨区域建模:首次联合原发灶与淋巴结的影像-病理特征,揭示区域协同预后价值。

可解释性:IG与注意力热力图提供生物学见解(如瘤周CT特征与WSI胶原结构的关联)。

局限性

回顾性队列:需前瞻性验证SMuRF的临床适用性。

样本多样性:队列以男性为主(89.9%),需扩大种族/性别代表性。

未整合分子数据:未来可融合基因组学(如PIK3CA突变)构建多组学模型。

临床转化方向

治疗决策:识别适合降阶治疗的低危患者(避免过度治疗)或需强化治疗的高危患者。

生物机制探索:模型定位的关键区域(如肿瘤-胶原界面)可能成为新治疗靶点。

相关推荐
Agent手记1 小时前
异常考勤智能预警与处理与流程优化方案 | 基于企业级Agent的超自动化实战教程
运维·人工智能·ai·自动化
2601_957787581 小时前
矩阵运营的技术底座:为什么“一体化系统“正在取代“工具拼装“
人工智能·矩阵·矩阵运营
冬奇Lab2 小时前
Agent 系列(一):Agent 是什么——不只是「会调工具的 LLM」
人工智能·llm·agent
冬奇Lab2 小时前
RAG 系列(二十四):代码 RAG——让 AI 理解你的代码库
人工智能·llm
南屹川2 小时前
【算法】动态规划实战:从入门到精通
人工智能
人工智能培训2 小时前
大模型与传统小模型、传统NLP模型的核心差异解析
人工智能·深度学习·神经网络·机器学习·生成对抗网络
沪漂阿龙2 小时前
面试题详解:智能客服 Agent 系统全栈拆解——Rasa Pro、对话管理、意图识别、GraphRAG、Qwen 与 RAG 优化实战
人工智能·架构
薛定猫AI2 小时前
【深度解析】Gemini Omni 多模态生成与 Agent 化创作工作流:从视频编辑到 UI 生成的技术演进
人工智能·ui·音视频