Radiother Oncol 山东第一医科大学：基于多组学模型预测非小细胞肺癌患者放化疗后预后的多中心研究

文献学习

今天分享的文献是由山东第一医科大学等团队于2025年3月在《Radiotherapy and Oncology》（中科院2区top，IF=5.3）上发表的研究"Multi-omics models for predicting prognosis in non-small cell lung cancer patients following chemotherapy and radiotherapy: A multi-center study"即放化疗后非小细胞肺癌患者预后预测的多组学模型：一项多中心研究，该研究构建并验证了基于CT影像、病理切片、放疗剂量与临床信息的多组学模型，用于预测非小细胞肺癌患者放化疗后的治疗反应与1年总生存期。研究纳入三中心共220例患者，通过特征融合与机器学习方法，证明多组学模型优于单一组学模型，具有较好的预测性能与临床可解释性。

创新点：①多模态深度融合 ：首次整合CT影像、病理切片、剂量分布及临床数据，构建多组学预测模型，突破单一模态预测局限。②双路径病理特征提取 ：创新使用ResNet34与CHIEF双模型提取病理特征，提升模型对不同病理信息的捕捉与融合能力。③可解释性优化：引入Shapley值分析特征贡献，增强模型临床可解释性，为治疗决策提供透明依据。

临床价值：①精准预后分层 ：模型可预测患者治疗反应与生存期，辅助识别高危人群，实现个体化治疗策略调整。②优化临床决策 ：提供多维度生物标志物，帮助医生提前评估疗效，指导放化疗方案优化，提升治疗效率。③推动多中心应用：基于多中心数据验证，模型具备较强泛化能力，为跨机构肺癌精准治疗提供可推广工具。

图 2：研究流程图

数据获取与预处理：

影像数据：CT图像勾画4个感兴趣区（ROI：GTV、PTV、LUNG-GTV、LUNG-PTV），匹配剂量图像ROI。

病理数据：H&E染色全切片图像（WSI）转换为二值图，切割为224×224像素切片（保留组织覆盖率>50%），经Vahadane颜色归一化后，用ResNet152模型分类肿瘤细胞、间质、淋巴细胞等组织类型。

剂量数据：提取3D剂量分布及剂量体积直方图（DVH）参数（如V5-V50）。

临床数据：收集性别、年龄、病理类型、TNM分期、治疗方式等信息。

特征提取：

影像组学/剂量组学：用pyradiomics（v3.1.0）提取一阶特征、纹理特征（共720个特征/模态）。

病理组学：ResNet34和CHIEF模型分别提取切片级特征，聚合为患者级特征。

临床特征：整合人口学、病理、剂量参数等。

特征选择与模型构建：

特征标准化：Z-score归一化（基于训练集参数）。

特征筛选：治疗反应预测用Lasso回归、随机森林、XGBoost；OS预测用Lasso-Cox回归、随机生存森林；临床特征用单/多变量Cox回归（p<0.1）。

模型构建：治疗反应预测用支持向量机（SVM）；OS预测用Cox比例风险模型。

模型评估：

治疗反应：AUC、箱线图。

OS：AUC、C-index、Kaplan-Meier（KM）曲线、校准曲线。

特征贡献：Shapley值分析、热图可视化。

研究背景及目的

研究背景

本研究聚焦于局部晚期不可切除的非小细胞肺癌（NSCLC）患者，其标准治疗------放化疗（CRT）------的疗效存在显著的个体差异，主要源于肿瘤的高度异质性 以及患者自身复杂的生理状况。传统的预后评估主要依赖临床TNM分期，但其提供的宏观分层缺乏足够的精准度以指导个体化的治疗决策 。近年来，放射组学 从医学影像（如CT）中提取高通量定量特征，为无创量化肿瘤表型提供了可能；剂量组学 进一步将放疗计划中的三维剂量分布纳入分析，评估放疗的物理效应；而病理组学 则通过分析全切片图像（WSI），在细胞和组织层面揭示肿瘤微环境的异质性。尽管单组学模型已有应用，但其预测性能（如外部验证的AUC值常低于0.75）往往有限，难以全面捕捉疾病的多维度复杂性 。因此，整合宏观影像、微观病理、物理剂量及临床信息的多组学融合策略，被认为是打破信息壁垒、构建更稳健、可解释性更强的预测模型的关键路径，旨在实现真正的精准分层与个性化治疗。

研究目的

本研究的核心目的是开发并验证一套基于多组学整合的预后预测模型 ，以提升对接受放化疗的NSCLC患者的疗效与生存预判精度。具体而言，研究旨在利用治疗前易于获取的CT影像、病理全切片图像（WSI）、三维剂量分布数据及临床信息 ，分别构建能够预测治疗客观反应（OR）和1年总生存期（OS） 的模型。研究采用了来自三个医疗中心共220例患者的回顾性数据 ，通过严格的图像预处理、特征提取（涵盖放射组学、病理组学、剂量组学）与筛选（应用LASSO、随机森林等多种算法），并比较单组学模型与多组学模型 的性能差异。其最终目标是通过高精度的患者分层，辅助临床医生在治疗前识别更可能受益或存在高风险的个体，从而优化治疗方案（如调整放疗剂量或强化辅助治疗），提高肿瘤控制概率并延长患者生存。研究特别强调模型的临床实用性、鲁棒性（通过多中心外部验证）及可解释性（使用SHAP值分析特征贡献），以推动预测模型向临床决策支持工具转化。

数据和方法

研究数据

数据来源：3个独立医疗中心的回顾性NSCLC患者数据（2021-2023年）

中心1（山东第一医科大学附属医院）：158例

中心2（山东第一医科大学附属第二医院）：21例

中心3（中南大学湘雅医院，外部验证集）：41例

样本分组：训练集+内部验证集（中心1+中心2，179例）、外部验证集（中心3，41例）

数据类型：

影像数据：预处理CT图像（含GTV、PTV等ROI勾画）

病理数据：H&E染色全切片图像（WSI）

剂量数据：3D剂量分布及剂量体积直方图（DVH）参数

临床数据：性别、年龄、病理类型（鳞癌/腺癌）、TNM分期（AJCC 8th）、治疗方式（同步/序贯放化疗）等

结局数据：治疗反应（按RECIST1.1标准分为有效CR/PR、无效SD/PD）、总生存期（OS，随访至事件发生或截止日期）

图 1：患者纳入与排除流程图

技术方法

（1）数据预处理

CT图像：2名资深物理学家勾画GTV、PTV、LUNG-GTV、LUNG-PTV4个感兴趣区（ROI），匹配剂量图像ROI

WSI：按染色深度设定阈值转换为二值图，切割为224×224像素切片（保留组织覆盖率>50%的切片），经Vahadane颜色归一化，ResNet152模型分类肿瘤细胞、间质、淋巴细胞等组织类型

（2）特征提取

影像组学/剂量组学：采用pyradiomics提取一阶特征（如均值、标准差）、纹理特征（如灰度共生矩阵），共720个特征/模态

病理组学：ResNet34提取512个切片级特征并聚合为患者级特征；CHIEF模型提取768个切片级特征并聚合为512个患者级特征

临床特征：纳入人口学、病理、分期、剂量参数（如V5-V50）等

（3）特征选择与模型构建

特征标准化：Z-score归一化（基于训练集参数应用于验证集）

特征筛选：治疗反应预测采用Lasso回归、随机森林、XGBoost；OS预测采用Lasso-Cox回归、随机生存森林；临床特征采用单/多变量Cox回归（p<0.1）

模型构建：治疗反应预测用支持向量机（SVM）；OS预测用Cox比例风险模型

（4）模型评估与统计分析

评估指标：治疗反应（AUC、箱线图）；OS（AUC、C指数、KM曲线、校准曲线）

特征贡献：Shapley值分析

统计工具：R studio、3D-Slicer，检验方法包括Kruskal-Wallis检验、t检验、log-rank检验、DeLong检验，p<0.05为差异有统计学意义

实验结果

（1）治疗反应预测

多组学模型性能显著优于单组学模型：3个全模态模型在外部验证集AUC分别为0.87、0.91、0.82，均>0.8

最优模型：含PathomicsCHIEF特征的全模态模型，外部验证AUC=0.91（95% CI：0.80-1.00），准确性0.84、敏感性0.77、特异性0.85

箱线图显示多组学模型可有效区分有效组与无效组

（2）总生存期（OS）预测

全模态模型（整合ResNet34+CHIEF病理组学特征）表现最优：

训练集：AUC=0.83（95% CI：0.75-0.91）、C-index=0.80（95% CI：0.72-0.88）

内部验证集：AUC=0.79（95% CI：0.63-0.96）、C-index=0.79（95% CI：0.62-0.94）

外部验证集：AUC=0.79（95% CI：0.64-0.93）、C-index=0.78（95% CI：0.63-0.92）

KM曲线显示高/低危组生存差异显著（log-rank p<0.05），校准曲线提示预测值与实际生存高度一致

关键特征：病理组学特征DF166（与肿瘤组织比例正相关、淋巴细胞比例负相关，r=0.45/p=0.021；r=-0.39/p=0.045）、影像组学纹理特征（OGG_GTV）、性别

（3）统计验证

DeLong检验和配对t检验证实，多组学模型的AUC和C-index显著高于单组学模型（p<0.05），无信息冗余导致的性能下降。

图 3：治疗反应预测模型性能可视化

图 4：特征热图

（A）治疗反应预测的特征热图（B）总生存期（OS）预测的特征热图

研究结论

本研究通过整合CT影像组学、病理组学、剂量组学及临床信息 ，构建并验证了用于预测非小细胞肺癌（NSCLC）患者放化疗后治疗反应与1年总生存期（OS）的多组学模型 。核心结论 表明，相较于单一组学模型，多组学模型展现出显著更优的预测性能与稳健性 。在治疗反应预测中，全模态模型在外部验证集的AUC最高达0.91 ；在OS预测中，最佳全模态模型的AUC与C-index分别达0.79 与0.78 ，且能有效区分高风险与低风险患者（KM曲线p值均<0.05）。关键优势 在于其通过融合宏观影像、微观病理与剂量分布等多维度信息 ，更全面地量化肿瘤异质性，从而提升预测准确性并增强模型的可解释性（如Shapley分析揭示剂量与影像特征是关键贡献因子）。研究意义 在于为临床提供了一种无创、多维度的预后预测工具 ，有望辅助医生在治疗前识别可能受益或高风险的患者，从而制定个体化治疗策略 ，提高肿瘤控制概率并延长生存。局限性包括样本量有限（220例）、特征融合方法有待优化以及临床指标涵盖不足，未来需扩大样本并纳入更多生物学与生活方式指标以进一步提升模型的普适性与预测效能。

参考文献：Pan Y, Shi L, Liu Y, Chen JC, Qiu J. Multi-omics models for predicting prognosis in non-small cell lung cancer patients following chemotherapy and radiotherapy: A multi-center study. Radiother Oncol. 2025 Mar;204:110715. doi: 10.1016/j.radonc.2025.110715.