J Hepatol（IF=33.0）英国帝国理工学院：基于机器学习的影像组学模型在预测肝细胞癌免疫治疗结局中优于临床生物标志物

文献信息

本次分享的文献的是由英国帝国理工Rohini Sharma肝癌免疫治疗与放射组学团队联合联合法国巴黎公立医院集团、意大利佛罗伦萨大学等国际中心的多学科团队于2025年10月在肝脏病学领域顶级期刊《Journal of Hepatology》（中科院1区，IF=33.0）上发表的研究"Machine learning based radiomic models outperform clinical biomarkers in predicting outcomes after immunotherapy for hepatocellular carcinoma"即基于机器学习的影像组学模型在预测肝细胞癌免疫治疗结局中优于临床生物标志物，开发并验证一种基于深度学习和机器学习的放射组学模型，用于预测接受"阿特珠单抗+贝伐珠单抗"治疗的晚期肝细胞癌患者的生存期和治疗反应。研究证明，整合放射组学与临床特征的模型在预测12个月死亡率、总生存期和无进展生存期方面，显著优于传统的临床分期和肝功能评分系统。

研究背景及目标

研究背景

疾病负担：肝细胞癌（HCC）是全球第三大癌症相关死因，晚期患者预后极差，一线治疗依赖A/B免疫联合方案。

临床痛点：仅约1/3患者对A/B方案响应，且缺乏有效的预处理生物标志物（遗传/分子标志物因HCC多依赖影像诊断而难以获取），无法精准分层患者并指导治疗。

技术潜力：影像组学可从常规CT中提取人眼不可见的量化特征（如纹理、强度、小波变换），结合机器学习可构建预后预测模型；但既往研究多为单中心、样本量小，且未针对A/B方案进行外部验证，临床实用性有限。

研究目标

通过影像组学特征（Radiomics）与临床特征结合，建立并验证一个基于深度学习与机器学习的综合模型；

预测接受A/B治疗的晚期HCC患者的总生存期（OS） 、无进展生存期（PFS）及免疫反应率（ORR）；

与传统临床分期系统（BCLC、ALBI）比较模型预测性能。

数据和方法

研究数据

研究类型：国际双中心、回顾性研究

样本量：共152例

训练队列：英国帝国理工（ICL,n=62）

外部验证队列：法国AP-HP（n=90）

治疗方案：Atezolizumab 1200 mg+Bevacizumab 15 mg/kg，每3周一次

影像数据：治疗前6周内的腹部CT门静脉期图像

技术方法

影像预处理与分割

数据来源：纳入两个独立中心共152例肝细胞癌（HCC）患者，其中帝国理工学院（ICL）的62例患者数据作为训练集及内部验证集，巴黎公共援助医院（AP-HP）的90例患者数据作为外部验证集。

扫描标准：所有患者均在接受阿替利珠单抗联合贝伐珠单抗（A+B）治疗前6周内，完成增强CT门静脉期扫描，确保影像数据与治疗起始时间的关联性，减少疾病进展对后续分析的干扰。

图像格式标准化：将所有CT图像重采样至统一空间分辨率（0.8×0.8×1.5mm³），消除不同扫描仪及扫描参数差异导致的体素间隔不一致问题，为后续特征提取奠定统一数据基础。

自动分割与质量控制 ：采用**nnU-Net（3D U-Net自动化分割框架）**对全肝区域（含肿瘤区域）进行分割；分割模型通过预训练权重初始化，且仅基于门静脉期CT图像进行分割操作；若自动分割结果存在区域不完整或边缘不准确的情况，由专业人员进行少量人工微调（质量控制），最终输出包含肿瘤区域与全肝区域的分割掩膜（mask），用于后续放射组学特征提取。

放射组学特征提取与标准化

特征提取工具与总量：利用PyRadiomics库，在已获取的分割掩膜内提取定量放射组学特征，每例患者的CT图像共提取892个特征。

特征分类与具体内容：

一阶强度特征（18个）：包括均值、偏度、峰度、能量、熵等，反映图像灰度值的整体分布特征；

形状特征（14个）：涵盖体积、表面积、球形度、长宽比等，描述肿瘤及肝脏的几何形态属性；

纹理特征（68个）：包含灰度共生矩阵（GLCM）、灰度游程长度矩阵（GLRLM）、灰度大小区域矩阵（GLSZM）、邻域灰度差矩阵（NGTDM）、灰度依赖矩阵（GLDM）相关特征，刻画图像灰度值的空间分布规律；

小波特征（784个）：在8种滤波分解模式（如HHH、HHL、HLH等）下提取的高阶纹理特征，进一步挖掘图像的细微结构信息。

灰度量化与标准化处理：灰度强度量化采用固定宽度25HU分箱，保证灰度值划分的一致性；针对数据来自不同CT机和中心的批次效应，使用基于经验贝叶斯框架的ComBat算法进行标准化校正；通过Pearson相关性分析过滤冗余特征，若任意两个特征的相关系数＞0.9，仅保留其中一个；对所有连续特征按Z-score（均值为0，方差为1）进行标准化，确保不同量纲特征在建模时权重一致，最终保留66个去冗余放射组学特征进入后续建模阶段。

特征选择与模型训练

临床特征收集与预处理：

收集的临床特征包括：年龄、性别、巴塞罗那临床肝癌分期（BCLC）、肝功能分级（ALBIgrade）、是否合并宏血管侵犯（MVI）、肝外转移情况、血小板淋巴细胞比（PLR）、中性粒细胞淋巴细胞比（NLR）、甲胎蛋白（AFP）水平、Child-Pugh评分等；

缺失值处理：若变量缺失率＜25%，采用MICE（多变量链式方程插补）方法补齐；若缺失率＞25%，则直接剔除该变量；

变量格式统一：连续型临床变量按Z-score标准化，分类变量采用One-Hot编码，确保临床特征与放射组学特征格式适配。

特征选择方法（13种）：涵盖LASSO、弹性网络回归（ElasticNet）、递归特征消除（RFE）、主成分分析（PCA）降维、Boruta随机森林筛选、互信息、Pearson相关分析、Spearman秩相关分析、Kendall秩相关分析、方差分析F检验（ANOVAF-test）、方差阈值、前向特征选择、无特征筛选（全特征集）。

分类模型（7种）：包括逻辑回归（LR）、朴素贝叶斯（NB）、多层感知机神经网络（MLP）、随机森林（RF）、支持向量机（SVM）、极端梯度提升（XGBoost）、岭回归分类器（Ridge）；通过特征选择方法与分类模型的组合，共形成7×13=91种组合模型。

验证策略

内部验证（基于ICL训练集）

评估终点：

主要终点：12个月内死亡预测（二分类任务）；

次要终点：总生存期（OS）、无进展生存期（PFS）、客观缓解率（ORR）。

性能评估指标：采用受试者工作特征曲线下面积（AUC）、Harrell一致性指数（C-index）、敏感度、特异度、校准曲线、DeLong检验（用于比较不同模型AUC差异），全面评估模型在内部数据集中的预测性能。

外部验证（基于AP-HP独立数据集）

验证方式：采用完全独立的外部数据集，不进行模型重新训练，直接使用基于ICL数据集训练好的模型计算AP-HP患者的预测概率。

评估方法：通过绘制ROC曲线（评估12个月死亡预测性能）、Kaplan-Meier（KM）生存曲线（分析OS、PFS的风险分层效果）及log-rank检验（验证风险分层的统计学差异），验证模型的泛化能力。

实验结果图

Fig.1：放射组学特征的层次聚类热图

展示伦敦帝国理工学院（ICL）队列（n=62）中所有放射组学特征的相关性。X轴与Y轴均代表提取的放射组学特征，颜色深浅反映特征间的Pearson相关系数（红色表示正相关，蓝色表示负相关，颜色越深相关性越强），聚类采用欧氏距离作为度量标准。

Fig.2：机器学习与特征选择组合的AUC性能热图

评估ICL队列内部验证中，7种机器学习算法（行：逻辑回归、朴素贝叶斯、神经网络、随机森林、支持向量机、XGBoost、岭回归）与13种特征选择技术（列：LASSO、弹性网络、RFE、PCA、Boruta、Pearson/Spearman/Kendall相关、ANOVAF检验、方差阈值、前向选择、全特征集）的组合，对"12个月死亡率"的预测AUC值（颜色越深，AUC越高，性能越好）。

Fig.3：基于影像组学模型的总生存期（OS）Kaplan-Meier曲线

通过无监督K-means聚类将患者分为"高风险组"与"低风险组"，展示不同模型在ICL队列（左）和AP-HP队列（右）中对OS的分层效果，含中位OS、95%置信区间（CI）及log-rank检验p值。

Fig.4：基于影像组学模型的无进展生存期（PFS）Kaplan-Meier曲线

同Fig.3的分组方式，展示模型对PFS的分层效果，含中位PFS、95% CI及log-rank检验p值。

讨论

临床价值

该研究是首个利用放射组学预测A/B免疫治疗疗效的多中心研究；

模型能显著优于BCLC分期与ALBI分级；

可实现术前精准分层与个体化免疫治疗决策；

高风险组患者可考虑避免A/B免疫治疗的毒性，转向TKI或局部治疗。

技术亮点

采用nnU-Net自动分割，显著降低人工操作；

结合深度学习+多算法集成+特征筛选；

实现跨中心外部验证；

使用K-means非监督聚类辅助风险分层。

局限性

回顾性研究，样本量有限；

仅包含欧洲人群，需多中心国际验证；

模型仅针对A/B方案，泛化性待确认；

Radiomic特征的生物学机制需进一步通过分子层面解释。