如何将多模态CT深度学习特征与肿瘤微环境中的免疫相关生物学过程建立关联，并进一步解释其与非小细胞肺癌新辅助免疫化疗后的pCR机制联系

导语

各位同学，大家好。现在做影像组学，如果还只停留在"提取特征---建个模型---算个AUC"，那就有点像算命算得挺准，但为啥准，自己也说不明白 。别人一问：你这特征到底代表啥？背后有啥道理？瞬间就成了黑箱本箱 。而真正能打高分、站得住脚的研究，都在干一件事------给影像组学找"生物学娘家" ，让宏观图像和微观病理、细胞、基因、通路对上话。今天咱们就通过一篇经典文献------非小细胞肺癌新辅助免疫化疗后pCR预测的多模态CT深度学习研究 ，看看作者如何把平扫CT和增强CT的深层特征 ，与肿瘤微环境中的异质性、血管生成、淋巴细胞浸润 等关键生物学过程挂靠起来。用轻松又实在的方式，聊聊影像组学怎么优雅、合理、不硬凑地挂靠生物学机制 ，从"只会算分的工具人"，升级成**"能讲清疾病故事的研究者"**。

**★题目：**Non-invasive multimodal CT deep learning biomarker to predict pathological complete response of non-small cell lung cancer following neoadjuvant immunochemotherapy: a multicenter study

（无创多模态CT深度学习生物标志物预测非小细胞肺癌新辅助免疫化疗后的病理完全缓解）

★期刊：《Journal for ImmunoTherapy of Cancer》（中科院1区，IF=10.6）

**★研究疾病：**非小细胞肺癌（NSCLC）

**★生物学机制：**肿瘤微环境（TME）的免疫状态

**★发表时间：**2024年9月

研究背景-从 "临床问题" 落到 "生物学问题"

非小细胞肺癌（NSCLC）是全球发病率和死亡率最高的恶性肿瘤之一，近年来新辅助免疫化疗 的广泛应用显著提高了患者的病理完全缓解（pCR）率，而pCR与患者长期生存密切相关。然而，目前pCR的金标准仍依赖于术后病理检查 ，属于有创、延迟且无法用于治疗前决策的手段。临床实践中，常规CT影像评估与病理反应之间存在显著差异 ，例如在NADIM试验中，高达73%的影像学部分缓解患者实际达到了pCR，这种"影像-病理不一致"主要源于免疫治疗诱导的淋巴细胞浸润、假性进展等生物学现象。因此，亟需开发一种非侵入性、精准的影像生物标志物 ，能够在治疗前预测pCR。从生物学机制角度看，pCR的实现依赖于肿瘤微环境（TME）的免疫状态 ，包括肿瘤异质性、血管生成、细胞密度、淋巴细胞浸润等过程。这些生物学特征虽然无法通过肉眼直接观察，但可能隐藏在CT图像的纹理、形态和增强模式中 。传统影像组学方法多基于手工特征或自然图像预训练模型，难以充分捕捉这些深层生物学信号。为此，研究者需要借助**大规模医学图像预训练模型（foundation model）**提取深层特征，并结合多模态CT信息（平扫+增强），从而将影像表型与潜在的肿瘤免疫生物学机制关联起来。本研究的背景正是立足于这一"临床需求---生物学机制---技术路径"的逻辑链条，试图填补影像学与病理学之间的鸿沟。

研究目的（明确写出"三层目的"）

本研究的总目标是构建一种基于多模态CT深度学习的非侵入性影像生物标志物，用于预测NSCLC患者新辅助免疫化疗后的pCR 。具体而言，研究目的分为三个层次：第一，临床层 ：开发一个能够在实际临床场景中应用的预测模型，帮助医生在治疗前识别出最有可能达到pCR的患者，从而避免不必要的手术或过度治疗，推动精准治疗和"观察等待"策略 在肺癌中的应用。第二，技术层 ：比较三种不同输入模态的深度学习模型性能------仅使用平扫CT特征（LUNAI-uCT模型）、仅使用增强CT特征（LUNAI-eCT模型）以及融合两者特征的模型（LUNAI-fCT模型）。通过对比，验证多模态信息融合是否能够显著提升预测性能 ，并探索各模态特征对pCR预测的独立贡献。第三，机制层 ：探究深度学习模型所提取的影像特征是否能够反映与免疫化疗反应相关的生物学过程 ，例如肿瘤内部异质性、坏死、血管通透性以及肿瘤边缘的免疫浸润状态。通过可解释性分析工具（SHAP和Grad-CAM），定位模型决策时所关注的肿瘤区域，并将其与已知的肿瘤微环境生物学知识进行关联，从而为影像特征的生物学意义提供初步证据。这一机制层面的探索是本研究区别于传统影像组学预测模型的核心创新点，旨在推动影像生物标志物从"黑箱预测"走向"机制可解释"。

研究思路（最核心：怎么挂靠机制）

本研究的核心思路是通过深度学习提取多模态CT影像中的深层特征，融合后构建预测模型，并利用可解释性分析将模型决策与潜在的肿瘤生物学机制挂靠 。具体流程如下：首先，研究者采用一个预先训练好的肺部CT基础模型（FM-LCT） ，该模型基于大规模、多样化的肺癌CT数据集，使用掩码自编码器（MAE）对比学习算法 训练而成，能够提取出比传统方法更具泛化能力的影像特征。从每个患者的平扫CT和增强CT 中，分别提取肿瘤边界框内的深度特征向量（长度768），形成FS-uCT和FS-eCT特征集；然后通过平均池化 融合为FS-fCT特征集，并利用主成分分析（PCA）降维至16个关键特征以避免过拟合。接着，采用随机森林 算法分别构建LUNAI-uCT、LUNAI-eCT和LUNAI-fCT三个预测模型，输出一个名为Immu_TR（免疫化疗治疗反应） 的连续评分，用于量化pCR可能性。最关键的是机制挂靠设计：一方面，使用SHAP分析 计算每个特征对预测的贡献度，识别出最重要的影像特征；另一方面，采用Grad-CAM 生成显著热力图，可视化模型在平扫和增强CT上关注的肿瘤区域（如瘤内、瘤周）。通过观察这些区域与已知生物学过程（如肿瘤中心坏死、边缘免疫浸润、血管丰富区）的空间对应关系，反推深度学习特征可能捕捉到的生物学信号 。最后，通过t-SNE和UMAP降维可视化验证特征空间中的pCR与非pCR分离程度，并使用Kolmogorov-Smirnov检验比较Immu_TR得分在两组间的差异。整个思路实现了从影像到预测、从预测到定位、从定位到机制的层层递进。

数据和方法（机制部分怎么设计）

数据： 本研究共纳入来自四个中心的225例 接受新辅助免疫化疗后手术的NSCLC患者。其中，Center A的113例 作为训练与内部验证集 （按8:2随机划分为训练集和验证集），用于模型开发与参数调优；Center B（73例）、Center C（20例）和Center D（19例）共112例 作为独立外部测试集，用于评估模型的泛化性能。

图 1：患者筛选流程图

方法：CT图像预处理 （体素重采样至1mm等向、Z-score归一化）→ ROI 分割（肿瘤边界框）→ 深度特征提取 （使用预训练的FM-LCT基础模型 分别从平扫CT和增强CT提取768维特征向量）→ 特征融合 （平均池化得到融合特征）→ PCA 降维（保留16个关键特征）→ 随机森林建模 （构建LUNAI-uCT、LUNAI-eCT、LUNAI-fCT三个模型，输出Immu_TR评分 ）→ 模型评估 （AUC、准确率、灵敏度、特异度等）→ 可解释性分析 （SHAP 量化特征重要性，Grad-CAM生成热力图定位关注区域）。

图 2（整体研究设计示意图） ：该图分为三部分：（a）基础模型预训练 ：采用掩码自编码器（MAE）在大规模肺癌CT数据集上训练FM-LCT模型，使其能够提取具有生物学意义的深层特征；（b）特征提取与建模 ：分别从平扫CT和增强CT提取特征，融合后构建LUNAI-uCT、LUNAI-eCT和LUNAI-fCT三个随机森林模型；（c）定量分析与评估：包括患者特征分析、模型性能评估以及影像特征分析。

研究结果（"从表型到机制"）

①表型层面（预测性能） ：在独立外部测试集中，单模态模型LUNAI-uCT和LUNAI-eCT的AUC分别为0.762 和0.797 ，而多模态融合模型LUNAI-fCT的AUC提升至0.866 （95% CI 0.821--0.883），准确率达0.800。融合模型在灵敏度（0.917）、特异度（0.739）及NPV（0.944）上均优于单模态，表明多模态CT信息互补可显著提升pCR预测能力。

图 3（预测模型的性能比较） ：图3a展示了三个模型在测试集中的ROC曲线，LUNAI-fCT的AUC达到0.866 ，显著优于单模态模型；图3b为混淆矩阵，显示融合模型在平衡敏感性和特异性方面表现最佳；图3c为亚组分析（按年龄、吸烟状态、临床分期），表明融合模型在各亚组中均保持稳定优势。从机制角度看，融合模型性能的提升 源于平扫CT捕捉肿瘤结构异质性（如坏死、细胞密度）与增强CT反映血管功能（如灌注、免疫浸润）的生物学信息互补，从而更全面刻画肿瘤微环境状态。

②特征层面（机制线索） ：融合模型输出的Immu_TR评分 在pCR与非pCR组间的Kolmogorov-Smirnov统计量高达0.825 （p<0.001），显著高于平扫（0.704）和增强（0.752）单模态。t-SNE和UMAP可视化显示，融合特征在二维空间中更清晰地将两组患者分离 ，提示该特征集捕捉到了与免疫化疗反应密切相关的潜在生物学信号。

图 4（Immu_TR评分的统计分析与可视化） ：图4a--c展示Kolmogorov-Smirnov检验，融合模型的Immu_TR评分在pCR与非pCR组间差异最大（KS=0.825，p<0.001），说明该评分能有效区分两类患者。图4d--f为t-SNE可视化，图4g--i为UMAP可视化，均显示融合特征在低维空间中将pCR与非pCR患者更清晰分离 。这表明深度学习特征所捕捉的影像模式与肿瘤免疫清除能力 密切相关，即高Immu_TR评分可能反映了有利的肿瘤微环境（如高免疫浸润、低异质性），为影像特征作为生物学替代指标提供了证据。

③可解释性层面（机制定位） ：SHAP分析表明特征2和14对融合模型预测贡献最大；Grad-CAM热力图 显示模型重点关注肿瘤内部及边缘区域 。肿瘤内部可能反映细胞密度与坏死程度，肿瘤边缘则提示免疫浸润和血管生成活性。这种空间定位为影像特征与肿瘤微环境生物学机制的关联提供了直观证据。

图 5（SHAP特征重要性分析） ：该图分别展示了LUNAI-uCT（图5a）、LUNAI-eCT（图5b）和LUNAI-fCT（图5c）模型中各特征的SHAP值排序。在融合模型中，特征2和特征14 具有最高的绝对SHAP值，是预测pCR的最强贡献因子。SHAP分析不仅量化了每个特征的影响方向（正向或负向），还揭示了不同模态特征之间的互补关系。从生物学角度看，这些关键特征可能对应着肿瘤内部坏死区域的比例、边缘浸润带的纹理复杂度 或增强扫描中造影剂异质性分布，从而间接反映了免疫化疗的敏感性。

图 6（Grad-CAM热力图示例） ：该图展示了两个临床特征相似但pCR结果不同的患者。患者A（pCR）的Immu_TR评分为0.791，患者B（非pCR）为0.213。Grad-CAM热力图叠加在平扫CT和增强CT上 ，显示模型重点关注肿瘤内部及肿瘤边缘区域 。在pCR患者中，热力集中在瘤内异质区和边缘带，提示这些区域可能存在大量淋巴细胞浸润和有效的免疫清除 ；而非pCR患者的热力更分散或集中在坏死中心，暗示免疫逃逸或缺乏有效浸润。这一可视化直观地将模型决策与肿瘤微环境的生物学过程挂靠起来。

讨论（把机制故事讲圆）

本研究的核心发现是：融合平扫与增强CT的深度学习特征（LUNAI-fCT模型）能够以非侵入方式准确预测NSCLC患者新辅助免疫化疗后的pCR ，且其性能显著优于任一单模态模型。从生物学机制角度，我们认为这种优势源于多模态CT信息互补性地刻画了肿瘤微环境（TME）的不同维度 ：平扫CT主要反映肿瘤的固有物理属性，如细胞密度、坏死区域和基质比例，这些特征与肿瘤的内在异质性 相关；而增强CT则通过对比剂的分布模式间接评估肿瘤血管生成状态、血管通透性及灌注异质性 ，这些功能指标与免疫细胞的招募和浸润效率密切相关。当两种信息融合后，模型得以同时捕捉"肿瘤内部结构"和"肿瘤-宿主界面功能"两方面的信号，从而更完整地表征TME的免疫状态。本研究的Grad-CAM热力图进一步支持了这一机制解释 ：模型重点关注的两个区域------肿瘤内部和肿瘤边缘------恰好是免疫化疗发挥作用的"主战场"。肿瘤内部的坏死和缺氧区域可能影响药物渗透和免疫细胞活性，而肿瘤边缘则是淋巴细胞浸润、免疫检查点分子表达和血管生成最活跃的部位 。因此，模型通过这两个区域的影像特征间接评估了免疫清除的可能性。此外，本研究的Immu_TR评分 作为连续变量，在pCR与非pCR组间展现出显著差异（KS=0.825），提示该评分可能作为TME免疫反应性的影像替代指标 。尽管如此，本研究仍存在局限性：回顾性设计可能引入选择偏倚；各中心样本量不均且较小；缺乏与活检病理标志物（如PD-L1表达、TMB）的直接关联验证。未来需开展前瞻性研究，并整合病理组学、基因组学等多模态数据，以进一步验证影像特征与生物学机制之间的因果链。总体而言，本研究成功地将深度学习影像特征与肿瘤免疫生物学机制进行了合理挂靠，为非侵入性预测免疫化疗疗效提供了可解释的工具。

这篇文献的可借鉴思路

这篇论文为影像组学研究如何从"黑箱预测"走向"机制可解释" 提供了极具价值的范例，以下思路可直接迁移到其他癌种或治疗场景中：第一，多模态影像融合策略 。多数研究仅使用单一模态（如增强CT或MRI），而本研究证明平扫与增强模态的融合 显著提升预测性能，其背后的生物学逻辑是：平扫反映结构异质性，增强反映血管功能，两者互补。类似地，在乳腺癌新辅助化疗中，可融合DCE-MRI与DWI；在直肠癌新辅助放化疗中，可融合T2WI与DCE-MRI，分别捕捉细胞密度和微血管通透性。第二，基础模型作为特征提取器 。传统方法常在小样本上从头训练CNN，易过拟合；本研究采用预训练的FM-LCT模型 （基于MAE对比学习，在大规模肺癌CT上训练），仅用少量下游数据提取特征，极大提升了泛化能力。这一思路适用于任何影像模态------只要存在大规模预训练模型（如CT-Foundation、MRI-Foundation），即可迁移学习。第三，可解释性驱动的机制挂靠 。本研究通过Grad-CAM定位关键区域（肿瘤内部+边缘） ，再结合生物学知识（坏死、免疫浸润、血管生成）进行机制推测，形成"影像特征→空间定位→生物过程"的逻辑链条。研究者可以在自己的任务中采用类似策略：先可视化模型关注的区域，然后查阅文献或开展实验验证该区域是否富集某种已知生物学过程（如缺氧、增殖、免疫浸润）。第四，连续评分（Immu_TR）的设计 。将二分类预测转化为连续评分，不仅可用于风险分层，还可与其他连续变量（如突变丰度、免疫评分）进行相关性分析，增强机制解释力。第五，多中心外部验证的布局 。本研究将三个中心的数据作为测试集，不同中心使用不同扫描参数 ，但模型仍保持较高性能，说明深度学习特征对技术差异具有鲁棒性。未来研究在设计之初就应预留至少一个独立外部测试集，以证明模型的泛化能力和机制发现的普适性。第六，特征降维与可解释性的平衡 。本研究用PCA将768维特征降至16维，既避免过拟合，又使SHAP分析变得可行（16个特征可逐一解释）。降维后的特征可被反向映射到原始影像空间，为后续生物学验证提供明确假设。综上所述，**"多模态融合 + 基础模型迁移 + Grad-CAM空间定位 + 连续评分 + 多中心验证"**是一套可复制、可推广的范式，能够帮助影像组学研究在提升预测精度的同时，打开"黑箱"，逐步揭示影像背后的生物学语言。

结语

总而言之，做影像组学不只是拼AUC、堆模型，更要学会给特征找意义、给模型讲道理 。这篇文献告诉我们：多模态融合 （平扫+增强）之所以优于单模态，是因为不同CT序列分别捕捉了肿瘤结构异质性与血管功能状态 ；Grad-CAM热力图 之所以有价值，是因为它把模型的注意力定位到了肿瘤内部（坏死、细胞密度）和边缘（免疫浸润） 这些生物学"主战场"；Immu_TR评分 之所以能成为生物标志物，是因为它间接量化了肿瘤微环境的免疫清除能力 。只有把宏观影像和微观机制真正打通，我们的研究才不是 " 玄学算命" ，而是有根有据、有血有肉、能讲好疾病故事的真科研 。希望大家以后都能少走弯路，轻松写出有机制、有深度、能发高分的好文章！

参考文献：Ye G, Wu G, Qi Y, Li K, Wang M, Zhang C, Li F, Wee L, Dekker A, Han C, Liu Z, Liao Y, Shi Z. Non-invasive multimodal CT deep learning biomarker to predict pathological complete response of non-small cell lung cancer following neoadjuvant immunochemotherapy: a multicenter study. J Immunother Cancer. 2024 Sep 3;12(9):e009348. doi: 10.1136/jitc-2024-009348.