如何通过影像组学模型无创预测三阴性乳腺癌中的三级淋巴结构（TLSs），并借助病理组学揭示其与治疗响应、预后及细胞侵袭性表型的机制联系

导语

各位同学，大家好。现在做影像组学，如果还只停留在"提取特征---建个模型---算个AUC "，那就有点像算命算得挺准，但为啥准，自己也说不明白。别人一问：你这特征到底代表啥？背后有啥道理？瞬间就成了黑箱本箱 。而真正能打高分、站得住脚的研究，都在干一件事------给影像组学找"生物学娘家" ，让宏观图像和微观病理、细胞、基因、通路对上话。今天咱们就通过这篇发表在npj Precision Oncology上的文献，看看人家是怎么从DCE-MRI影像出发，无创预测三阴性乳腺癌中的三级淋巴结构（TLSs） ，再借助病理组学和SHAP解释，把"影像特征→TLSs→治疗响应→细胞侵袭性表型 "这条机制链讲得明明白白。这篇研究的聪明之处在于：不满足于模型能预测，还通过病理组学验证了为什么低评分患者预后差------因为他们的肿瘤细胞长出了"伪足"，更具侵袭性 。咱们今天就一起拆解这个"影像---预测---病理---机制 "的闭环思路，学会让影像组学从"只会算分的工具人 "，升级成"能讲清疾病故事的研究者"。

**★题目：**Machine learning model for predicting tertiary lymphoid structures and treatment response in triple-negative breast cancer

（用于预测三阴性乳腺癌中三级淋巴结构及治疗反应的机器学习模型）

★期刊：《npj Precision Oncology》（中科院1区，IF=8）

**★研究疾病：**三阴性乳腺癌（TNBC）

**★生物学机制：**三级淋巴结构（TLSs）

**★发表时间：**2025年7月

研究背景-从 "临床问题" 落到 "生物学问题"

三阴性乳腺癌（TNBC）是乳腺癌中侵袭性最强、异质性最高、复发和死亡率最高的亚型。新辅助治疗（NAT）已成为局部晚期TNBC的重要治疗手段，近年来联合铂类及免疫检查点抑制剂（如KEYNOTE-522方案）可使病理完全缓解（pCR）率提升至约50%。然而，仍有相当比例的患者对NAT不敏感，若未能及时识别这些耐药人群，延迟的手术窗口可能导致疾病进展、局部复发及远处转移风险增加。因此，寻找能够无创、早期、精准预测NAT疗效 的生物标志物，是TNBC临床管理中的迫切需求。近年来研究发现，三级淋巴结构（Tertiary Lymphoid Structures, TLSs） ------在肿瘤微环境中形成的异位淋巴样结构，与良好的抗肿瘤免疫应答及更好的预后显著相关。本课题组前期研究也证实，TLSs的存在可预测TNBC对NAT的响应。然而，目前TLSs的识别主要依赖有创的病理活检 ，并结合多重免疫荧光、激光捕获显微切割、空间转录组等技术，这些方法资源消耗大、操作复杂、难以临床推广 。因此，如何通过无创、可重复、高通量 的手段预测TLSs的存在，成为连接影像学与肿瘤免疫生物学的关键科学问题。影像组学（Radiomics）作为一种从医学影像中高通量提取定量特征的方法，可无创评估肿瘤异质性。但单纯影像组学缺乏微观细胞层面的生物学解释，而病理组学（Pathomics）能从数字病理切片中提供细胞核、细胞质、纹理等微观信息。如何将影像组学与病理组学结合，建立"宏观影像---微观病理---免疫机制"的桥梁，是本研究试图解决的核心生物学问题。

研究目的（明确写出"三层目的"）

本研究旨在构建并验证一个基于影像组学的机器学习模型，用于无创预测TNBC患者中TLSs的存在，并进一步评估该模型对NAT治疗反应及预后的预测能力，最终通过病理组学揭示模型背后的肿瘤生物学异质性。具体而言，本研究包含三个层次的目标：第一层目标是模型构建 ------利用多中心DCE-MRI数据，提取肿瘤内及肿瘤周围区域的影像组学特征，采用五种机器学习算法（KNN、XGBoost、LightGBM、SVM、MLP）构建预测TLSs的模型，并筛选出最优的XGBoost模型作为rTLS（radiomics-based TLS）预测模型。第二层目标是临床验证 ------在多个独立的外部验证队列（包括中国TNBC队列、DUKE队列、I-SPY2队列）中，验证rTLS模型对NAT治疗响应（pCR）的预测效能，并通过生存分析（Kaplan-Meier、Cox回归）评估rTLS评分与无病生存期（DFS）的关系，明确其作为独立预后因子的价值。第三层目标是机制解释 ------通过SHAP分析解释模型中关键影像特征的贡献度，并提取H&E染色病理切片中的病理组学特征，分析其与影像组学特征的相关性，从细胞形态学角度解释为何低rTLS评分的患者预后更差，从而将影像组学预测结果挂靠到肿瘤的生物学异质性上，为模型的临床应用提供机制支撑。

研究思路（最核心：怎么挂靠机制）

本研究的核心思路是从影像表型出发，通过机器学习建模预测免疫相关结构（TLSs），再反向通过病理组学揭示影像特征背后的生物学机制 ，形成"影像---预测---病理---机制 "的闭环逻辑。首先，研究从多中心DCE-MRI图像中勾画肿瘤区域（L1）及周边区域（L2、L3、L4），提取共计4788个影像组学特征，经Mann-Whitney U检验、Spearman相关分析及LASSO回归筛选出29个非零系数关键特征。然后，采用XGBoost算法构建rTLS预测模型，在TCGA-BRCA训练集中AUC达0.922，并在YNCH等验证集中验证其对TLSs和NAT疗效的预测能力。为了将模型预测结果与生物学机制挂靠 ，研究进一步使用SHAP（Shapley Additive Explanations） 方法对模型进行可解释性分析，明确哪些影像特征对TLSs预测贡献最大（如wavelet_LHH_firstorder_Median L3）。接着，研究从H&E染色切片中提取611个病理组学特征（包括细胞核形态、细胞质形状、纹理等），通过相关性分析发现关键影像特征与病理组学特征显著相关 。尤为重要的是，低rTLS评分组患者中，Cytoplasm_AreaShape_Zernike_9_5、Nucleus_AreaShape_Solidity等与细胞侵袭性、伪足形成相关的病理特征显著高表达 ，这从微观形态学上解释了为何低评分患者缺乏TLSs、对NAT不敏感、预后更差。这种"影像组学预测 + SHAP解释 + 病理组学验证"的三步策略 ，成功将影像学表型与肿瘤免疫微环境的生物学异质性联系起来，使模型不仅是一个预测工具，更是一个具有生物学内涵的影像生物标志物。

数据和方法（机制部分怎么设计）

数据： 本研究共纳入697例TNBC患者 ，分为三个部分：训练队列 为TCGA-BRCA队列（n=137，用于构建rTLS预测模型 ），TLS验证队列 为YNCH队列（n=63，用于验证模型对TLSs的预测性能 ），NAT响应验证队列 包括中国TNBC队列（n=119，来自四家中心）、DUKE队列（n=81）和I-SPY2队列（n=360），共560例，用于验证模型对NAT治疗反应的预测能力 。其中YNCH和DUKE队列还包含随访数据（n=144），用于生存分析与预后评估。

图 5：患者筛选流程图

方法：① DCE-MRI图像分割 ：由两名放射科医师手动勾画肿瘤区域（L1），并自动扩增为瘤周L2（0-2mm）、L3（2-4mm）、L4（4-5mm）。② 影像组学特征提取与筛选 ：从L1-L4区域提取4788个影像特征，经Mann-Whitney U检验、Spearman相关分析及LASSO回归 筛选出29个关键特征。③ 模型构建与选择 ：采用KNN、XGBoost、LightGBM、SVM、MLP五种算法构建预测模型，以XGBoost为最优模型 ，命名为rTLS预测模型。④ 模型验证 ：在TLS验证队列及NAT响应验证队列中通过AUC、校准曲线、决策曲线 评估预测性能，并通过Logistic回归 评估rTLS评分的独立预测价值。⑤ 预后分析 ：采用Kaplan-Meier曲线和Cox回归 分析rTLS评分与无病生存期（DFS）的关系。⑥ 模型可解释性 ：使用SHAP分析 评估各影像特征对预测的贡献。⑦ 病理组学提取与分析 ：从H&E切片中利用CellProfiler 提取611个病理组学特征，经筛选后与影像组学特征进行相关性分析，比较高低评分组间的病理特征差异。

图 6：研究整体工作流程图-从影像到病理到机制

研究结果（"从表型到机制"）

①表型层面 ：rTLS模型在训练集AUC为0.922 ，TLS验证集AUC为0.852 ；在NAT响应验证集中，中国队列、DUKE队列、I-SPY2队列AUC分别为0.724、0.919、0.883，表明模型能准确预测TLSs存在及NAT疗效。

图 1（模型预测性能与亚组验证）： 该图展示了rTLS模型的预测性能及亚组分析。A图为斯皮尔曼相关网络图 ，显示29个入选影像特征之间无显著共线性，保证模型稳定性。B、C图为ROC曲线 ：训练集AUC=0.922，TLS验证集AUC=0.852，NAT响应验证集AUC分别为0.724、0.919、0.883，证明影像组学可无创预测TLSs这一免疫结构 。D--I图为亚组ROC （年龄、绝经状态、cT、cN），模型在各亚组中均有效，提示影像特征捕捉到的异质性与宿主免疫状态相关 。J--N图为决策曲线，显示模型具有临床净收益，为后续机制探索提供表型基础。

②预后层面 ：高rTLS评分组无病生存期（DFS）显著优于低评分组（p<0.05）；多因素Cox回归显示，rTLS评分是独立预后因子（HR=0.150，p=0.006），分层分析在≤65岁、cN0-1等亚组中仍显著。

图 2（预后分析与rTLS评分的生存价值）： 该图将影像组学评分与患者生存结局直接关联。A--I图为Kaplan-Meier曲线 ，显示高rTLS评分组无病生存期（DFS）显著优于低评分组（p<0.05），且在≤65岁、cN0-1等亚组中仍显著。J图为Cox回归森林图 ，调整临床因素后rTLS评分仍是独立预后因子（HR=0.150）。K图为风险因子交互图 ，展示低评分组中更多患者出现DFS事件，且关键影像特征表达模式与不良预后一致。这些结果说明影像组学评分反映的是肿瘤免疫微环境的生物学差异，而非随机噪声。

③模型解释层面 ：SHAP分析显示，wavelet_LHH_firstorder_Median L3是最重要特征；瀑布图与力图直观展示了各特征对个体患者预测的贡献，如wavelet_LLH_firstorder_TotalEnergy_L2呈负向影响。

④机制层面 ：低rTLS评分组中，Cytoplasm_AreaShape_Zernike_9_5等侵袭性相关病理特征显著高表达（p<0.05），提示细胞伪足形成和侵袭性表型，从微观形态学解释了为何低评分患者缺乏TLSs、预后更差。

图 3（典型病例：影像-病理-预后对应关系）： 该图通过两例典型患者直观展示影像组学评分的生物学内涵。高评分患者（0.641） ：DCE-MRI显示肿瘤边界较清晰，H&E切片中可见典型TLS结构 ，接受NAT后达到病理缓解，预后良好。低评分患者（0.160） ：DCE-MRI呈现侵袭性形态，H&E切片未见TLSs ，治疗后未达pCR，预后差。图中还列出了关键影像特征的具体数值，说明影像组学特征差异对应于病理上TLSs的有无，从而将宏观影像表型与微观免疫结构直接挂钩，是"影像-机制"对应关系的直观证据。

图 4（SHAP解释与病理组学机制验证）： 该图是影像组学挂靠生物学机制的核心图 。A为SHAP蜂群图 ，显示wavelet_LHH_firstorder_Median L3等影像特征对预测贡献最大。B、C为瀑布图和力图 ，展示个体患者各特征的贡献方向。D为影像-病理特征热图 ，揭示关键影像特征与细胞形态病理特征（如核面积、纹理）显著相关。E--G为箱线图 ：低评分组中Cytoplasm_AreaShape_Zernike_9_5 等侵袭性相关病理特征显著高表达（p<0.05），提示伪足形成和细胞边缘不规则。这从细胞形态学层面解释了为什么低评分患者缺乏TLSs、预后更差，完成了"影像特征→预测评分→病理验证→生物学机制"的闭环。

讨论（把机制故事讲圆）

本研究的核心发现是：基于影像组学的rTLS预测模型能够无创、精准地预测TNBC患者中TLSs的存在及新辅助治疗反应，且rTLS评分是独立的预后因子 。这一结果与既往研究一致------TLSs作为肿瘤微环境中免疫应答的结构性标志，已在直肠癌、食管鳞癌、非小细胞肺癌等多种实体瘤中被证实与良好预后及治疗响应相关。本研究进一步将这一结论拓展至TNBC的NAT场景，并首次通过多中心、跨种族（中国及欧美队列） 验证了模型的泛化能力。值得注意的是，中国TNBC队列的AUC（0.724）低于DUKE（0.919）和I-SPY2（0.883），作者解释这可能源于种族间肿瘤微环境的差异 ------遗传背景、生活环境、医疗水平及药物可及性等因素可能影响TLSs的密度与功能。在预后层面，高rTLS评分组患者的无病生存期显著延长，且该评分在多数亚组（如≤65岁、cN0-1）中仍保持预测效能，进一步证实其作为独立预后生物标志物 的潜力。本研究的最大亮点在于将影像组学与病理组学关联 ，从微观形态学上解释了模型背后的生物学机制：低评分组患者呈现Cytoplasm_AreaShape_Zernike_9_5 等高表达的侵袭性病理特征（提示伪足形成、细胞边缘不规则），这从细胞层面解释了为何该类患者缺乏TLSs、对NAT耐药且预后更差。然而，本研究存在局限性：其一，病理样本来自活检，可能无法完全反映肿瘤整体的空间异质性；其二，随访时间相对较短；其三，影像组学与病理组学的关联仅为相关性分析 ，尚需单细胞测序、空间转录组等技术进一步验证其因果机制。尽管如此，本研究为无创影像学指标挂靠肿瘤免疫微环境生物学机制提供了可行范式。

这篇文献的可借鉴思路

本研究为影像组学领域的机制导向研究提供了多条可复用的借鉴思路。第一，三层递进的研究目标设计 ------从"模型构建"到"疗效验证"再到"机制解释"，使研究不仅有技术价值，更有生物学深度，避免落入"只堆AUC"的陷阱。第二，"影像组学+ SHAP + 病理组学"的三步机制挂靠策略 ：先用SHAP识别关键影像特征，再提取病理切片中的细胞形态特征，通过相关性分析建立"宏观影像-微观病理"的桥梁，最后用病理特征的生物学含义（如伪足形成、核固缩）解释影像组学评分的预后意义。这种方法可推广至其他免疫相关结构（如TILs、三级淋巴结构亚型）或其他癌种。第三，将模型输出（rTLS评分）赋予明确的生物学标签 ------不是黑箱预测，而是明确指出"高评分=有TLSs=免疫活跃=预后好"，使临床医生易于理解和信任。第四，多队列、跨种族的验证设计 ，不仅验证预测性能，还验证机制一致性（如低评分组在不同队列中均表现出侵袭性病理特征），增强了结论的普适性。第五，使用开源工具（CellProfiler、PyRadiomics、SHAP）实现全流程可复现 ，降低了其他研究者的技术门槛。第六，讨论中坦诚种族差异与活检局限性 ，并提出了未来方向（空间转录组、多区域采样），体现了严谨的科学态度。总之，本文提供了一个从影像表型到生物学机制、从单中心到全球验证的完整范例，值得影像组学、医学人工智能及肿瘤免疫交叉领域的研究者借鉴。

结语

总而言之，做影像组学不只是拼AUC、堆模型 ，更要学会给特征找意义、给模型讲道理 。这篇论文给我们打了个样：先用影像组学预测TLSs，再用SHAP揪出关键特征，最后用病理组学从细胞形态上验证------低评分组的伪足形成、核异形 等侵袭性表型，就是预后差的生物学根源。只有把宏观影像和微观机制真正打通 ，我们的研究才不是"玄学算命 "，而是有根有据、有血有肉、能讲好疾病故事的真科研 。希望各位同学以后在做影像组学时，多问一句"我找到的特征代表什么生物学现象" ，多借鉴这种"影像+病理+可解释性 "的三步策略，少走弯路，轻松写出有机制、有深度、能发高分的好文章！

参考文献：Lin Y, Yu Y, Wang Q, Huang K, Guo S, Zhang J, He Y, Yu X, Zhang J, Meng F, Tang S, Yuan J, Song C. Machine learning model for predicting tertiary lymphoid structures and treatment response in triple-negative breast cancer. NPJ Precis Oncol. 2025 Jul 1;9(1):216. doi: 10.1038/s41698-025-01012-6.