文献标题:Machine learning-based identification of kbhb-affected tumor cell subsets as prognostic and therapeutic targets in breast cancer
发表期刊:Journal of Translational Medicine
发表时间:2025年12月
影响因子:7.5 / Q2
摘要
背景
乳腺癌异质性使预后和治疗变得复杂。代谢重编程,特别是由酮体驱动的赖氨酸β-羟基丁酰化(Kbhb),会影响肿瘤微环境。然而,Kbhb对特定乳腺癌亚群的影响尚不明确。本研究旨在识别受Kbhb影响的肿瘤细胞亚群并评估其预后潜力。
方法
我们整合了来自TCGA、GEO、单细胞RNA测序和空间转录组学的多组学数据。在确定受Kbhb相关基因影响的乳腺癌亚群后,通过分子实验验证关键基因的功能作用。使用101种算法组合开发了基于机器学习的预后模型。
结果
我们发现了一类易受Kbhb相关代谢变化影响的肿瘤细胞亚群,其与患者预后显著相关。SCGB2A2过表达可减少侵袭、转移和干细胞特性。从受Kbhb影响的细胞标志物中得出的预后评分能准确预测患者的预后和免疫治疗反应。
结论
Kbhb影响乳腺癌异质性,SCGB2A2阳性肿瘤细胞可作为有价值的预后指标。靶向这些细胞可能改善治疗效果。我们的模型还支持针对代谢脆弱亚群的机器学习指导型药物发现。

方法
一.数据收集
transcriptome data
TCGA (n = 1082) GSE9893 (n = 155) GSE42568 (n = 104) GSE3143 (n = 158) GSE25066 (n = 508) GSE1456 (n = 159) GSE96058 (n = 3273) the METABRIC breast cancer dataset (n = 1980) ICGC BRCA-KR cohort (n = 50)
scRNA-seq data
GSE176078 (n = 26)
Spatial transcriptomics
zenodo.4739739 (n = 6)
基因集
Three lysine beta-hydroxybutyrate (Kbhb) genes (EP300, HDAC1, HDAC2) Metabolic genes with significant correlations to these Kbhb genes were identified, metabolism-related genes were collected from KEGG gene sets in MsigDB.
软件及软件包
| 名称 | 功能 | 应用 | 链接 |
|---|---|---|---|
| limma | 基于线性模型的差异表达分析,支持经验贝叶斯方法稳定小样本估计 | 微阵列和RNA-seq数据的差异基因筛选、线性模型拟合 | Bioconductor |
| ComBat | 使用经验贝叶斯方法识别并移除批次效应,保留生物学差异 | 去除多批次、多站点数据的技术差异(如测序批次、扫描仪差异) | sva包文档 |
| Seurat | 单细胞RNA测序数据全流程分析套件,含质控、降维、聚类、注释及可视化 | 单细胞数据的基本分析流程、细胞类型鉴定及整合 | SatijaLab |
| SCTransform | 使用正则化负二项回归对UMI计数进行方差稳定化归一化,替代NormalizeData等流程 |
单细胞数据标准化、高可变基因筛选及去除异质性扰动 | CRAN |
| Harmony | 通过软聚类迭代校正,将不同数据集的细胞嵌入共享空间以整合数据 | 去除单细胞数据的批次效应、整合多个样本或病人的数据 | GitHub |
| CytoTRACE | 基于基因计数或AI模型预测细胞分化潜能与干性状态(CytoTRACE 2) | 推断发育轨迹、识别干细胞亚群或评估肿瘤细胞去分化程度 | Stanford Medicine |
| CARD | 利用单细胞参考数据反卷积空间转录组数据,实现细胞类型定位 | 空间转录组数据的细胞类型注释及单细胞水平分布绘图 | CARD官网 |
| ssGSEA | 计算单样本中特定基因集内基因的富集分数,评估通路活性 | 单一样本层面的通路活性打分、功能富集分析 | MSigDB |
| clusterProfiler | 支持ORA、GSEA等多种富集方法,提供统一的可视化接口 | GO/KEGG功能富集分析、多组数据联合比较及结果绘图 | Bioconductor |
统计
| 名称 | 功能 | 应用场景 |
|---|---|---|
| Univariate Cox analysis | 单因素Cox比例风险模型,评估单个变量对生存时间的影响 | 筛选与生存结局相关的潜在预后因素 |
| Univariate Cox regression | 同上(Univariate Cox analysis的另一种表述) | 同上 |
| Cox regression | 多因素Cox比例风险模型,同时评估多个变量对生存时间的独立影响 | 控制混杂因素,构建多变量预后模型 |
| Kaplan-Meier analysis | 估计生存函数,通过生存曲线展示不同组别的生存概率随时间变化 | 比较两组或多组间的生存分布差异(常与Log-rank检验联用) |
| Pearson correlation | 衡量两个连续变量之间的线性相关程度(r值,-1~1) | 分析基因表达与代谢物浓度、临床指标等连续变量的相关性 |
| Chi-square tests | 检验分类变量之间的关联性(观察频数与期望频数的差异) | 比较不同组别中性别、分期等分类变量的分布差异 |
| Wilcoxon rank-sum | 非参数检验,比较两组独立样本的中位数差异(Mann-Whitney U检验) | 数据不满足正态分布时,比较两组间连续变量(如基因表达) |
| T-tests | 参数检验,比较两组独立样本的均值差异 | 数据近似正态分布时,比较两组间的连续变量(如处理组 vs 对照组) |
| One-way ANOVA | 参数检验,比较三组及以上独立样本的均值差异 | 比较多组(如不同处理浓度、多个时间点)间的连续变量差异 |
| Dunnett's test | ANOVA事后检验,将多个实验组分别与单一对照组进行比较 | 多个处理组与同一对照组的比较(如药物A/B/C分别与安慰剂比较) |
| Student's t-test | 同T-tests(特指经典的两样本t检验,方差异质时可校正) | 同T-tests,常用于小样本情形下的两组均值比较 |
机器学习
| 名称 | 功能 | 应用场景 |
|---|---|---|
| Elastic Net (Enet) | 结合L1(Lasso)和L2(Ridge)惩罚的线性回归,进行变量选择与系数收缩 | 高维数据(如基因表达数据)中筛选相关特征并建立预测模型 |
| Lasso | L1惩罚回归,可将不相关变量系数压缩至零,实现稀疏变量选择 | 高维生存数据中筛选关键预后基因,降低过拟合风险 |
| Ridge | L2惩罚回归,通过收缩系数处理多重共线性,保留所有变量 | 变量间高度相关时提高模型稳定性(如光谱数据、基因共表达网络) |
| Stepwise Cox | 基于AIC/BIC等准则逐步添加或移除变量,构建Cox回归模型 | 传统低维数据分析中筛选预后变量(易过拟合,现较少用于高维数据) |
| CoxBoost | 采用Boosting方式迭代拟合Cox模型,通过梯度下降优化偏似然函数 | 高维生存数据(如基因组学)中构建稀疏预测模型 |
| plsRcox | 结合偏最小二乘与Cox回归,提取与生存结局相关的潜在成分 | 高维共线性生存数据的降维与预测(如代谢组学、蛋白质组学) |
| SuperPC | 先通过主成分分析提取与生存相关的基因集成分,再纳入Cox模型 | 基于基因集或通路水平的生存预测(减少单基因噪声影响) |
| GBM | 迭代构建决策树,通过梯度下降优化损失函数(支持生存结局的Cox损失) | 非线性关系的生存预测(如临床指标与基因交互作用建模) |
| Survival-SVM | 扩展SVM用于处理删失数据,最大化生存时间排序的间隔 | 高维生存数据中的风险排序与分类(如患者高危/低危分层) |
| LOOCV | 每次留一个样本作为验证集,其余训练,重复至每个样本被验证一次 | 小样本数据(如罕见病研究)中的模型评估 |
| C-index | 衡量生存模型预测风险排序的准确性(模型区分度) | 评估Cox回归、随机生存森林等模型的预测性能 |
| RSF | 扩展随机森林至生存数据,通过累积风险函数处理删失 | 高维生存数据的非线性建模、变量重要性评估 |
| Cross-validation | 将数据分为K折,轮流训练验证(常用5或10折),评估泛化能力 | 避免模型过拟合,选择最优超参数(如Lasso的lambda值) |
| Harrell's C-index | 同C-index(Harrell's C是常用实现),范围为0.5(随机)至1(完美) | 生存模型评价的标准指标,适用于各种生存模型 |
| survivalROC | 计算随时间变化的ROC曲线下面积,评估特定时间点的预测准确性 | 评估模型在特定时间点(如3年、5年生存率)的预测性能 |
实验验证
| 名称 | 功能 | 应用场景 |
|---|---|---|
| Cell culture | 在体外模拟体内环境,维持细胞生长、增殖及分化 | 药物筛选、基因功能研究、疾病模型构建等基础实验 |
| Gene knockdown and overexpression | 敲低(RNAi/CRISPRi)或过表达(质粒/慢病毒)目标基因表达水平 | 研究特定基因对细胞表型(如增殖、凋亡、迁移)的功能影响 |
| Transwell assay | 通过多孔膜检测细胞迁移或侵袭能力(包被基质胶用于侵袭实验) | 评估肿瘤转移能力、细胞趋化性及血脑屏障通透性 |
| Seahorse metabolic analysis | 实时动态检测细胞耗氧率(OCR)和产酸率(ECAR),评估线粒体与糖酵解功能 | 代谢疾病研究、药物代谢毒性评估、肿瘤代谢重编程分析 |
| Western blot | 利用抗体特异性检测目标蛋白的表达水平及修饰状态(如磷酸化、糖基化) | 验证基因调控效果、信号通路激活状态、蛋白相互作用 |
| Flow cytometry | 快速定量分析单细胞悬液中细胞的大小、颗粒度、荧光标记信号(蛋白/周期/凋亡等) | 免疫分型、细胞周期检测、凋亡率评估、胞内因子染色 |
| Tumorsphere formation assay | 在无血清悬浮培养条件下评估肿瘤干细胞自我更新和增殖能力(球体形成效率) | 肿瘤干细胞功能研究、抗肿瘤药物靶点筛选 |
研究成果
1.单细胞分析识别乳腺癌中的肿瘤亚型
A. 乳腺癌组织中主要肿瘤细胞类型的scRNAseq数据UMAP图。
B. 展示每种肿瘤细胞亚型标记基因表达的气泡图。
C. 显示每种肿瘤细胞亚型在肿瘤分级中分布的箱线图。
D. 肿瘤亚型50个标志性通路ssGSEA评分的热图。

2.肿瘤亚型的伪时间轨迹与分化状态
A-B. 对八种肿瘤细胞亚群进行单细胞伪时间轨迹分析,揭示了不同亚型中明显的分化阶段。
C. 热图显示与伪时间相关的标记基因,聚类为三组(C1-3)。
D. GO富集分析结果,突出早期(C3簇)和后期分化阶段(C1和C2簇)的不同生物学过程。
E-F. CytoTRACE分析显示肿瘤亚型间的分化潜能。

3.利用单细胞定义的肿瘤亚型对批量RNA测序数据集进行反卷积,通过BisqueRNA分析亚型组成,通过GSVA计算代谢和β-羟基丁酰化基因评分。
A-B. 主成分分析图展示了合并的批量RNA测序和微阵列数据集的有效批次校正效果。
C-E. 箱线图展示了BisqueRNA推导的细胞类型组成评分在RNA测序和微阵列数据集的每种肿瘤亚型中的分布。
D-F. 箱线图展示了GSVA推导的代谢和β-羟基丁酰化相关基因集评分在RNA测序和微阵列数据集的肿瘤亚型中的分布。

4.肿瘤亚型的预后意义及空间定位
A. 通过BisqueRNA分析肿瘤亚型组成与通过GSVA分析代谢通路评分在RNA测序和微阵列队列中与总生存期(OS)的相关性分析。
B. Kaplan-Meier曲线显示,在RNAseq_BisqueRNA和MICRO_BisqueRNA队列中,SCGB2A2+和LDHB+肿瘤细胞评分较低的患者预后较差。
C. 肿瘤亚型间代谢通路富集评分的气泡图。
D-E. 两名三阴性乳腺癌患者的时空转录组学,展示肿瘤微环境中基质、免疫和肿瘤亚型的分布情况。

5.SCGB2A2和LDHB在MDA-MB-231细胞中的功能表征
A-B. Western blot分析验证稳定细胞系中SCGB2A2和LDHB敲低和过表达的效率。
C-D. Western blot分析验证稳定细胞系中SCGB2A2和LDHB敲低和过表达的效率。
E-F. Transwell侵袭实验显示SCGB2A2和LDHB调控组中侵袭细胞的数量。
G-H. EdU阳性细胞定量反映增殖能力显示SCGB2A2和LDHB调控组的结果。
I-J. 流式细胞术分析SCGB2A2和LDHB调控组中凋亡细胞的情况。
K-L. SCGB2A2和LDHB调控表达的MDA-MB-231细胞形成的肿瘤球的代表性图像及定量结果。
M-N. SCGB2A2和LDHB调控组中肿瘤球大小的定量。
O-P. 流式细胞术分析SCGB2A2和LDHB调控组中类干细胞群体的情况。

6.SCGB2A2通过PPARα信号通路重编程细胞代谢
A-B. 使用Seahorse分析仪对SCGB2A2调控的MDA-MB-231细胞进行代谢谱分析。
C-D. 通过PPARα激活挽救SCGB2A2-KD细胞的代谢表型。
E. 关键PPARα靶基因(CPT1A、ACOX1、ANGPTL4、CYP1B1)的Western blot分析。

7.基于SCGB2A2+肿瘤细胞的预后模型开发
A. 热图比较101种机器学习模型在预后准确性方面的C指数性能。
B-E. 多个队列的Kaplan-Meier生存曲线,展示了Coxboost+GBM模型生成的风险评分的预后效果。
F. 箱线图显示TCGA队列中免疫治疗非应答者的RS评分更高。

8.预后模型与临床指标及已发表模型的比较分析
A. 柱状图展示预后模型与其他临床指标在四个队列中的C指数比较。
B. 与已发表模型相比的C指数图

9.与基于预后模型得出的RS相关的基因组变异和肿瘤突变负荷
A. 高RS组与低RS组之间扩增(AMP)和缺失(DEL)事件的比较。
B. 水瀑布图显示高RS组与低RS组之间的拷贝数变异差异。
C. 箱线图比较高RS组与低RS组之间CNV的差异。
D-E. 箱线图显示RS组之间的TMB差异以及RS与TMB的相关性。
F. 基于综合RS和TMB评分的Kaplan-Meier生存分析

10.与基于预后模型得出的风险评分相关的免疫浸润和免疫相关基因改变
A. 通过七种算法计算的高、低风险评分组间免疫细胞浸润差异汇总热图。
B. 显示与风险评分相关的免疫相关基因表达、甲基化及拷贝数变异改变的热图。
C. 与ESTIMATE衍生评分的相关性分析

11.高低RS组的通路富集差异。
A. 基于Msigdb C1--C6类别的高、低RS组功能特征ssGSEA评分热图。
B. t-SNE图展示两组间所选GOBP和KEGG通路的关键差异。
C. 气泡图显示RS与TIP数据集中50个标志性通路及免疫相关通路的相关性。

12.与RS相关的免疫反应分析及其对免疫治疗的潜在意义
A. 泡泡图展示RS模型相关基因与免疫相关基因之间的相关性。
B-C. 小提琴图说明不同RS组中免疫检查点PDCD1和CD274的差异表达情况。
D-I. 在六个免疫治疗队列中,通过小提琴图比较应答者与非应答者的RS差异。

Reference
Yuan, Q., Sha, Y., Ye, R. et al. Machine learning-based identification of kbhb-affected tumor cell subsets as prognostic and therapeutic targets in breast cancer. J Transl Med 24, 71 (2026).

