癌症亚型分类新型多组学整合框架

摘要

癌症仍是全球发病与死亡的主要诱因之一，对全球公共卫生构成重大威胁。尽管癌症早期诊断与治疗方案已取得长足进步，但肿瘤在分子与临床层面的高度异质性，导致患者预后差异极大。因此，精准识别癌症亚型，是解析肿瘤异质性、优化预后评估、实现精准医疗的核心环节。近年来，多组学技术为从基因组、表观基因组、转录组、蛋白质组等多层分子维度刻画癌症特征提供了全新可能，但高效整合高维、异质的多组学数据仍是关键难题。此外，现有多数基于图卷积网络的整合方法存在过平滑问题，且深度特征表示利用率有限，难以捕捉癌症生物学中复杂的多尺度关联。为解决上述问题，本文提出用于癌症亚型分类的新型多组学整合框架MoJKNet。该框架引入跳跃知识网络（JK-Net），自适应聚合多传播深度的节点表示，缓解过平滑问题并强化单组学模态内的特征提取；再通过多模态自编码器结合相似性网络融合（SNF），捕捉跨组学互补信息；最终依托「图注意力网络（GAT）」分配自适应特征权重，实现癌症亚型精准预测。本文基于癌症基因组图谱（TCGA）的7种癌症数据集开展实验，结果显示：MoJKNet在精确率、召回率、F1值上全面优于MOGCAN、MOGONET、MoGCN等主流方法，在结直肠癌（COADREAD）数据集上性能提升近10%；消融实验进一步验证了跳跃知识机制对提升表示学习效果的核心作用。综上，MoJKNet为多组学数据整合与癌症亚型分类提供了高效、可泛化的解决方案，在下游生物学解析与临床转化中具备广阔应用潜力。

https://www.kaggle.com/datasets/jiangjielou/the-cbioportal-for-cancer-genomics

panxiaoguang@lnpu.edu.cn

#自编码器 #癌症亚型分类 #图注意力网络 #跳跃知识网络 #多组学整合

材料与方法

数据集制备与预处理

表1 7种癌症的多组学数据规模与标签分布

多组学数据整合的分类模型

图1 MoJKNet模型结构总览

跳跃知识网络；MoJKNet嵌入表示

跳跃知识网络的特征学习

表2 JKNet输入1与输入2的超参数调优

加粗值为选定的最优超参数；「其他」指TCGA-COADREAD以外的数据集；COADREAD特指TCGA-结直肠癌数据集。

图注意力网络的癌症亚型分类

表3 图注意力网络（GAT）超参数调优

加粗值为选定的最优超参数。

实现细节与超参数设置

表4 可复现性超参数调优

实验结果

性能对比

表5 性能对比（宏平均精确率，%）

加粗值为各癌症数据集下所有对比方法的最优性能；结果为5折交叉验证的均值±标准差。

表6 性能对比（宏平均召回率，%）

加粗值为各癌症数据集下所有对比方法的最优性能；结果为5折交叉验证的均值±标准差。

表7 性能对比（宏平均F1值，%）

加粗值为各癌症数据集下所有对比方法的最优性能；结果为5折交叉验证的均值±标准差。

各组学数据在预测中的贡献

表8 各组学数据类型的贡献

本表报告MoJKNet在7种癌症数据集、不同组学组合下的宏平均精确率、宏平均召回率与宏平均F1值；每行展示剔除首列组学类型后的模型性能，用于评估单一组学的独立贡献；最后1行为整合所有组学数据的结果。红色：剔除单一组学后所有组合的最优性能；蓝色：剔除单一组学后所有组合的最差性能；加粗：整合所有组学模态的最优整体性能。

消融实验

表9 7种TCGA多组学癌症数据集上，输入1分支的JK-Net与GCN宏平均精确率对比

加粗值为完整模型或其变体在各评估设置下的最优性能；结果为5折交叉验证的均值 ± 标准差。

表10 7种TCGA多组学癌症数据集上，输入2分支的JK-Net与GCN宏平均精确率对比

加粗值为完整模型或其变体在各评估设置下的最优性能；结果为5折交叉验证的均值±标准差。

可视化

图2 基于原始特征与MoJKNet嵌入的7种癌症数据集主成分分析（PCA）可视化

每个数据集由1对子图呈现：左图为原始特征分布，右图为经MoJKNet表示学习后的嵌入分布；具体对应：

(a,b)子宫内膜癌(UCEC)、(c,d)胃腺癌(STAD)、(e,f)肉瘤(SARC)、(g,h)结直肠癌(COADREAD)、(i,j)头颈部鳞状细胞癌(HNSC)、(k,l)低级别胶质瘤(LGG)、(m,n)浸润性乳腺癌(BRCA)；横轴、纵轴分别为第1、第2主成分（PC1、PC2）；样本按癌症亚型着色。

MoJKNet嵌入的生存分析评估