癌症亚型分类新型多组学整合框架

摘要

癌症仍是全球发病与死亡的主要诱因之一,对全球公共卫生构成重大威胁。尽管癌症早期诊断与治疗方案已取得长足进步,但肿瘤在分子与临床层面的高度异质性,导致患者预后差异极大。因此,精准识别癌症亚型,是解析肿瘤异质性、优化预后评估、实现精准医疗的核心环节。近年来,多组学技术为从基因组、表观基因组、转录组、蛋白质组等多层分子维度刻画癌症特征提供了全新可能,但高效整合高维、异质的多组学数据仍是关键难题。此外,现有多数基于图卷积网络的整合方法存在过平滑问题,且深度特征表示利用率有限,难以捕捉癌症生物学中复杂的多尺度关联。为解决上述问题,本文提出用于癌症亚型分类的新型多组学整合框架MoJKNet。该框架引入跳跃知识网络(JK-Net),自适应聚合多传播深度的节点表示,缓解过平滑问题并强化单组学模态内的特征提取;再通过多模态自编码器结合相似性网络融合(SNF),捕捉跨组学互补信息;最终依托「图注意力网络(GAT)」分配自适应特征权重,实现癌症亚型精准预测。本文基于癌症基因组图谱(TCGA)的7种癌症数据集开展实验,结果显示:MoJKNet在精确率、召回率、F1值上全面优于MOGCAN、MOGONET、MoGCN等主流方法,在结直肠癌(COADREAD)数据集上性能提升近10%;消融实验进一步验证了跳跃知识机制对提升表示学习效果的核心作用。综上,MoJKNet为多组学数据整合与癌症亚型分类提供了高效、可泛化的解决方案,在下游生物学解析与临床转化中具备广阔应用潜力。

https://www.kaggle.com/datasets/jiangjielou/the-cbioportal-for-cancer-genomics

panxiaoguang@lnpu.edu.cn

#自编码器 #癌症亚型分类 #图注意力网络 #跳跃知识网络 #多组学整合

材料与方法

数据集制备与预处理

表1 7种癌症的多组学数据规模与标签分布

多组学数据整合的分类模型

图1 MoJKNet模型结构总览

跳跃知识网络;MoJKNet嵌入表示

跳跃知识网络的特征学习

表2 JKNet输入1与输入2的超参数调优

加粗值为选定的最优超参数;「其他」指TCGA-COADREAD以外的数据集;COADREAD特指TCGA-结直肠癌数据集。

图注意力网络的癌症亚型分类

表3 图注意力网络(GAT)超参数调优

加粗值为选定的最优超参数。

实现细节与超参数设置

表4 可复现性超参数调优

实验结果

性能对比

表5 性能对比(宏平均精确率,%)

加粗值为各癌症数据集下所有对比方法的最优性能;结果为5折交叉验证的均值±标准差。

表6 性能对比(宏平均召回率,%)

加粗值为各癌症数据集下所有对比方法的最优性能;结果为5折交叉验证的均值±标准差。

表7 性能对比(宏平均F1值,%)

加粗值为各癌症数据集下所有对比方法的最优性能;结果为5折交叉验证的均值±标准差。

各组学数据在预测中的贡献

表8 各组学数据类型的贡献

本表报告MoJKNet在7种癌症数据集、不同组学组合下的宏平均精确率、宏平均召回率与宏平均F1值;每行展示剔除首列组学类型后的模型性能,用于评估单一组学的独立贡献;最后1行为整合所有组学数据的结果。红色:剔除单一组学后所有组合的最优性能;蓝色:剔除单一组学后所有组合的最差性能;加粗:整合所有组学模态的最优整体性能。

消融实验

表9 7种TCGA多组学癌症数据集上,输入1分支的JK-Net与GCN宏平均精确率对比

加粗值为完整模型或其变体在各评估设置下的最优性能;结果为5折交叉验证的均值 ± 标准差。

表10 7种TCGA多组学癌症数据集上,输入2分支的JK-Net与GCN宏平均精确率对比

加粗值为完整模型或其变体在各评估设置下的最优性能;结果为5折交叉验证的均值±标准差。

可视化

图2 基于原始特征与MoJKNet嵌入的7种癌症数据集主成分分析(PCA)可视化

每个数据集由1对子图呈现:左图为原始特征分布,右图为经MoJKNet表示学习后的嵌入分布;具体对应:

(a,b)子宫内膜癌(UCEC)、(c,d)胃腺癌(STAD)、(e,f)肉瘤(SARC)、(g,h)结直肠癌(COADREAD)、(i,j)头颈部鳞状细胞癌(HNSC)、(k,l)低级别胶质瘤(LGG)、(m,n)浸润性乳腺癌(BRCA);横轴、纵轴分别为第1、第2主成分(PC1、PC2);样本按癌症亚型着色。

MoJKNet嵌入的生存分析评估

图3 基于MoJKNet嵌入与MO-GCAN嵌入的7种癌症数据集生存分析

(a,c,e,g,i,k,m)为MoJKNet嵌入结果,(b,d,f,h,j,l,n)为MO-GCAN嵌入结果;卡普兰-迈耶(KM)曲线展示随访期内低风险组与高风险组患者占比;风险分组依据模型预测的风险评分中位数划分。

图4 TCGA癌症数据集上多组学整合模型的性能对比

(a)宏平均精确率、(b)宏平均召回率、(c)宏平均F1值;结果为4种模型(MO-GCAN、MOGONET、MoGCN、本文MoJKNet)经5折交叉验证的均值±标准差。

详细总结

思维导图

TCGA七种癌症数据集样本与类别分布

MoJKNet整体性能关键指标对比

参考

Front Genet. 2026 Apr 7:17:1803456. doi: 10.3389/fgene.2026.1803456.

MoJKNet: a jumping knowledge graph framework for multi-omics cancer subtype prediction

260407MoJKNet.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

相关推荐
2501_947575805 小时前
计算机毕业设计之jsp开山车行二手车交易系统
java·开发语言·hadoop·python·信息可视化·django·课程设计
一次旅行5 小时前
AI 前沿日报 | 2026年7月3日 星期五
人工智能·github·ai编程
A15362555 小时前
装配具身机器人品牌推荐 工业装配场景选型指南与艾利特方案
大数据·人工智能·机器人
LLWZAI5 小时前
想要稳定变现,先跨过朱雀 AI 这道门槛
大数据·人工智能
安吉升科技5 小时前
商业场景智能客流统计摄像系统的关键技术机理解析
人工智能
古城小栈6 小时前
为啥说:训练用BF16,推理用FP16
人工智能·算法·机器学习
KaMeidebaby6 小时前
卡梅德生物技术快报|蛋白 N 端测序在重组贻贝融合蛋白表征中的应用,解决原核表达序列偏移工艺难题
前端·人工智能·物联网·算法·百度
TMT星球6 小时前
从像素复刻到行动控制:具身世界模型的底层逻辑探索
人工智能·深度学习·机器学习
ccimao63166 小时前
散户做财报整理、研报阅读、复盘记录,各类AI工具适配环节梳理
大数据·人工智能
派叔6 小时前
老字号营销服务商技术解构:三类方案的架构逻辑与选型评估
大数据·人工智能·搜索引擎·架构·产品运营·流量运营