论文总结
1、开发了基于通路的稀疏深度神经网络模型Cox-PASNet用于生存分析。
2、提供了利用HDLSS数据训练深度神经网络模型的解决方案
摘要
深入理解与患者细胞和分子层面生存时间相关的复杂生物过程,不仅对开发新治疗方法至关重要,也有助于准确预测生存。然而,高度非线性和高维、低样本量(HDLSS)数据在生存分析中带来了计算挑战。我们开发了一种新型基于通路的稀疏深度神经网络,称为Cox-PASNet,通过整合高维基因表达数据和临床数据进行生存分析。Cox-PASNet是一种可生物学解释的神经网络模型,其中网络中的节点对应特定的基因和通路,同时捕捉生物通路对患者生存的非线性和层级效应。我们还提供了利用HDLSS数据训练深度神经网络模型的解决方案。CoxPASNet通过比较不同尖端生存方法的性能进行评估,如Cox-nnet、SurvivalNet和Cox弹性网(Cox-EN)。Cox-PASNet显著优于基准测试方法,且对其卓越表现进行了统计评估。我们提供了一款用PyTorch(https://github.com/DataX-JieHao/CoxPASNet)实现的开源软件,能够实现对Cox-PASNet的自动训练、评估和解读。
引言
在细胞和分子层面剖析与临床结局(如患者生存时间)相关的复杂生物过程,不仅为开发新治疗方法提供深入的生物学见解,也有助于准确预测临床结局[1]。高通量技术的先进分子平台能够产生高维基因组数据(如基因表达数据),从而提供丰富的人类疾病(如癌症)分子谱的生物学描述[2]。高维生物数据被越来越多地用于阐明其潜在的生物机制,并支持临床决策。生存分析估算生存分布,并研究生物和临床特征对患者生存时间的影响,同时应对临床试验中的审查。生存分析中最广泛使用的方法是Cox比例风险模型(Cox-PH),这是一种半参数模型,用于计算协变量对事件风险的影响[3]、[4]。Cox-PH假设患者协变量的线性组合可能与风险函数(事件发生的瞬时发生率)相关。Cox-PH模型和分层Cox模型对15,830名乳腺癌诊断女性的临床数据进行了研究[5]。通过对436名慢性病患者进行Cox-PH模型,慢性疾病的影响已被发现影响乳腺癌患者的生存率[6]。然而,传统的Cox-PH模型存在局限性:(1)分析高维、低样本量(HDLSS)数据,或(2)高度非线性数据。使用HDLSS数据训练模型是生物信息学中的一个挑战,因为大多数生物数据的特征(p)远多于样本数(n),即p>>n。HDLSS数据常使模型训练不可行或引发过拟合问题[7]。因此,低维数据,如临床数据(如年龄、性别和身体质量指数(BMI))通常被考虑用于使用Cox-PH模型进行生存分析。然而,近年来越来越多的研究正在研究高维基因组数据,揭示导致不同存活率的分子机制。为了解决Cox模型上的HDLSS问题,研究中考虑了特征选择技术和正则化方法。Cox-PH模型引入了套索(L1范数)和弹性净惩罚[8]--[11],而特征选择方法则用于减少协变量数量[12]。在复杂的人类疾病中,基因组数据与患者存活率的关系通常高度非线性,而Cox-PH假设是线性关系。核技巧是将非线性效应转换为线性效果的标准解决方案,适用于线性学习算法。提出了核Cox回归以捕捉基因表达数据与被审查存活数据之间的非线性效应[13]。在核Cox回归模型中,考虑了在重现核希尔伯特空间(RKHS)中的正则化Cox偏似然。生存SVM模型采用核和稀疏正则化,用于高维和非线性数据[14]。然而,由于需要事先指定核函数,因此很难确定数据的最优核函数。近年来,深度学习方法受到关注,这得益于高度非线性系统建模的能力和架构设计的灵活性。在生存分析中,开发了多种深度学习方法,并结合了Cox比例危害输出层。深沉Surv在深度全连接前馈神经网络中引入了Cox比例风险函数,用于生存分析和个性化治疗建议[15],并与Cox-PH和随机生存森林在竞争中表现出竞争力。然而,DeepSurv仅考虑低维临床数据,仅在模拟数据和临床数据中检查了少量协变量(p<20)。Cox-nnet 基于人工神经网络构建,输出层设有 Cox 比例危害节点 [16]。引入了RNA-Seq的高通量转录组数据,其表现优于正则化Cox-PH回归、随机生存森林和CoxBoost。Cox-nnet报告称,隐藏层顶端节点上的基因表达高层表示与存活率相关,每个隐藏层节点可能隐含反映生物过程。SurvivalNet通过基于Cox-nnet的贝叶斯优化,优化深度生存模型,以实现高通量多组学数据[17]。SurvivalNet 自动找到最优网络(例如层数和节点数),当数据维度较高时,SurvivalNet 的性能略优于 Cox 弹性网(Cox-EN)和随机生存森林。风险反向传播分析使SurvivalNet能够通过生成每个特征的风险评分来解释。此外,高层次的生物学解释(例如分子通路之间的层级关系)很少被强调,而生物解释则常被考虑在低层次(如基因表达水平)上。基于通路的模型解释可以提供更直观且可解释的解决方案。基于通路的分析通常通过整合已知的生物学知识,在基因组研究中产生显著的可重复性。例如,基于通路的代谢特征的高阶功能表示为乳腺癌诊断提供了稳健且高度可重复的生物标志物[18]。复杂的生物系统可能涉及生物通路之间的层级关系。生物通路的层级连接可能导致不同的生存时间。例如,针对抗病毒信号传导,研究了具有受体通路和基因本体的层级表征[19]。因此,将抑制和传播某一路径成分的影响纳入深度学习中的其他部分,可以使模型变得可解释。本文提出一种基于通路的稀疏深度神经网络Cox-PASNet,用于生存分析,整合高维基因组数据和临床数据。Cox-PASNet在生存分析中的主要贡献包括:(1)在生物通路层面中显式建模非线性和层级关系,(2)能够解释模型,其中各层节点对应基因和通路的生物成分;(3)将临床数据整合进深度学习模型;(4)提供高效解决方案,用HDLSS数据训练复杂神经网络模型,避免过拟合问题。本文其余部分的组织如下。我们在第二部分详细描述我们提出的Cox-PASNet方法。实验设计和结果详见第三部分。随后,Cox-PASNet的最佳模型被解读并与GBM数据进行讨论,模型中的生物学发现将在第四部分讨论。
方法
Cox-PASNet的架构
Cox-PASNet结合了Cox比例风险回归与深度神经网络,结合了对生物通路的先验知识。Cox-PASNet的架构由(1)基因层,(2)通路层,(3)多层隐藏层,(4)临床层,以及(5)Cox层组成。1)基因层:基因层是CoxPASNet的输入层,引入n个p基因表达的患者样本的基因表达数据。在基于通路的分析中,基因层只考虑属于至少一条通路的基因。2)通路层:通路层代表生物通路,节点表示特定的生物通路。通路层包含了先前的生物学知识,使模型能够从生物学角度解释。通路数据库(例如KEGG和Reactome)包含一组参与通路的基因,每条通路描述一个生物过程。对基因与通路之间已知关联的知识,在CoxPASNet中明确形成了基因层与通路层之间的稀疏连接,而非完全连接两层。为了实现基因层与通路层之间的稀疏连接,我们考虑了二元双邻接矩阵。给定包含p个基因对和q条通路的通路数据库,构造出二元双邻接矩阵(A ∈ Bq×p),其中元素aij为1,若基因j属于通路i,否则为0,即A = {aij|1 ≤ i ≤ q, 1 ≤ j ≤ p} 和 aij = {0, 1}。 3)隐藏层:隐藏层模拟了路径的非线性和层级效应。通路层中的节点值表示生物系统中单一通路的活跃/非活跃状态,而隐藏层则显示多条通路的交互效应。更深层的隐藏层表达了生物通路的高层次表征。4)临床层:临床层将临床数据与基因组数据分开引入模型。临床数据的维度通常远小于基因组数据,因此在将临床数据引入基因组数据时,往往容易被忽略。在Cox-PASNet中,基因表达数据的复杂遗传效应从基因层捕捉到隐藏层,而临床数据则直接与最高层的基因组数据表示(即最后隐藏层的节点值)一起引入输出层。因此,Cox-PASNet在神经网络模型中分别考虑基因组数据和临床数据的影响。5)Cox层:Cox层是只有一个节点的输出层。节点值根据基因组和临床数据生成线性预测因子,即预后指数(PI),并将其引入Cox-PH模型。注意,根据Cox模型的设计,Cox层没有偏置节点。此外,我们引入了稀疏编码,使模型能够从生物学角度解释,并减少过拟合。在生物系统中,参与生物过程的生物成分很少。稀疏编码使模型仅包含重要组件,从而更好地解释生物模型。稀疏编码通过掩膜矩阵应用于基因层到最后隐藏层的连接。

图1:Cox-PASNet的架构
损失函数
为了在Cox层上进行Cox比例风险回归,Cox-PASNet利用带L2正则化的平均负对数偏似然定义了目标函数:

其中 Θ = {β, W} 是一组参数,β 是 Cox 比例危害系数(最后一隐藏层与 Cox 层之间的权重),W 是 Cox 层前各层权重矩阵的并集,hlast 是最后一隐藏层输出与临床层临床输入的积分。E 是一组未审查的样本,nE 是未审查样本的总数,R(Ti) = {i|Ti ≥ t} 是一组在时间 t 处有失效风险的样本集合。‖W‖2 和 ‖β‖2 分别是 W 和 β 的 L2 范数,λ 是避免过拟合的正则化超参数(λ > 0)。
Cox-PASNet训练
我们提出了一种优化策略,用HDLSS数据训练Cox-PASNet,目标函数中进行L2正则化。我们通过部分训练小子网络并采用稀疏编码来优化模型。训练一个小子网络保证每个纪元中仅用少量参数进行可行优化。Cox-PASNet的整体训练流程如图2所示。图层初始设置为完全连通,权重和偏置随机初始化。特别是,基因层与通路层之间的连接被双邻接矩阵强制稀疏,Cox层不包含偏置节点。在不含Cox层的隐藏层中,通过脱离技术随机选择一个小型子网络(见图2a)。然后,通过反向传播优化子网络的权重和偏差。子网络训练完成后,通过修剪小网络中不贡献或加重的连接,对子网络施加稀疏编码,以最大限度减少损失。在图2b中,连接和被稀疏编码丢弃的节点用加粗虚线标记。
稀疏编码
稀疏编码通过掩模矩阵实现。二进制掩罩矩阵M控制子网络中每一层的稀疏度水平,其中一个元素表示对应权重是否被剔除。然后,层中的输出计算为:h( +1) = a ( (W( ) M( ))h( ) + b( )) , (2) 其中表示逐元素乘法算子,a(·) 是非线性激活函数(例如 sigmoid 或 Tanh)。 h( ) 是第 层的输出,W( ) 和 b( ) 分别是权重矩阵和偏置向量。1≤ ≤ L − 2,其中 L 是层数。特别地,如果M中的元素权重绝对值大于阈值s( ),则为1,否则为零。注意,基因层与通路层之间的掩膜,即M(0),由生物通路的双邻接矩阵A决定。因此,掩膜矩阵表述为 M( ) = { 1(|W( )|≥ s( )),如果 = 0 A,则 = 0。(3) 在子网络的每一层估计最优稀疏度水平(s( )),以生成掩模矩阵。为了高效近似最优稀疏度水平,成本分数通过在 s = [0, 100 范围内的各种有限稀疏水平计算,其中 0 表示完全连通的层,100 表示不连通的层。然后,我们通过对有限计算的成本分数应用三次值值插值,近似稀疏度水平的代价函数一组S。最后,考虑使成本得分最小化的稀疏水平作为最优稀疏水平。最优 s() 在子网络的每一层上单独近似。每层稀疏度的个体优化代表基因和通路上不同层次的生物关联。
实验
数据集
本研究中,我们考虑了多形性胶质母细胞瘤(GBM)癌症以评估Cox-PASNet。GBM是最侵袭性的恶性脑瘤类型,预后表现较差[20]。GBM的基因表达和临床数据来自癌症基因组图谱(TCGA,http://cancergenome.nih.gov)。缺乏存活时间或存活状态的样本被过滤掉。生物通路的先前知识来源于分子特征数据库(MSigDB)[21]。共计860条来自KEGG和Reactome通路数据库的通路进行基于通路的分析。然后,只研究至少属于一条通路的基因。综合分析中,我们纳入了GBM患者的临床信息。大多数临床数据存在大量缺失值。因此,我们仅纳入年龄,因为年龄已被报道为GBM预后预测的重要协变量[22]。虽然Karnofsky表现评分(KPS)被报告为显著且具有显著性,但KPS与年龄高度相关,且存在许多缺失值。因此,我们只在Cox-PASNet的临床层增加了年龄。最后,我们使用了522个GBM样本中的5,567个基因、860条通路和临床年龄数据。
实验设计
通过比较Cox-EN [10]、Cox-nnet [16]和SurvivalNet [17]的表现来评估Cox-PASNet。四个模型的性能通过C指数评估,这是一种非参数指标,用于计算预测风险比与实际生存时间之间的一致性。C指数的值范围介于0到1之间,其中1表示完美的模型预测,0.5表示随机猜测。数据集被随机分为训练(64%)、验证(16%)和测试(20%)数据,同时保持审查状态在审查与未审查样本之间的比例。训练数据中的基因表达和临床数据标准化为均值为零,标准差为1。验证数据和测试数据均与训练数据的均值和标准差进行了归一化。每个模型都由训练数据进行训练;通过验证数据获得了最优超参数;我们通过测试数据评估模型性能。实验重复了20多次,以保证模型性能的可重复性。Cox-PASNet采用了现代深度学习设计。我们用Tanh函数作为激活函数。同时考虑了脱落和第二语言正则化。进行了自适应矩估计(Adam),以优化一阶梯度[23]。网格搜索技术估计了最佳初始学习率(η)和L2正则化(λ)。选择了利用验证数据最小化成本函数的η和λ作为最优超参数。通路层和后续隐藏层的中断率分别被实证设定为0.7和0.5。由PyTorch实现的Cox-PASNet开源代码可在 https://github.com/DataXJieHao/Cox-PASNet 获取。Cox-EN 模型使用 Python 中的 Glmnet Vignette 包实现 [10]。α和λ的超参数通过网格搜索进行了优化。我们考虑了α值介于0到1之间,步长为0.01和200 λs。随后,Cox-EN采用了最小化成本函数的最优超参数。Cox-nnet 是基于作者提供的开源代码进行的。型号的调校设置遵循了他们的建议。采用了网格搜索L2。另一方面,SurvivalNet的最优超参数通过贝叶斯优化技术(BayesOpt)进行了优化[24]。我们还考虑了贝叶斯优化中L1和L2正则化的超参数,除了它们的默认设置外。SurvivalNet 通过其开源 Theano 实现。在数据集成中,年龄和基因表达的临床数据被合并成输入矩阵,并导入Cox-EN、SurvivalNet和Cox-nnet进行实验,而Cox-PASNet则分别将基因表达数据引入基因层,临床数据分别引入临床层。
实验结果
实验结果如图3所示。CoxPASNet显示的C指数最高为0.6463±0.0332,而Cox-nnet显示的C指数为0.6187±0.0507,排名第二。Cox-nnet 是 SurvivalNet 的一个简化模型,仅包含一个隐藏层。另一方面,SurvivalNet 是一个广义全联通神经网络模型,用于生存分析,采用 cox 模型,其最优架构由贝叶斯优化技术确定。Cox-nnet报告称,简单的神经网络架构通常比深度网络更优[16]。Cox-EN的c指数为0.5089±0.0362,接近随机猜测。这可能是由于HDLSS数据高度非线性,包含522个样本中的5,567个特征。该表现的统计显著性通过Wilcoxon秩和检验进行评估。Cox-PASNet产生的C指数得分分布显著高于表I中的其他指标。Cox-PASNet与Cox-nnet和SurvivalNet共享负对数部分似然的成本函数。然而,CoxPASNet基于对生物通路的先验知识构建神经网络,而这种生物启发的架构可能产生更好的性能降低噪声,源自数据复杂性。Cox-PASNet还培训用子网络建模以避免HDLSS数据的过拟合问题。卓越的表现支持了新架构Cox-PASNet和培训战略的贡献。
GBM中的模型解释
对于Cox-PASNet的生物模型解释,我们用20个实验中最优超参数对重新训练,使用所有可用样本。数据根据中位预后指数(PI)分为高风险组和低风险组,该中位数为Cox-PASNet的输出值。最后一个隐藏层(H2)中两组的节点值如图4所示。图4中,31个协变量的节点值(基因组数据30个,临床数据年龄)按H2与Cox层之间的绝对权重排序。年龄(图4a的第一列)被显示为生存分析中最重要的协变量。排名最高的协变量明显显示高风险组和低风险组之间的分布差异。例如,图4a中前三个协变量的节点在高风险组中被激活,但在低风险组中被灭活。此外,我们再次将协变量的节点值按中位数单独分为两组,并进行了对数秩检验。通过对数秩检验计算的-log10(p值)如上图所示,与图4a中的协变量对齐。红色三角形标记显示显著协变量(-log10(p值)>1.3),而蓝色标记显示无显著协变量。对数秩检验显示,绝对权重排名最高的协变量与生存预测相关。图4b -- 4e展示了前四个协变量的Kaplan-Meier曲线,两组存活率显著不同。因此,排名靠前的协变量可视为预后因子。图5展示了Cox-PASNet中生物通路的层级表示。表示一个通路节点通过相关基因节点的非线性效应,隐藏节点表达了一组通路的高层表示。以下隐藏层描述了之前隐藏节点的层级表示。然后,最后的隐藏节点被引入带有临床数据的Cox-PH模型。通路节点值显示对应通路的活跃或非活跃状态,可能与差异性存活有关(例如视紫红质样受体(A/1类))。相关基因对活性通路的重要性可以通过基因层与通路层之间的绝对权重值(例如POMC)进行排名。一组活跃通路被表示在下一隐藏层的活跃节点中,从而提升生存预测。例如,节点30和PI的Kaplan-Meier图显示的存活估计与视紫红质样受体(A/1类)更为相似。
总结

图5:Cox-PASNet中的层级和关联特征表示
我们开发了一个基于通路的稀疏深度神经网络Cox-PASNet,用于生存分析,结合深度神经网络上的CoxPH模型。Cox-PASNet构建了神经网络模型,能够描述生物途径的非线性和层级效应,并为准确预测患者生存率提供重要的预后因素。论文还介绍了一种利用HDLSS数据训练深度神经网络模型的新策略。Cox-PASNet优于当前的前沿生存方法,如Cox-nnet、SurvivalNet和Cox-EN,其预测表现也经过统计评估。在Cox-PASNet中,Cox-nnet和SurvivalNet也提出了输出层单节点的负对数偏似然。然而,Cox-PASNet基于生物通路构建神经网络,编码稀疏。基因组和临床数据分别导入模型进行解释。Cox-PASNet整合了临床数据和基因组数据。然而,高维基因组数据可能因基因组与临床协变量之间的大小不平衡而导致临床数据偏差。此外,结合DNA突变、拷贝数变异、DNA甲基化和mRNA等多组学数据,对于描述涉及多生物过程中复杂相互作用的复杂人类疾病至关重要。未来仍希望能解决复杂异构数据的集成问题