论文阅读(十三):复杂表型关联的贝叶斯、基于系统的多层次分析:从解释到决策

1.论文链接:Bayesian, Systems-based, Multilevel Analysis of Associations for Complex Phenotypes: from Interpretation to Decision

摘要:

遗传关联研究(GAS)报告的结果相对稀缺,促使许多研究方向。尽管关联概念在GAS中处于中心地位,但关联的概念仍然缺失;同时,各种特征子集选择方法成为确定多元相关性的事实上的标准。另一方面,概率图模型,包括贝叶斯网络(BN)越来越受欢迎,因为它们可以学习复杂的表型描述符和异质解释变量之间的非传递,多变量,非线性关系。结合贝叶斯统计和贝叶斯网络的优点,提出了基于贝叶斯网络的贝叶斯多层相关性分析(BN-BMLA)。这种方法允许处理多个目标变量,同时确保可扩展性并提供多变量分析结果的多级视图。本章讨论了在GAS的背景下,在探索性数据分析、最优决策和研究设计以及知识融合中使用基于贝叶斯BN的相关性分析。

**关键词:**全基因组关联研究,贝叶斯网络,相关性

遗传关联研究(GAS)报告的结果相对稀缺,促使许多研究方向,如使用单变量贝叶斯分析和使用多变量,复杂或集成模型。尽管关联的概念在GAS中处于中心地位,但相关的概念却缺失了,同时各种特征子集选择方法成为确定多元相关性的事实上的标准。另一方面,包括贝叶斯网络(BN)在内的概率图模型越来越受欢迎,因为它们可以学习复杂表型描述符和异质解释变量之间的非传递,多变量,非线性关系。结合贝叶斯统计和贝叶斯网络的优点,提出了基于贝叶斯网络的多层相关性分析方法。这种方法允许处理多个目标变量,同时确保可扩展性并提供多变量分析结果的多级视图。本章讨论了在GAS的背景下,在探索性数据分析、最优决策和研究设计以及知识融合中使用基于贝叶斯BN的相关性分析。首先,概述了各种基于BN的关联和相关性概念。特别是,本章分析了BN和强/弱关联以及马尔可夫毯/边界或相关集合之间的联系;定义了关联关系。然后,贝叶斯统计方法的优势,susciently表征和探索弱显着的结果。为此,重点是设置在后验的定义以上的关联关系。下一节讨论GAS结果中多变量相关性的贝叶斯最优决策。在最后一节中,它表明,贝叶斯BN为基础的方法提供了一个框架,通过各种遗传数据分析所获得的结果的融合。这最后一节描述了一个程序,专门用于估计后验的复杂功能,如那些涉及的层次结构,相互关联的假设的BN-BMLA框架。

13.1介绍

遗传关联研究报告的结果相对较少,导致了几种方法,如单变量贝叶斯分析[5,52]和使用多变量,复杂或集成模型[61,65]。概率图模型,包括贝叶斯网络(BN),越来越受欢迎,因为它们可以学习复杂表型描述符(也称为目标变量,因变量或依赖结果)和异质性(主要是遗传)解释变量(输入变量,因子或预测因子,也称为统计学中的属性或特征)之间的非传递性,多变量,非线性关系。我们在这里讨论传统的统计关联的局限性,并展示如何使用所谓的输入变量与一个或多个目标变量的相关性的概念来规避它们。我们将在13.2.1小节中说明关联性是联想的一个有用的扩展。最近,我们提出了基于贝叶斯网络的贝叶斯多层相关性分析(BN-BMLA),它结合了贝叶斯统计和贝叶斯网络的优点[4]。此外,这种方法允许调查多个目标变量,并提供可扩展的单变量强相关性和完全多变量相关性之间的中间水平,以解释部分多变量水平的结果。因此,BN-BMLA提供了多变量分析的多层次视图。我们讨论了BN-BMLA相关性分析在数据探索、最优决策和知识融合中的应用。

首先,我们概述了BN的一些结构特性,特别强调了13.2节中基于系统的相关性分析。第13.3节展示了贝叶斯统计方法在表征和探索弱显著性结果方面的优势。在13.4节中,我们讨论贝叶斯决策理论在GAS中的应用。在第13.5节中,我们将讨论数据分析结果的贝叶斯解释和融合。在本章中,我们还考虑了贝叶斯推理的实践和计算方面:我们应用了哮喘领域中描述的方法。

13.2基于贝叶斯网络的关联和相关概念

关联的概念在遗传关联研究中缺失,尽管这一概念处于中心地位。因此,各种特征子集选择(FSS)方法成为量化多个变量及其相互作用的联合相关性的事实上的标准,这将被称为多变量相关性(对于FSS的概述,读者可以参考[48])。在本节中,我们将讨论如何使用贝叶斯网络的结构属性来定义这些概念。

13.2.1关联性和强相关性

将标准统计成对关联(单变量情况)扩展到多对一或多对多关系(多变量情况)是一项具有挑战性的任务,因为可以制定多个目标,例如评估多个预测因子的预测性能和相互依赖性。在识别相关变量的预测方法中,与目标变量Y的相关性在下面的包装器框架中定义。包装器方法的固有局限性在于,它会受到所使用的预测模型类别、优化算法、数据集以及量化错误和遗漏发现的损失函数的影响[32]。病例对照研究中的一个典型例子是使用梯度下降法进行逻辑回归,以最大限度地减少误分类错误,可选地使用复杂性正则化,以最大限度地减少给定数据集的过度。相关性类型的标准条件概率版本没有模型类、优化、数据集或损失函数,定义如下:

13.2.2稳定分布、马尔可夫覆盖层和马尔可夫边界

13.2.3其他相关类型

对于因果马尔可夫假设下的因果解释,读者可以参考[26,42]。需要强调的是,这些关系代表了相关性的不同方面,并且由于多个目标变量的可能性和非遗传预测因子的可能性,它们在遗传学中的使用存在微妙的差异。根据通常的遗传术语[15],直接相关性(DR)正式确定了直接关联的概念,尽管它也涵盖了直接后果。间接因果关联(ICR)和混淆关联(CR)是区分和表达间接关联和混淆关联的概念。成对联想(A)代表通常的联想,它是直接、间接和混杂联想的结合。互动主义相关性(IR)偏离了纯粹的上位关系[16],因为后者是个体变量的边缘效应消失的结果,可以通过上下文依赖来建模(见定义13.5,第325页)。总之,成对关联和强关联的标准概念之间最显着的区别是关联包括某些形式的弱关联(即,混淆相关性(ConfR)和传递性因果相关性(TCR)),并且它不包括由互动主义相关性所代表的情况。一个直接的后果是,只在互动主义相关性的预测将被筛选出典型的高维研究中的成对方法,因为它们不相关的定义。还要注意,这些关系中的大多数并不相互排斥,例如,一个预测因子可能同时具有直接和间接效应,这也可能是混淆的。这些关系的概述如图13.2所示。这些相关性类型的应用在第13.3.6小节中描述。

迄今为止,相关性的定义是基于条件独立性的一般概念,但当独立性仅存在于给定上下文中时,可以通过引入上下文独立性来使条件独立性变得更加具体(对于其在BN领域的使用,读者被称为例如,[6])。在遗传学中,如果一个变异对给定的目标没有影响,除非存在其他变异,这种表示可以表达一种相关的,看似互补的现象[14,45]。

13.2.4强相关的必要子集和充分超集

MBM特征分别给出了每个预测因子的强相关性的总体表征,但没有捕获预测因子的联合相关性。在另一个极端,马尔可夫边界子集的特点联合强相关的预测,但可能的MB集的数量是指数,这是难以处理的计算和统计。引入了k元马尔可夫边界子集的概念,专注于k大小的变量集,以支持强相关性的约束多变量分析,称为相关性的部分多变量分析[4]。在这里,我们用类似的超相关性概念来补充这个次相关性概念。

这些概念在哮喘问题领域的应用如图13.3所示。

13.2.5多个目标的相关性

如果有多个目标变量Y必须一起检查,并且如果它们之间的关系不相关,则可以要求与目标集相关的变量。单个目标变量的相关性的基本概念可以很容易地扩展到多个目标[4]。

定义 13.7

如果变量Xi​对Y强相关(弱相关),当且仅当它对Y中的任何Yi​强相关(弱相关)。

我们引入了额外的关系,例如独占或多重相关性,以便更好地描述预测变量与多个目标变量之间的相关性类型。相应的定义在表13.2中给出,使用贝叶斯网络表示。我们引导读者参阅第13.3.6小节以了解这些关系在哮喘和过敏研究中的应用。

13.3复杂表型相关性的贝叶斯观点

贝叶斯网络表示,沿着马尔可夫毯集和强相关性的概念,开辟了特征学习、特征子集选择问题和遗传关联研究中的许多研究方向[48]。"过滤器"方法,后来被称为"局部因果"方法,起源于马尔可夫毯集(MBS)和强相关性[1,10,34,63,28]。然而,尽管快速发展的方法,旨在确定一个最佳的MBS,在频率论框架中的最佳MBS的全局意义,以及在贝叶斯框架中的主导MBS的缺乏,仍然被忽视。

贝叶斯方法在遗传关联研究中越来越受欢迎,因为它们能够成功地表征和探索弱显著性结果并科普多个假设检验(一般方法见[18,24];对于GAS的应用见[52];对于方法见[19,35,65])。

13.3.1估计复杂特征的后验

MCMC过程生成L个DAG的依赖序列DL^G。使用MCMC模拟,我们根据公式(13.7)估计目标变量的MBG后验,见第13.3节(第328页)。在每个MCMC步骤中,我们确定与该步骤中的DAG G相对应的边界图bd(Y,G),并更新该边界图的相对频率。(We回想一下,边界图bd(Y,G)的存在以概率1意味着相应的变量是马尔可夫边界,见13.2.2小节。表13 - 1中所有成对关系的更新类似(见第13.2.3页第13.2.3小节)和表13.2(见第13.2.5节,第13.2.5页);在每个MCMC步骤中对每个可能的变量对评估这些关系,并且因此在整个MCMC采样中为给定关系的每个可能的实例化维护计数器。注意,对目标变量的选择没有实际限制,即,在同一MCMC模拟中,我们可以同时评估多个目标集。本章讨论的结构特征评估及其相对频率更新的计算复杂度为O(n)(n表示变量的数量)。在具有多个描述符的复杂表型的情况下,我们可以将描述符一起用作联合目标集,并且每个描述符单独使用。一个偶尔实用的反演是选择一个预测变量作为目标,因为我们可以探索与这个预测变量相关的所有表型(关于这种反演在频率论框架中的应用,见[34])。因此,评估的特征集可以完全满足执行分析的专家的需求、查询或先入为主的观念。

在第二个"事后"阶段,我们从第一阶段估计的MBG后验中计算各种MBS相关的边缘后验。MBS和MBM后验是根据估计的MBG后验精确计算的,类似于公式(13.5)(见第13.3节,第328页)。给定k-subMBS集或k-supMBS集的后验可以根据公式13.9和13.10直接从MBS后验计算(见第13.3.4节,第13.3.4页)。为了找到高度可能的k-subMBS和k-supMBS集合,我们应用贪婪算法,因为这些集合的基数多项式增长()。在k-subMBS的情况下,贪婪搜索的起始状态是空集,其可以被视为概率为1的平凡的0 subMBS。该算法将该集合扩展为最大17 O(n的k次方)的(k+1)-subMBS,在后面的在k-supMBS的情况下,搜索的初始状态是完备集U,算法从完备集U中迭代地消除预测因子,以获得具有最大后验的(k-1)-supMBS。

在MCMC模拟中,我们还计算了各种复杂特征后验的收敛性和置信度的定量度量。以下一组度量可以被视为标准集:

  1. Geweke Z分数,测量单个链内的收敛性,即采样开始和结束时后验差异的显著性[24]。

  2. Gelman-Rubin R分数,测量链间收敛性,即独立采样过程差异的显著性[24]。

  3. 置信区间,基于MCMC的标准误差[18]。

图13.4展示了所应用的MCMC采样相对于烧入期的收敛性。请注意,这些度量对于每个特征是不同的,即MBM后验的估计通常比3-subMBS后验或MBG后验的估计要快。这些度量的值是在MCMC模拟的每一步l中使用步骤1到l的MCMC样本计算的。

下面,我们将通过一个案例研究来演示该方法的应用。该研究涉及来自匈牙利(高加索)人群的1201名无关个体。436名3 ~ 18岁的哮喘儿童被招募参与本研究。对照组由765例受试者组成(平均年龄:19岁,405例男性/360例女性)。我们使用了三个嵌入式数据集:(1)所有病例的哮喘状态已知(1201例受试者,数据集A);(2)在1100例病例中,鼻炎的状态也是已知的(数据集RA)(只有那些鼻炎状态已经过专家艾德的受试者);(3)在200例病例中,鼻炎的状态以及IgE和嗜酸性粒细胞的血清水平也在该数据集中已知(数据集CLI)。

13.3.2完全多变量分析数据的充足性

不管贝叶斯条件方法(例如贝叶斯逻辑回归)或基于BN的方法,预测器集合的后验概率分布指示它们相对于所选模型类的联合相关性(如在BN情况下的MBS后验)通常适用于当代GAS的设置,因为样本量,预测因子数量,效应大小,模型复杂度包括先验。图13.5显示了这样的MBS后验概率,从最大后验概率MBS到最小概率MBS,它表明有几个集合的概率仅略低于MAP集合。这也表明,MAP MBS不是主导的,因为它的后验是可以忽略不计的。此外,图13.5中的累积分布函数也表明没有占主导地位的MBS,即,缺乏少量具有高后验的MBS,使得它们的后验总和接近于1。需要强调的是,这些结果是数据的力量而不是先验的结果;因此,它们也表明在频率论的最大似然方法中缺乏占主导地位的最优模型。在数据集RA和哮喘目标变量的情况下,MAP集仅具有0.010688的概率。由于样本量较小,当哮喘和鼻炎是目标变量时(即,多目标分析),MAP集的概率甚至更低,即0.007626。这种现象在数据集CLI的情况下甚至更明显,其中MAP集的相应概率分别为0.001496(哮喘目标)和0.000073(多目标)。这些MBS后验与我们早期的模拟结果一致[4],这表明200大小的样本通常会导致非常小的后验分布("小样本量"),而1000大小的样本对应于"中等样本量",相对于我们的100个变量的设置,这在候选GAS和部分基因组筛选研究中是典型的。

13.3.3学习率:特征和模型复杂度的影响

在给定层级上后验的相对平坦通常表明信息量不足,即存在高度的不确定性;因此,给定层级可能不适用,例如在给定的k值以上,MBGs、MBSs或k-subMBSs/k-supMBSs层级可能不适用。后验分布的一般不确定性可以通过其熵来表征,对于平坦的、几乎均匀的、非信息性的后验分布,熵会很高。图13.7展示了不同模型大小和样本大小下MBM和MBS特征分布的熵。

图中所示的趋势。13.8和13.9(第336页)总结于表13.3(第336页)。对于每个性能指标,可以选择可接受的和非常好的性能的阈值,这允许将"小"和"大"样本量定义为达到这些阈值的最小样本数。在我们的案例中,可以使用给定的变量数量和模型复杂度来选择这些阈值,如下所示:AUC为0.6和0.9,灵敏度为0.1和0.5,错误发现率为0.5和0.1。对于给定的样本量,选择最优决策阈值的逆问题将在13.4节讨论。相对适中的性能和相对较高的"小"和"大"样本量是参考模型M0中丰富的弱关联的结果

13.3.4基于贝叶斯网络的贝叶斯多层次相关性分析

在第13.2.1小节(第320页)中,我们定义了可用于推断强相关变量的不同相关性类型,这些类型可以彼此独立(MBM)或在一个完整集合中联合(即,在MBS中)。此外,在基于MBG的相关性类型的情况下,甚至可以研究这些强相关变量之间的相互作用。在本节中,我们提供了这些相关性类型的一些特征,并展示了如何在遗传关联研究中使用它们来推理预测因子的相关性。

图13.10显示,基于MBM的近似只允许进行粗略的定量估计,并且相应的排名差异显著(当样本相对较小时,这种差异在大多数实际情况下尤为明显)。

贝叶斯多层次相关性分析引入了可扩展的中间层次,以提供多个层次的综合视图。它的动机是观察到,即使当MBG和MBS后验分布是在最可能的MBS和MBG共享显着的共同模式。我们引入了次相关性的概念,在本章中表示为k-subMBS(参见定义13.6(第326页)和[4]),以表征公共元素。通常,这些常见变量存在于具有高后验的MBS中,并且它们通常具有更大的效应大小。子集s的次相关性的后验概率为:

我们展示了使用的k-subMBS概念在哮喘领域。在这一领域,MBS后验分布是非常粗糙的,而MBM后验分布是非常粗糙的,这表明在中间水平的k-subMBS的分析可以unhinge重要的结果。因此,我们评估了图13.11所示的部分多变量结果。在k = 1,2,3,4的情况下,高的最大后验概率(对应于相对粗糙的后验分布)表明样本量足以推断这些变量是强相关的。相比之下,对于k > 4,最大后验多元特征是弱显著的。这些结果与预期一致,即随着特征基数的增加,后验分布逐渐趋于稳定。对应于多项式增加基数的k-subMBS桥的后验差距之间的差距的MBS和MBM后验的特点是存在许多峰。

13.3.5多个目标变量的后验

以PTGDR基因中的rs 17831682 SNP为例(参见图13.3中的PTGDR(1)),我们证明了多靶点方法的主要优势,即它允许我们区分多靶点相关性的亚型,这在之前的表13.2中进行了总结。当忽略多目标相关性时,强相关性的后验(即,rs 17831682对IgE(水平)、嗜酸性粒细胞(水平)、鼻炎和哮喘的MBM后验值分别为0.58、0.52、0.53和0.53,这表明与每个靶点的适度相关性。与其中至少一个强相关的后验概率(表13 - 2中的MBMToAny关系)更高:0.71(根据公式(13 - 13)近似为0.95)。然而,rs 17831682仅与IgE、嗜酸性粒细胞、鼻炎或哮喘(MBMToExactlyOne关系)强相关的后验概率分别仅为0.06、0.04、0.05和0.05,这表明该SNP可能与多个靶点相关。这一假设也得到了后面的支持,即该SNP与其他靶点强相关,但与IgE、嗜酸性粒细胞(水平)、鼻炎或哮喘(MBM与其他相关)不相关:分别为0.37、0.42、0.42和0.42。最后,rs 17831682作为多个表型靶点的相关SNP(MultipleMBMs关系)的后验概率较高(0.51),表明该SNP与靶点集强烈相关,并且该SNP在多种机制中发挥作用。

13.3.6强相关和弱相关的子类型

不同类型的相关性之间的区别对于揭示将相关SNP与其目标变量联系起来的可能因果和机制路径至关重要。估计各种相关性类型的后验概率使我们能够决定SNP是否直接相关或其关联由其他因素介导或两者兼而有之。我们展示了在数据集RA上进行的BNBMLA分析中相关类型的解剖,其中包含两个表型变量:哮喘和鼻炎。使用哮喘作为唯一目标,估计每个SNP的以下后验:直接因果相关性(DCR),关联(A),强相关性(SR),相互作用相关性(IR)和间接因果相关性(ICR)。表13.4显示了一些SNP的相应后验。

在我们当前的例子中,SNPs可以聚类为四组,如图13.14所示(第13.3.7页)。注意,关联、直接关联、传递关联和互动主义者关联都是复杂的、潜在重叠的事件(见图13 - 2)。SNPs AHNAK(2)和TXNDC 16(1)都具有中等高的强相关性后验(0.736和0.722),但具有非常低的直接因果相关性后验(0.029和0.08)。这意味着这些SNP与哮喘的强相关性不是由于直接的因果关系,而是由于与鼻炎的纯粹相互作用相关性。此外,与哮喘的传递性关系的后验相对较低(AHNAK(2)和TXNDC 16(1)的后验分别为0.535和0.189),这一事实表明,相互作用相关性(后验:0.708和0.713)是这些SNP与哮喘相关性的唯一相关亚型。这意味着这些SNP只有在鼻炎状态已知时才是相关的和相关的。

相比之下,PRPF 19(1)与哮喘(0.822)不仅具有传递性,而且还通过直接因果关系(0.718)与哮喘相关,这表明PRPF 19(1)与哮喘之间存在两条不同的因果关系路径:其中一条路径可以被其他因素阻断,但另一条路径不能。在第三组SNPs中,PTGDR(2)和PTGER 2(2)与哮喘的关联概率非常高(分别为0.923和0.970),这是由中度高TCR后验(0.747和0.604)指示的传递关系诱导的。请注意,所有其他后验都相对较低,表明TCR是这种情况下唯一显著的相关性类型。WDHD1(1)与之前组中的所有其他SNP形成对比,因为它与哮喘相关的概率很高(0.96),但其其他后验概率均不显著。这在纯混杂关系的情况下是可能的,其中一个共同的原因影响SNP和靶标(否则它们彼此独立)。请注意,如果传递依赖和混淆依赖不能区分,例如在连锁SNP的情况下,传递相关组和混淆组可以合并。关于这种方法在哮喘和过敏症中应用的更详细的生物医学讨论,我们请读者参考[58]。

13.3.7基于强相关后验的交互冗余得分

图13.15显示了相互作用-冗余度得分。这种模型级的交互和冗余的方法形式化的直觉,相关的输入变量与可分解的角色在参数级独立出现在模型中。如果集合s的k-subMBS后验大于其根据等式(13.8)和等式(13.9)基于MBM后验的近似,则可以指示集合s中的变量具有表示非线性联合效应的联合参数化。相比之下,在ksubMBS包括冗余变量的情况下,后验小于其基于MBM后验的近似,因为冗余变量在模型中的联合存在被抑制。

请注意,对应于给定靶标的相互作用冗余分数似乎与SNP之间的遗传连锁无关。图13.15清楚地表明,在PTGER2基因中的rs17197和rs708502艾德的这个结构域中存在几种基因内、染色体内和染色体间的相互作用。(14号染色体),PTGER 2基因中的rs12587410和DLG 7基因中的rs376966(两个基因均在染色体14中),以及在AHNAK(染色体11)中的rs11827029和在PTGDR基因(染色体14)中的rs17831675。

13.4多元相关的Bayes最优决策

由于多假设检验问题,GAS中相对较高的预测变量数量构成了严重的挑战:在单变量方法中,假设数量与变量数量呈线性关系。此外,在使用复杂模型类的多变量方法中,假设的数量可以是指数的。在频率论框架内出现了几种方法来处理单变量和多变量背景下的多假设检验问题。这些方法包括校正方法、基于置换测试的方法,并涉及错误发现率(FDR)和q值等概念[54]。

由于其直接的语义,贝叶斯多变量方法对多假设检验问题具有内置的自动校正:后验通常随着变量数量的增加和模型复杂性的增加而增加,即,在一个更复杂的假设空间中。

此外,贝叶斯决策理论框架允许关于模型属性的最佳决策,例如结果的最佳科学报告或研究的最佳继续(对于使用BN的贝叶斯研究设计,例如,见[2,62])。首先,我们总结了基于单变量后验和效用的变量相关性最优决策问题。其次,我们展示了应用贝叶斯方法构建贝叶斯FDR。第三,我们考虑使用一般的信息损失函数。

13.4.1关于单变量相关性的最优决策

13.4.2控制FDR的最优贝叶斯决策

分类性能的测量,如灵敏度,FDR和AUC是有价值的工具,但它们需要外部参考,即"金标准",通常在评估环境中可用(对于最近的测量比较,请参见例如,[55])。经典的频率论方法还假设有一个未知的参考集,即我们数据下的"真实模型"。然而,贝叶斯框架基于贝叶斯模型平均(BMA),为缺乏参考模型提供了一个自然的解决方案。

13.4.3关于多元相关性的广义贝叶斯最优决策

13.5知识融合:基因与注释的相关性

分类法的结构和先验领域知识也可以用来细化语义相关关系。我们可以将分类法解释为一种特殊的贝叶斯网络(BN),其中局部参数模型是逻辑OR关系。在这个模型中,多变量语义强相关关系的后验可以解释为在叶子上有硬证据的推理过程的结果,这些叶子对应于表示分析变量强相关的指示变量。然而,这种混合预测变量(例如,SNPs)和术语的贝叶斯网络表示允许整合更多的背景知识,例如,使用Noisy-OR局部参数模型,其中给定输入的真实状态被给定的"抑制概率"所抑制[41]。Noisy-OR模型中的参数可以表示分类法中的入度和出度,例如,如果一个给定术语被许多基因注释,因此其入度相对较高,那么参数被设置为较小值以充分建模术语的普遍性。同样,如果一个给定基因被许多术语注释,因此其出度相对较高,那么参数可以设置为较小值以建模基因的更高频率。

在图13.20中,我们展示了从SNPs水平到基因本体生物学过程术语水平的聚合结果。从数据集A计算的MBS的后验概率通过考虑SNPs的物理位置和功能角色聚合到基因水平。然后,我们聚合这些结果到GO术语水平,考虑基因的注释。结果可以可视化为一个网络,其中节点是功能术语,节点之间的连接对应于本体的层次结构。节点的大小与节点所代表的功能术语在所研究的生物现象中具有功能角色的后验概率成正比。

13.6结论

贝叶斯方法为遗传关联研究中的研究设计、综合探索性数据分析、最优决策和知识融合提供了一个统一的艾德框架。概率图模型,特别是贝叶斯网络,允许分解和重组超载的关联概念。贝叶斯框架中的贝叶斯网络允许对多变量强相关性、相互作用、全局依赖性和因果关系进行后验推理,可选地具有针对多个目标的各种专业化。此外,GAS中基于贝叶斯网络的贝叶斯多级分析(BN-BMLA)允许在单变量强相关性和完全多变量相关性之间的可扩展中间水平,以解释部分多变量水平的结果;此外,在每个水平上,相关性可以从必要性(k-subMBS)和充足性(k-supMBS)的双重角度进行分析。

贝叶斯决策理论框架在数据探索阶段的BN-BMLA结果中的应用开辟了将领域知识纳入支持解释的新可能性并且潜在地自动化有趣关系的发现。贝叶斯框架还允许FDR和其他绩效指标的原则性和计算效率管理。

贝叶斯统计框架也为多假设检验问题提供了规范性解决方案,这是由大量的预测因子,特别是频率论框架内的交互数量引起的。这一说法也适用于BNs语言中定义的新关联关系的更丰富的假设空间,如MBMs,k-subMBSs/k-supMBSs,MBSs和MBGs。在贝叶斯框架内,或多或少的后验是大量变量和大量模型的结果,这类似于频率论框架中的功率损失,因为大量变量和大量模型的校正。然而,这两种方法之间有一个根本的区别,这在生物医学应用中非常有价值:贝叶斯方法,特别是贝叶斯模型平均,为复杂假设的后验结果的推导提供了一个规范的方法,例如k-subMBS/k-supMBS,MBSs,MBGs或语义强相关性。这在数据和知识融合中尤其重要,这是当前生物医学/转化研究的主要瓶颈。

尽管如此,BN特征的后验估计,如MBM,k-subMBS/k-supMBS,MBS和MBG,仍然存在于多假设检验问题中,因为MCMC过程本身,即,他们的估计是在频率论的框架下完成的。但这个问题主要与MCMC模拟的效率和长度有关,即,到DL^G中的采样DAG,而不是到数据集DN。换句话说,贝叶斯统计框架将统计根源的多假设检验问题转化为计算任务。

融合是遗传关联研究中公认的核心挑战。随着针对罕见变异的下一代测序技术的普及,融合的重要性将进一步增加。遗传因素有一个分层分类法,从SNP开始,向上移动到基因,然后是GO术语和途径。我们可以预期在表型描述符上也会出现类似的分层分类,例如人类表型本体论[46]。由于遗传因素通常是预测因子,而表型描述符通常是BN-BMLA方法中的目标,因此该方法可以被视为在多个粒度和多个抽象级别上分析相关性的支持。

贝叶斯统计方法的直接概率语义的优势允许以数学上直接和生物医学上可解释的方式将数据分析结果与逻辑先验知识结合联合收割机(对于SNP水平到基因和途径水平的BN-BMLA结果的聚合,参见[36,58,59])。除了通过聚集将后验传播到上层之外,它还允许构建贝叶斯数据分析知识库,以支持多个数据分析的弱显著性结果的融合。

参考文献

相关推荐
__如果3 分钟前
论文阅读--Orient Anything
论文阅读
机器之心9 分钟前
AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱
人工智能
机器之心12 分钟前
WSDM 25唯一最佳论文:从谱视角揭开推荐系统流行度偏差放大之谜
人工智能
新智元20 分钟前
国产 Vidu Q1 出道即顶流,登顶 VBench!吉卜力、广告大片、科幻特效全包了
人工智能·openai
人机与认知实验室1 小时前
宽度学习与深度学习
人工智能·深度学习·学习
新智元1 小时前
AI 永生时代来临!DeepMind「生成幽灵」让逝者赛博重生
人工智能·openai
HyperAI超神经1 小时前
【vLLM 学习】Aqlm 示例
java·开发语言·数据库·人工智能·学习·教程·vllm
cnbestec1 小时前
欣佰特携数十款机器人相关前沿产品,亮相第二届人形机器人和具身智能行业盛会
人工智能·机器人
爱的叹息1 小时前
关于 梯度下降算法、线性回归模型、梯度下降训练线性回归、线性回归的其他训练算法 以及 回归模型分类 的详细说明
人工智能·算法·回归·线性回归