Nat. Comput. Sci. | 可扩展!更快!更便宜!大规模基因组数据存储新结构
今天为大家介绍的是来自康奈尔大学计算生物学系Xinzhu Wei团队的一篇论文。对大量基因组进行计算分析需要一种数据结构,既能紧凑地表示数据集,又能支持对变异和样本进行高效操作。然而,现有的表格数据结构和文件格式对遗传数据的编码已经变得既昂贵又不可持续。本文介绍了一种基因型表示图(GRG),这是一种完全连接的层次化数据结构,能够无损地编码分阶段的全基因组多态性。通过利用样本间变异共享,GRG能够将20万个英国生物样本库的分阶段人类基因组压缩到每条染色体5到26GB,同时还支持图遍历算法在随机存取内存中重用已计算的值。构建和处理GRG文件的规模可扩展至一百万个全基因组。以等位基因频率和关联效应为例,作者展示了通过图遍历在GRG上进行计算的速度是所有测试方法中最快的。基于GRG的算法有潜力提高大规模基因组数据集分析的可扩展性并降低成本。
大规模基因组的计算分析需要既紧凑又高效的数据结构。然而,现有的表格格式如VCF(图1a)和BGEN在编码生物样本库规模的全基因组多态性数据时成本高昂且不可持续。这些基因型数据通常以表格格式组织,便于转换为二维矩阵(图1b)或一维向量,用于计算。如图1c所示,本文介绍了一种名为基因型表示图的新型层次化图结构,能够无损压缩分相的全基因组数据,并支持高效的图遍历算法。GRG通过利用样本间的变异共享,将20万份英国生物样本库的基因组数据压缩至每条染色体5至26GB,并可扩展至一百万个全基因组。实验表明,基于GRG的计算速度优于其他方法,具有提升大规模基因组数据分析可扩展性和降低成本的潜力。
图 1
模型部分
作者使用"突变"一词指代(基因组位置,衍生等位基因)对,每个基因组位置可能有多个突变。实际上,作者假设没有重复突变,且衍生等位基因通常用非参考等位基因或次要等位基因近似表示。一般来说,单个单倍型可以表示为完整的DNA序列或稀疏的突变列表。这样的列表仅包含与参考序列的变异:在所有多态性位点上与参考序列完全匹配的单倍型用一个空列表表示。同样,GRG将分相的单倍型显式地编码为突变列表:图中仅表示与参考序列的偏差部分。
GRG是一个有向无环图(DAG),具有以下特性:
- 叶节点为样本节点:没有后继节点的节点称为样本节点。数据集中每个单倍体基因组对应一个样本节点,二倍体个体由两个样本节点表示。
- 节点包含突变:任何节点(包括样本节点)可以包含零个或多个突变。包含至少一个突变的节点称为突变节点,包含零个突变的节点称为空节点。
- 内部节点:具有至少一个后继节点和一个前驱节点的节点称为内部节点。内部节点表示其下方样本的集合和其上方突变的集合。这种内部节点覆盖了这些样本和突变。
- 根节点为突变节点:没有前驱节点的根节点必须是突变节点。
- 路径唯一性:任意两个节点之间最多存在一条路径(GRG具有多树结构)。
- 突变与样本的关联:如果且仅如果样本节点Sj的基因型包含突变Mi,则存在从包含第i个突变Mi的突变节点到第j个样本节点Sj的路径。
GRG通过其向下的边定义:从根节点到样本节点的边。作者也称之为parent--child方向。同时,GRG对称地包含向上的边,即child--parent边,形成反向的有向无环图。最坏情况下,GRG等同于将数据集表示为突变列表:每个突变节点直接连接到包含该突变的所有样本。然而,紧凑的GRG利用内部节点覆盖许多突变共享的样本子集,从而压缩了突变与样本之间的关系。
GRG构建的可扩展算法概述
构建GRG的目标是创建一个表示样本间关系的图结构,确保每个突变被正确包含在一个节点中,同时最小化图中的边数。为此,GRG的构建过程分为四个主要步骤(图2a):
图 2
- 分割基因型矩阵:将基因型矩阵分割为T个不重叠的连续片段。
- 构建树形GRG(tGRG):针对每个片段,基于当前片段的基因型关系构建一个近似的树形GRG。
- 映射突变到tGRG:将当前片段的突变映射到对应的tGRG。
- 合并tGRG:将所有T个tGRG合并成一个全局GRG,表示全基因组的多态性。
实验结果表明,对于大多数非模拟的人类数据集,将基因组分割为50至150千碱基对(Kbp)的片段是最优选择。最终的GRG会被简化并根据其向下的边序列化存储到磁盘,但为了支持各种计算,向下和向上的边可以保留在随机存取内存(RAM)中。
GRG构建结果
作者首先使用模拟数据测试了GRG构建的性能,主要评估了计算时间(图2b)、内存使用情况(图2c)和图的统计特性(图2d)。模拟使用了msprime工具,生成了100兆碱基对(Mbp)的序列,涉及最多500,000个二倍体个体(即1,000,000个单倍体样本)。如图2c所示,GRG构建具有高效的内存使用,对于一百万个样本,最大内存占用仅为10GB。
图 3
图3a展示了GRG文件大小与其他标准格式(如vcf.gz、BED)以及XSI和Savvy的对比。GRG的文件大小随样本数量呈亚线性增长,图3b--d展示了将GRG应用于包含200,011个分相个体基因组的UK Biobank(UKB)数据集的结果。在图3b中,GRG与XSI和Savvy在UKB数据集的染色体13和22上的文件大小比较显示,GRG文件约为XSI和Savvy的一半大小,同时在构建速度和成本上表现更优(图3c, d)。
使用GRG进行等位基因频率和全基因组关联分析
为了评估基于GRG的计算性能,作者实现了两种不同的计算方法:等位基因频率和在固定效应线性模型下每个非参考等位基因的遗传关联。作者将BED文件和vcf.gz文件作为PLINK v.1.90b6.26的输入,树序列文件作为tskit、XSI和Savvy的输入,并将总计算时间和成本与GRG进行了比较(图4a--c)。
图 4
模拟数据集中,当样本量超过200,000时,GRG的性能优于所有其他数据结构,包括XSI和Savvy。对于更大的样本量,GRG与PLINK的效率差异预计会更加显著,这与模拟结果一致。在UK Biobank(UKB)全基因组测序(WGS)数据集中,作者对染色体13和22使用PLINK、XSI、Savvy和GRG进行了比较(图4b, c)。GRG在计算等位基因频率方面效率最高,平均速度比使用BED文件的PLINK快5倍,比使用vcf.gz文件的PLINK快220倍,比XSI快2.6倍,这是因为GRG能够在整个图中重用"记忆化"的值。
遗传关联效应是衡量基因型与表型关系的重要统计量。作者开发了一种通过图遍历计算该效应的算法,而不是通过向量或矩阵的点积计算。作者提供了两种计算模式:带统计测试的全关联结果和仅关联效应大小(称为"点积")。前者用于与PLINK比较,后者用于与XSI比较(图4d, f)。作者验证了图遍历方法生成的关联效应、标准误和P值与常用软件PLINK一致。在模拟数据集中,当样本量超过20,000时,无论数据是以传统表格格式还是压缩稀疏格式编码,图遍历算法在速度上始终优于矩阵操作。
图4f显示,将GRG加载到内存后进行多次计算比每次从磁盘加载快得多。与许多压缩基因组技术不同,GRG将数据集存储在内存中,这意味着重复计算或交互式数据分析(如通过Jupyter Notebook)极其快速,因为图遍历时间比从磁盘加载GRG的时间快几个数量级。
GRG 多树数据结构的生物学解释
GRG数据结构属于多树或强确定性图的一类数据结构,其中任意两个节点之间最多只有一条直接路径。多树数据结构的一个独特特性是图中的每个节点在其上方和下方都有一棵树,这使其特别适合利用基于树的算法。尽管GRG构建主要基于其计算优势,但作者也关注GRG数据结构潜在的生物学解释。从共祖理论的角度来看,后代树结构是编码变异从共同祖先传递到现今样本的自然方式,而父树结构的存在则不符合共祖理论。
图 5
作者将GRG单倍型定义为通过唯一的(共祖)树共同继承给一个或多个现今样本的突变组合。根据这一定义,GRG单倍型可以是GRG根节点包含的一个或多个突变、从GRG内部节点向上可达的突变组合,或从GRG样本节点可达的完整样本染色体。图5a展示了一个假设的GRG单倍型的家谱历史。如果我们仅追溯该单倍型中的遗传物质到其遗传祖先,上方会出现一棵树。这棵树代表了在进化过程中遗传物质如何传递给该单倍型。
在本研究中,作者专注于可扩展的GRG构建,以促进数据压缩和可扩展计算,而不是推断进化过程中实际的单倍型形成过程;因此,作者称之为GRG构建而GRG推断。由于GRG编码的进化信息少于ARG,且ARG推断旨在捕捉真实的族谱历史,作者也可以将ARG转换为更能反映单倍型形成过程的GRG(图5b)。
讨论
本文提出了一种紧凑的数据结构和文件格式------GRG,以及相应的构建算法,并介绍了一种基于图的GWAS算法,适用于大规模人类数据集。GRG主要用于紧凑且准确地编码单倍型和突变,方便通过图路径同时访问单倍型和突变。GRG支持多等位基因多态性、插入、缺失和缺失数据,相比ARG,GRG构建更具可扩展性,并对数据错误具有一定的鲁棒性。实验表明GRG在大规模数据分析中具有显著的计算优势。未来的研究方向包括进一步减少GRG大小,拓展其在关联分析、统计分型和祖先推断等方面的应用,并探索GRG与遗传数据生成过程的关系。GRG的数据结构和算法基于群体遗传学原理,解决了传统群体遗传学中计算上的挑战。
参考资料
DeHaas D, Pan Z, Wei X. Enabling efficient analysis of biobank-scale data with genotype representation graphs[J]. Nature Computational Science, 2024: 1-13