“MODAS: 利用多组学数据关联研究探索玉米种质资源“

利用多组学数据开发作物种质可以极大地增强基因发现的能力，并解释基因之间的遗传关系。在这里，我们介绍了MODAS（多组学数据关联研究）软件，该软件可以免费访问于 https://modasbio.github.io/ ，它使用先进的机器学习和统计方法来处理多组学数据中典型的高维、嘈杂和异质特征。MODAS具有四个分析模块，具有非凡的计算效率（图S1在线）。它首先对基因型数据进行降维（DR），生成一个代表研究种群全基因组变异简化图谱的伪基因型指数文件。该索引文件主要用于初步筛选与基因组变异显著相关的生物学意义分子特征（mTraits），如mRNA转录本和代谢化合物。在第二个模块中，MODAS执行两步区域关联（RA）分析和一步DR以减少mTraits之间的冗余。在第三个模块中，MODAS使用上述识别的mTraits进行表达型GWAS（eGWAS）和代谢组GWAS（mGWAS），随后在基于网络的用户友好界面中可视化GWAS信号，并整合候选区间内基因的注释信息。在第四个模块中，MODAS在总结的RA结果上应用孟德尔随机化（MR）算法，以推断转录因子（TFs）与目标基因、基因表达或代谢化合物与表型特征之间的因果关系。然后，推断出的关系可能有助于生物学家制定分子验证的假设。

数以百万计的单核苷酸多态性（SNPs）对于与多组学数据一起进行高效的关联分析来说过于庞大。因此，我们首先应用MODAS来降低基因型数据的复杂性，并生成一个简化的伪基因型指数，该指数仍然能够捕捉样本间的基因组变异（在线补充材料）。MODAS首先在1兆碱基（Mbp）的滑动窗口中扫描基因组，步长为0.5兆碱基，并计算Jaccard相似性系数[1]来衡量窗口内所有SNP对之间的基因型相似性。确定滑动窗口和步长的合适大小可能基于PopLDdecay软件分析的研究种群的连锁不平衡（LD）衰减距离（图S2，在线补充材料）[2]。然后，它将聚类算法DBSCAN（基于密度的噪声应用空间聚类）[3]应用于结果基因型相似性矩阵，以生成包含聚类SNPs的基因组块。最后，在每个块内对聚类的SNPs的基因型进行主成分分析（PCA），并为每个块选择第一个主成分（PC1）来代表整个种群的基因组变异（在线补充材料）。正如图S3（在线）所示，PC1的贡献可能解释了大多数块80%到100%的变异。然后，基因组被划分为数万个基因组块，用于后续分析，并从中派生出用于第二模块筛选mTraits的伪基因型指数文件（图1a）。

多组学数据集通常规模庞大、含有噪声，并且可能高度冗余。如果不进行适当的数据过滤，GWAS结果可能包含大量假阳性信号（图S4在线）。MODAS执行两步区域关联（RA）分析，独立于差异或相关性分析，对mTraits进行初步筛选（在线补充材料）。第一步实施混合线性模型（MLM）来识别与基因组块显著相关（P ≤ 1 × 10^-6）的mTraits，同时考虑样本之间的亲缘关系矩阵[4]。第二步，从原始基因型数据中提取与mTrait有关联的基因组块内的所有SNPs，并用作输入重新运行MLM，以确定与该mTrait显著关联的区间的确切边界，随后总结候选的数量性状位点（QTLs）以进行后续分析（在线补充材料）。

MODAS采用了另一步降维（DR）来消除嵌入在mTraits中的数据冗余（在线补充材料）。冗余不仅存在于组学类型的方法中，也是生物途径的固有特性。例如，代谢基因簇（MGCs）通常存在于植物基因组中，编码催化同一代谢途径中酶促反应的酶[5]。因此，一个基因组区域可能被反复识别为与途径中间产物和/或最终产物相关联。此外，如果不同途径之间存在交叉作用，一个代谢产物可能与多个基因组区域相关联，这使得mGWAS结果难以解释。MODAS对每个块内的所有mTraits分别应用了基于PCA的DR步骤，从而将化合物×样本的矩阵降低到一维。得到的PC1值用于GWAS，而不是绝对的mTrait值。我们在这里用代谢组数据来说明这一功能。RA分析后，有六个和八个代谢物分别与两个基因组块------块40,619和58,979显示出显著关联（图S5a在线）。每个块内化合物的丰度高度相关，表明它们各自的代谢相关基因可能位于这些块中，很可能编码在生物合成途径早期起作用的酶（图S5b在线）。然后我们对每个块内的所有化合物分别应用了基于PCA的DR步骤，从而将化合物×样本的矩阵降低到一维。最后，我们用两个得到的PC1值进行GWAS，并在染色体6和10上识别出两个与每个PC1值强关联的基因组区域（图S5c在线），分别对应于块40,619和58,979。因此，上述的RA和DR步骤识别出了一部分代谢化合物，随后可以将这些化合物提交给任何GWAS软件，以检测包含它们代谢相关基因的关联区域，并生成曼哈顿图。

孟德尔随机化（MR）已被应用于基于GWAS汇总数据推断遗传变异、风险因素和常见人类疾病之间的因果关系[6-8]。由于代谢物含量反映了相关生物合成途径中基因的表达，MR也可能适用于推断基因与代谢物之间的因果关系，并估计它们对性状的贡献。我们以玉米中研究较为充分的黄酮类生物合成途径为例探讨了这种可能性。共同关联基因（eGWAS）和聚类代谢物（mGWAS）的GWAS分析鉴定了1号染色体短臂上的相同基因组区域（图1c，左侧两个面板）。来自黄酮类生物合成途径的产物------芹菜素、橙皮素和槲皮素的丰度[9]，也显示出与该基因组区域的关联。因此，我们推断参与黄酮类生物合成的基因可能位于这个区域。确实，这个区域包含了两个先前报道的Pericarp color1 (P1)，它编码一个R2R3-MYB结构域的转录因子（TF），调节玉米籽粒的色素沉着[10]。其他黄酮类生物合成基因也显示出与相同区域的关联，包括FNS1（黄酮合酶1）、A1（无色花青素1）、C2（无色2）、PR1（紫色糊粉层1）和UGT1（UDP-葡萄糖转移酶1）[11]，但它们位于不同的染色体上（图1c，右侧两个面板）。因此，黄酮类生物合成提供了一个典型的顺式作用变异影响P1表达和P1调控的反式作用基因的例子。

通过MR方法（在线补充材料），可以定量推断共定位的P1和黄酮类物质之间的因果关系。在玉米籽粒中分析的983种化合物中，有135种是来自15条代谢途径的已知代谢物。我们从MR分析中提取了一个MR效应，代表了每个代谢物与P1表达相关联的峰值SNP（Chr1: s_48424403）之间的统计显著性，因此也是因果关系的强度。在135种代谢物中，有27种通过了阈值；其中，23种是来自黄酮类生物合成途径的产物（图1d），这与P1的报道作用一致[10]。

我们最终应用了MR方法来估计黄酮类物质及其生物合成基因对农艺性状的贡献。我们首先测试了P1和黄酮类物质的因果关系：它们对产量相关性状表现出积极的因果效应，模式非常相似，如每行籽粒数（KNPR）、穗重、百粒重（100 GW）和穗长，黄酮类物质水平和P1表达对KNPR和100GW有显著贡献（图1e）。这意味着P1调控的黄酮类生物合成可能涉及谷物产量，可能是通过对KNPR的影响。

我们使用MODAS在染色体5和8上鉴定了两个基因组区域（图S6a在线），这些区域包含六对转录因子（TF）和自噬基因（表S1在线）。这两个区域对应于之前通过传统连锁分析映射的两个QTL，但由于候选基因名单较长，这些QTL的致病基因尚未被鉴定。从每个区域中，我们选择了一对MR效应>30.0且P<1×10^-7的TF和基因，以验证TF与靶标之间是否发生相互作用，并使用酵母单杂交（Y1H）实验进行验证（补充材料，表S2在线）。这两对TF和靶标是qtl_ch5-217.5mb QTL中的Zm00001d018258（ZmMYBR67，MYB相关转录因子67）和Zm00001d018259（ZmATG12，自噬相关12），以及qtl_ch8-166.2mb QTL中的Zm00001d012015（ZmSBP18，SBP转录因子18）和Zm00001d011984（ZmATG6b，Beclin-1类蛋白）。Y1H结果表明，这两个TFs ZmMYBR67和ZmSBP18可以分别直接结合到ZmATG12和ZmATG6b的启动子区域，因此值得进一步研究（图S6b在线）。

之前发布的工具，如Mergeomics、SMR、GSMR和CoMM，大多基于GWAS汇总数据推断遗传调控[12-15]。相比之下，MODAS涵盖了分析群体规模多组学数据的全部程序，包括基因型数据的降维 、通过两步RA分析筛选生物学意义的mTraits ，以及基于汇总数据的MR推断因果关系。MODAS还包括一个可视化模块，用于浏览GWAS识别的显著关联区域的曼哈顿图和基因注释。在必要时，对识别的区域进行人工整理后，MODAS可以将所有曼哈顿图合并为一个，以直观整合GWAS信号。这些分析模块可以设计为MODAS中的流水线，具有非凡的计算效率。为了测试软件性能，我们在包含510个玉米样本中16,000个基因表达数据的RNA-Seq数据集上运行了MODAS流程。MODAS在桌面服务器上仅用5.7小时就完成了六个分析步骤（表S3在线）。针对常见农艺性状的GWAS已经遇到了瓶颈，因为在解析复杂、多基因性状时存在固有限制。对核心作物种质的多组学分析可以大大提高基因定位的分辨率，并提高实验验证识别致病基因的机会。MODAS采用新颖的策略和算法降低数据复杂性，并大幅加速玉米多组学数据关联分析的计算效率。它还有潜力扩展到其他植物物种，必要时根据研究植物的基因组和种群特征对一些关键软件参数进行调整。MODAS将加快在组学时代从植物种质中发现农艺重要基因的步伐。

Supplementary materials

在线方法：基因型数据的降维

基因型数据的降维使用了Jaccard相似性系数、DBSCAN和主成分分析（PCA）算法的组合。Jaccard算法是一种用于测量两个字符串集合之间相似性的非线性方法，在文本挖掘中广泛使用[1]。通过Jaccard指数测量的两个给定SNP之间的基因型相似性本质上是两个样本都携带少数等位基因的位点数与至少一个样本携带少数等位基因的位点数的比率。例如，如果SNP1的基因型是A = (1, 1, 0, 0, 0, 1, 0, 1, 0, 0)，而SNP2的基因型是B = (0, 1, 0, 0, 0, 1, 0, 0, 0, 0)，其中"1"和"0"分别代表10个自交系中纯合少数等位基因和纯合主要等位基因的基因型，那么基因型"1"的交集A∩B是2，基因型"1"的并集A∪B是4；那么，相似性系数将是2/4 = 0.5。如果研究的种群在给定位点含有大量杂合等位基因的样本比例很高，MODAS提供了一个选项，在计算Jaccard相似性系数时考虑杂合基因型。

具体来说，对于给定的SNP，分别对待具有纯合基因型和杂合基因型的样本，以计算两个Jaccard相似性系数，分别为hetjaccard和minorjaccard；然后，根据样本的hetunion和minorunion的比例，分别对hetjaccard和minorjaccard进行加权；最后，计算加权的hetjaccard和minorjaccard的总和作为最终的Jaccard系数Jsum。公式表示为：

应用Jaccard算法时，需要预定义滑动窗口和步长的大小来扫描基因组。然后，计算窗口中每两个SNP之间的基因型相似性。适当的窗口大小和步长大小可能因不同物种和种群而异，因此强烈建议基于全基因组SNP集合的基因型数据进行连锁不平衡（LD）分析。用户可以根据LD衰减距离，通过在MODAS的"genoidx"子命令中指定"-w"和"-s"参数来定义窗口大小和步长大小。在我们的工作中，我们首先在510个玉米自交系中对200万个高质量SNPs运行了PopLDdecay[2]软件，并绘制了LD衰减分布（图S2）。当r2等于0.1时，LD衰减距离达到约750Kb。然后，我们确定1Mb作为滑动窗口大小，500Kb作为步长大小。值得注意的是，每个窗口内的SNP密度也是一个需要考虑的关键因素。在我们的工作中，每个1Mb窗口平均包含约2000个SNPs。