机器学习架起了组学科学和植物育种之间的桥梁。

摘要

从基础研究中获得的一些生物学知识将被应用于应用植物育种中。为了架起基础研究和育种实践之间的桥梁，机器学习（ML）在将生物学知识和组学数据转化为精准设计的植物育种方面具有巨大的潜力。在这里，我们回顾了机器学习在植物多组学分析中的应用，包括数据降维、基因调控网络的推断以及基因的发现和优先级排序。这些应用将有助于理解性状调控机制，并识别可能适用于知识驱动的分子设计育种的目标基因。我们还强调了深度学习在植物表型组学中的应用，以及机器学习在基因组选择辅助育种中的应用，例如各种机器学习算法，这些算法模拟基因型（基因）、表型（性状）和环境之间的相关性，最终实现数据驱动的基因组设计育种。

机器学习将知识和数据转化为育种工具。

近几十年来，从植物生物学基础研究中获得的知识极大地加快了植物育种的进展，并加速了作物改良（例如，实现更高的产量或更好的逆境耐受性）[1]。然而，如果我们想要最终实现精准设计的植物育种目标，仍然需要克服植物基础研究和育种实践之间存在的鸿沟。作为人工智能技术的一个子领域，机器学习（ML）因其在整合各种生物学知识和组学数据方面的卓越能力和灵活性而显示出巨大的潜力。机器学习可以通过两条途径将生物学知识和数据转化为精准设计的植物育种（图1，关键图）。一条路径是促进植物生物学中的组学科学，并加快发现农业上可用的基因和突变，以实现知识驱动的分子设计育种（图1A）。另一条路径是直接将机器学习技术应用于商业育种项目中，构建各种预测模型，以实现数据驱动的基因组设计育种（图1B）。这两条路径已被纳入现代育种流程中，并发挥着重要作用，选择正确的路径取决于与性状相关的基因或位点的数量。例如，数量性状大多由遗传背景决定（即，产量、生物量或环境适应性）；因此，通常采用数据驱动建模来推断表型与全基因组标记之间的相关性。多基因性状由遗传前景色决定（具有主要效应的具体基因，例如，疾病抗性）；因此，必须明确表征因果基因的功能，以便可以堆叠有益的等位基因。而对于单基因性状，基因组编辑是人工创造突变以改变性状的最快捷方式。只要在植物生物学和育种中积累了足够的知识和数据，机器学习就可以促进精准设计的育种。

图1. (A) 从植物生物学的基础研究中理解基因功能和调控机制。一个生物学知识库将通过多种技术促进知识驱动的分子设计育种。示例展示了通过标记辅助选择、多基因优良等位基因的堆叠和基因组编辑在玉米品种中改善性状的过程。(B) 从商业育种项目中积累的基因型、表型和环境数据将通过构建各种决策模型促进数据驱动的基因组设计育种。示例展示了利用基因组选择（GS）模型从基因型预测表型的过程。缩写：G × E，基因型与环境相互作用；G2P，基因型到表型。

机器学习算法家族

高通量组学技术的快速发展使植物生物学进入了高维生物学（HDB）时代[4]（图2A）。然而，基因组、转录组、蛋白质组、代谢组和表型组数据集高度异质且复杂，给数据整合带来了前所未有的挑战[5]。多组学数据还极其庞大、维度高、噪声多，超出了传统基于模型的统计分析的能力。因此，迫切需要能够处理高维生物数据集的分析方法。机器学习因其在处理大规模、非结构化和复杂数据集方面的卓越能力，在生物学的大数据分析中得到了广泛应用[6]。作为一种数据驱动的范式，它不需要统计假设，从而大大减少了人类在理解数据特征方面的工作[7]。

图2. 机器学习（ML）在植物生物学中的应用。

(A) 从微观到宏观测量产生的各类生物学数据。

(B) 在生物学中应用的监督式和非监督式机器学习方法。四个方框分别代表了通过特征重要性分析对基因优先级进行排序的LightGBM应用、用于整合多组学数据的图卷积网络（GCN）模型、使用基因型对玉米品系进行分类的OPTICS算法，以及用于可视化玉米种群结构的t-SNE。

© 机器学习在生物学中的应用实例。缩写：ANN，人工神经网络；CART，分类和回归树；CL，对比学习；CNN，卷积神经网络；DBSCAN，基于密度的噪声应用空间聚类；eGWAS，表达型GWAS；FIR，远红外；GAN，生成对抗网络；GCN，图卷积网络；GDD，生长积温；GWAS，全基因组关联研究；HC，层次聚类；HIS，高光谱成像；KNN，K最近邻算法；LiDAR，光检测与测距；GBM，轻量梯度提升机；LR，逻辑回归；LSTM，长短期记忆；MDR，多因素降维；mGWAS，代谢组GWAS；MLP，多层感知器；MSI，多光谱成像；MWAS，代谢组范围关联研究；NMR，核磁共振；OPTICS，点排序识别聚类结构；PCA，主成分分析；PHATE，基于亲和力的热扩散潜力轨迹嵌入；PTR，光热比；PTT，光热时间；QTLs，数量性状位点；RBMs，受限玻尔兹曼机；RF，随机森林；RGB，红绿蓝通道相机；RNN，递归神经网络；scRNA-seq，单细胞RNA测序；SOM，自组织映射；SVM，支持向量机；t-SNE，t分布随机邻域嵌入；TWAS，转录组范围关联研究；UMAP，均匀流形近似和投影；UML，非监督机器学习；XGBoost，极端梯度提升机。

总的来说，机器学习算法，无论是解决分类还是回归问题，主要分为三个类别："监督学习"、"非监督学习"和"半监督学习"（图2B）。在生物学中最常用的监督学习算法包括支持向量机（SVM）、随机森林（RF）、人工神经网络（ANN）、贝叶斯方法，以及惩罚回归方法，如最小绝对收缩和选择算子、岭回归和弹性网络[8]。非监督学习算法主要用于样本分类和数据降维（DR），例如K均值和主成分分析（PCA）[6]。半监督学习是上述两类方法的混合[9]。值得注意的是，最近出现的机器学习范式------深度学习（DL）已经彻底改变了计算机视觉、语音识别和自然语言处理领域[10]。它也成为了解决生物学问题的一种流行的机器学习方法[11]。在深度学习家族中，卷积神经网络（CNN）、递归神经网络（RNN）、生成对抗网络（GAN）、图卷积网络（GCN）、长短期记忆网络（LSTM）、迁移学习以及对比学习------一种最近出现的自监督学习方法，由SimCLR（一种简单的视觉表征对比学习方法框架）、MoCo（用于无监督视觉表征学习的动量对比）和BYOL（自举潜在）[12]代表，在生命科学和医疗保健的许多领域得到了成功应用[13]。

机器学习（ML）和深度学习（DL）在植物生物学中扮演着越来越重要的角色，尤其是在快速积累的多组学数据的利用上，它们最终将这些知识应用于植物育种[11]。如图2C所示，ML在大规模组学研究中有广泛的应用，包括预测遗传元素如转录因子（TFs）和非编码RNA[6]，预测分子结构如选择性剪接和蛋白质结构[6]，以及预测调控元件如启动子、增强子、转录因子结合位点以及表观遗传学上修饰的区域[6]。这些应用有助于理解性状调控机制，并识别潜在的目标基因，这些基因可以应用于知识驱动的分子设计育种[13]。

数据降维（DR）

框1. 在MODAS中应用降维的案例研究

对参考种质小组进行多组学分析可以显著提高致病基因的定位分辨率。然而，多组学数据集具有高度的维度。包含数百个样本的小组的全基因组重测序可能会产生数千万的单核苷酸多态性（SNPs）。单个转录组包含每个样本成千上万个基因的表达。如果以单细胞尺度生成，样本数量将乘以数千个细胞计数。如果包括多个条件，数据维度将进一步呈指数级扩展。因此，"维度的诅咒"是不可避免的。为了解决这个问题，工具MODAS（多组学数据关联研究）利用多种非监督学习技术来加速群体规模的多组学分析（图I）。

步骤1. 基因型数据的降维：以玉米群体为例，MODAS首先使用Jaccard指数计算任何一对SNPs的基因型相似性，然后使用DBSCAN对基因型上相似度高的SNPs进行聚类，形成基因组块。接着对每个聚类的SNP块应用PCA，并生成一个伪基因型指数文件。该文件包含约60,000个基因组块，作为一个高度简化的变异图谱，代表了玉米原始200万个SNPs的基因型。

步骤2. 组学数据的降维 ：以代谢组数据为例，在一组代谢组中分析了约30,000种化合物。然而，数据的很大一部分是冗余和噪声，这些必须在进行关联分析之前去除。MODAS首先使用互信息对表现出样本间相似模式的冗余化合物进行聚类，然后在每个聚类中使用NMF算法进行降维。NMF将化合物×样本的矩阵映射到一维的"元化合物"和一维的"元样本"。元化合物对样本的权重可以将300个玉米样本根据基因组块30519的两个主要单倍型（H1和H2）分为两组。

步骤3. 关联分析：元化合物的权重可以被视为表型特征，使用200万个SNPs的基因型或60,000个块的伪基因型进行GWAS。两种方法都可以映射相同的QTL并识别峰值SNP Chr3_182858806。与194种化合物和200万个SNPs之间的GWAS相比，元化合物和伪基因型之间的关联分析可以将45.6小时减少到仅0.63分钟，并且产生相同的结果。这种策略适用于任何类型的组学数据，用于在群体规模上进行基因挖掘。

多组学数据的高维度可能导致所谓的"维度的诅咒"，正如在利用多组学数据关联研究来开发玉米（Zea mays）种质的案例研究中所示例的那样（框1）。因此，在训练机器学习模型之前，应用特征选择和/或降维是一个必不可少的步骤，特别是当特征集远大于样本集时[14]。基于生物学指标的特征选择需要专业知识来去除冗余和嘈杂的特征。基于机器学习的方法，如包装器特征选择方法（例如，向前特征选择、向后特征选择、递归特征消除）和内在特征选择方法（例如，决策树、正则化模型）不需要领域知识，但可能导致重要特征的丢失[15]。降维依赖于一系列机器学习算法，并为特征提取提供了另一种方式。两个最广泛使用的线性降维算法是主成分分析（PCA）[16]和线性判别分析（LDA）[17]。在生物学中，PCA被广泛用于基于群体基因型数据和组学数据提取和可视化样本相关性，而LDA通常用于特征提取和分类任务。例如，LDA已被用于从小麦根系图像中提取特征，以分类表现出不同养分吸收效率的小麦品种[18]。

某些算法被设计来学习高维数据的非线性几何结构，多因素降维（MDR）是在生物学中使用最为频繁的方法之一[19]。在大麦中，MDR被用来推断多个数量性状位点（QTLs）之间的上位性相互作用，并通过将多个属性转换为一个来计算与性状相关的多个SNPs的联合效应[20]。非负矩阵分解（NMF）是另一种非线性方法，它可以将非负矩阵A（m×n）分解为特征矩阵W（m×k）和系数矩阵H（n×k），其中k是A的低秩近似[k ≤ min(m, n)] [21]。NMF的主要目标是通过减少大量特征来降低数据维度。它已经被应用于拟南芥（Arabidopsis thaliana）和玉米的表情数据分类中，将成千上万的基因聚类成少量的"元基因"集合，这些"元基因"在样本中表现出相似的表达模式[22,23]。如前所述，单细胞RNA测序（scRNA-seq）数据表现出极高的维度和非线性特征。已经引入了多种流形学习技术来对scRNA-seq数据进行降维，包括t分布随机邻域嵌入（t-SNE）、均匀流形近似和投影（UMAP）以及基于亲和力的热扩散潜力过渡嵌入（PHATE）[24]。这些方法通过在2D或3D空间中可视化结构，有效地捕获了嵌入在成千上万个转录组中的不同细胞群体的非线性关系[25]。

在植物种质研究中，这些降维算法也广泛用于基于基因型数据推断和可视化种群的遗传结构，这是应用全基因组关联研究（GWAS）和基因组选择（GS）之前的一个重要步骤[26,27]。在最近发布的软件包MODAS（多组学数据关联分析）中，刘等人开发了一种新的方法来对基因型数据应用降维以加速关联分析[28]。MODAS首先应用一种名为DBSCAN（基于密度的噪声应用空间聚类）的非线性聚类算法来识别单倍型块，然后使用PCA生成一个伪基因型指数文件。该指数代表了一个高度简化的基因组变异图谱，可用于种群结构分析或与超高计算效率的关联分析。