解码微生物适应性的关键：基因组序列与栖息地预测的深度关联

文章题目：Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity
原文链接 ：ojs.aaai.org/index.php/A...
源码链接 ：github.com/zhufengli/p...
发表年份：2025年AAAI

研究背景

现有研究动态：当前，基于序列数据的机器学习方法在基因组学领域取得了显著进展，如蛋白质折叠预测、基因调控网络推断等。然而，这些方法大多集中在单个基因或短序列片段上，对于整个微生物基因组的复杂性考虑不足。
现有研究的问题 ：
- 基因组复杂性未充分利用：大多数研究采用单基因或短序列建模，忽略了基因在基因组中的共现性和相互作用，难以捕捉到基因组中复杂的基因间依赖关系。
- 预测表型的挑战：微生物基因组的动态性和多样性使得从基因型预测表型变得困难。微生物基因组通常由不完整的组装组成，存在大量基因碎片，且基因组数据库对微生物多样性的代表性不足，许多基因和非编码元素的功能未知，增加了预测表型的难度。
- 现有方法的局限性：传统的基于同源性的方法依赖于已知功能的基因作为参考，但参考数据库中功能注释的基因有限，限制了这些方法的应用；基因组关联分析（GWAS）等方法需要大量密切相关的个体且表型明确的高质量基因组组装，但这在实际中难以获得。
文章想要解决的问题：文章旨在直接从整个微生物基因组序列中预测栖息地特异性这一复杂表型，同时解释基因交互效应如何驱动微生物适应不同环境。具体而言，通过利用大型基因向量化模型来预测栖息地特异性，并开发归因技术来提取对栖息地预测具有高度预测性的基因对，以解决现有方法在处理整个基因组序列层面预测复杂表型时面临的挑战。

创新点

提出了一种新的框架，利用现有的大型基因向量化模型，从整个微生物基因组序列中预测栖息地特异性，并开发了解释技术来阐明驱动微生物适应不同环境的基因交互效应。
与现有方法不同，该研究聚焦于直接从整个基因组序列层面预测复杂表型，且能够评估基因共现对表型预测的重要性，这是首次尝试。
将整个基因组序列作为输入，利用编码基因的嵌入向量来训练和验证模型，避免了传统方法中对基因顺序的假设，同时能够利用长序列信息来预测表型，更好地理解基因型与表型之间的关系。

方法

数据预处理：从ProGenomes v3数据库中获取基因组数据，使用Prodigal工具识别每个contig中的编码基因，并将其对应的蛋白序列用ESM-2模型嵌入到固定维度的向量空间中，最终将每个基因组样本表示为一个基因嵌入张量。

图1展示了文章中提出的研究框架中数据预处理的流程，该框架旨在从微生物基因组序列中提取基因特征并进行嵌入，以便用于后续的预测模型。图中每个样本代表一个完整的基因组，由宏基因组测序中的连续共识区域（contigs）重建而成。研究人员使用Prokaryotic Gene Identifier（Prodigal）工具识别每个contig中的编码基因，然后利用现有的蛋白质大型语言模型（如ESM-2）将这些蛋白质序列嵌入到一个固定维度的向量空间中。最终，将每个基因组样本对应的基因嵌入向量堆叠成一个二维张量，作为模型的输入。

模型架构：采用编码器仅有的BERT-like架构，包含15层、单个注意力头和640维的隐藏层。在训练时，使用AdamW优化器，学习率线性衰减，训练16个周期，直到验证集上的性能收敛。
归因技术：通过以下步骤提取高度预测栖息地的基因对：计算验证集中正确分类样本的最后层注意力图，提取前k个高分指数；使用DBSCAN聚类算法对基因对进行聚类；在现有数据库中查找聚类中基因对的序列，提取功能和分类注释；构建基因交互网络。

图3提供了对训练和归因过程的概述。在训练过程中，将整个基因组样本（以基因嵌入张量的形式表示）输入到模型中，模型将样本中的每个contig视为一个序列单元，然后随机打乱这些contig的顺序，并在必要时进行截断，这是因为模型的最大输入序列长度有限。这种处理方式使得模型能够在多个训练周期中学习到不同基因对之间的依赖关系，而不需要对基因在基因组中的物理顺序进行假设。在归因过程中，对于正确分类的样本，模型提取最后层的注意力图，识别出高注意力分数的基因对，这些基因对被认为对栖息地预测具有高度相关性。通过聚类这些基因对并分析它们的功能注释，可以揭示与特定栖息地相关的基因交互网络，从而帮助理解微生物基因组如何适应不同的环境条件。

实验

数据集：从ProGenomes v3数据库中选取了三个栖息地（宿主、土壤和水生）相关的基因组数据，共29,089个基因组样本。
内部验证：构建"伪样本"进行验证，发现模型仍能从仅包含高度预测基因对的伪样本中提取有用信息，表明这些基因对确实包含重要的栖息地特定基因。
聚类分析：使用UMAP和t-SNE技术对基因对进行非线性降维可视化，发现基因对在不同簇中功能相似，且不同簇之间分离良好，进一步验证了归因技术的有效性。
基因交互网络：以链球菌为例展示了基因交互网络，发现网络中的高度连接枢纽基因与细菌的宿主定殖功能密切相关，表明该模型不仅能预测栖息地特定基因，还能揭示这些基因如何与其他基因相互作用以预测栖息地。