【文献分享】通过基于大型语言模型嵌入的蛋白质的 k 均值聚类来探索同源性检测

文章目录

- 介绍
- 代码
- 参考

介绍

从序列信息中推断蛋白质的同源性对于理解物种进化以及实现功能注释的转移至关重要。除了基于相似性的方法外，还开发了多种利用不同方式表示蛋白质数据的机器学习方法。

在这里，我们使用具有生物学导向的大型语言模型来表示蛋白质，并对嵌入的数据应用 k 均值聚类来提取同源关系。尽管我们的方法缺乏其他工具的灵敏度，但我们对于检测 n:m 亲缘关系的检测精度更高。此外，我们成功地从头构建了完整的亲缘同源组，这凸显了将大型语言模型与聚类算法结合用于蛋白质数据分析的不断增长的潜力。

Inferring protein homology from sequence information is essential for understanding species evolution and enabling functional annotation transfer. Besides similarity-based methods, several machine learning approaches have been developed using various ways of representing protein data.
Here, we represent proteins with a biologically oriented large language model and apply k-means clustering to the embedded data to extract homology relationships. Although our approach lacks the sensitivity of other tools, we obtain better precision for the detection of n:m orthologs. Furthermore, we successfully reconstruct full orthologous groups from scratch, highlighting the growing potential of using large language models in combination with clustering algorithms for the analysis of protein data.

解析蛋白质的功能是生物学中的一项基本任务。然而，确定蛋白质功能的实验方法通常资源消耗大、成本高，并且难以扩展到整个基因组。为了解决这一挑战，已经开发出了计算方法，可以直接从氨基酸序列中推断出功能信息。这些方法利用序列比较，假设相似的序列很可能具有相似的功能。这种比较可以应用于单个蛋白质对之间，或者用于根据共享的相似性将蛋白质分组，而无需限制组的大小。当序列相似性源于共同的进化起源时，这些蛋白质被称为同源体。不同物种之间的同源体，即所谓的同源基因，尤其有价值，因为它们通常在不同物种中具有相同的功能。这使得它们对于将功能注释从已充分研究的物种转移到研究较少的物种至关重要（库宁 2005 年）。对于细菌而言，基于同源性搜索的实际注释覆盖率在 14%到 98%之间（洛布等人 2020 年），整个细菌蛋白质组的平均值为 79%。对于疟原虫中的恶性疟原虫（Plasmodium falciparum）而言，利用这种技术可以对其 98%的基因进行注释（斯坦比斯等人，2016 年）。

基于序列相似性的同源性识别依赖于能够检测氨基酸组成中保守模式的工具。最初，这些工具基于 BLAST 算法（阿尔特施尔等人，1990 年），该算法使用局部比对。例如，PSI-BLAST（阿尔特施尔，1997 年）特别适用于进行同源性检测的两两比较。它与其他方法（如 Li 等人 2003 年中的马尔可夫聚类）结合使用，创建了 OrthoMCL-DB，这是一个大型的同源蛋白质组数据库。此外，针对诸如检测远程同源物（具有小于 30%的序列一致性）等特定挑战，已经通过隐马尔可夫模型（索丁 2005 年，雷默特等人 2012 年）来解决，这些模型适用于进化距离较大的物种。尽管存在困难，但蛋白质的序列编码其结构和功能所需的所有信息这一基本原则（安芬森 1973 年）表明，这些关系仍然可以被揭示出来。

近来，基于机器学习的无比对方法已成为进行同源性检测的强大替代手段。例如，DeepSeqProt（大卫和哈兰奇 2023 年）采用编码器-解码器神经网络来构建同源蛋白质的簇。这些方法中的许多都利用蛋白质序列的数值表示，即嵌入，而非直接比较氨基酸组成，将序列信息编码到高维空间中。哈马姆西等人（2024 年）使用多个变换器编码层来创建序列的 512 维表示，并计算每对蛋白质之间的余弦距离以寻找远程同源体。罗森等人（2024 年）利用 ESM 嵌入模型（里维斯等人 2021 年）创建蛋白质的 1280 维表示，并应用改进的 k 均值算法来创建相似蛋白质的簇，从中可以提取同源对。SonicParanoid2（科森蒂诺等人 2024 年）使用 Doc2Vec 嵌入生成具有高准确性和速度的同源组。总的来说，近期针对蛋白质开发的大型语言模型取得了显著进展，例如 SeqVec（海辛格泽等人，2019 年）、ProtT5（埃尔纳加尔等人，2022 年）或 ESM（里维斯等人，2021 年），这些模型有望提升蛋白质的表示能力并实现更精细的分析。

在本研究中，我们探索如何通过将蛋白质嵌入大型语言模型中来优化聚类操作，以在整个动物界中实现最佳的同源性检测效果。具体而言，我们采用了与 ESM 嵌入模型相关的 k 均值聚类算法。此流程见于罗森等人（2024 年）的研究中；然而，他们的重点并非在于同源性检测，而且诸如聚类数量等关键参数并未经过系统的优化。在此，我们展示了如何通过根据数据集大小增加聚类数量来优化此解决方案以用于同源性检测。我们比较了在检索同源对和创建完整同源组方面的性能，与基于 BLAST 的方法（OrthoMCL）、SonicParanoid2（这是两项任务的最新技术）以及专门针对组创建的 DeepSeqProt 进行比较。我们优化后的流程在特定数据集上实现了高精度，尽管灵敏度有所降低，并且在组创建方面接近了最先进的性能。这些研究结果表明，这种方法是现有方法的一种很有前景的替代方案，并且可以通过进一步改进来增强其在同源性检测中的实用性。

代码

https://github.com/ThomasGTHB/OrthoLM

参考

Exploring homology detection via k-means clustering of proteins embedded with a large language model
https://github.com/ThomasGTHB/OrthoLM