【文献分享】vConTACT3机器学习能够实现可扩展且系统的病毒分类体系的构建

文章目录

介绍

尽管病毒生态基因组学扩大了对病毒世界的探索范围和理解程度,但现有的分类工具在分类学分辨率方面存在不足,无法适用于现代基于发现的数据集或对先前未知的序列空间进行分类。在此,我们开发了 vConTACT3------一个基于机器学习的工具,它提高了病毒分类的可扩展性和准确性。通过优化基因共享阈值并利用适应性的、特定领域的分界线,vConTACT3 扩展了分类范围,涵盖了六个正式认可的领域中的四个,对真核和原核病毒进行了分类,并建立了从属属到属的准确层次分类体系。具体而言,vConTACT3 在 35,545 个公共原核病毒基因组和 13,524 个公共真核病毒基因组上分别实现了超过 95%的与官方分类的吻合度,超过了 vConTACT2 在大多数领域的表现,同时还能对先前未被描述的分类单元进行独特分类,并且处理速度更快。vConTACT3 的应用能够快速、自动且系统地为数以万计的未分类分类单元提供分类归属;评估病毒序列空间,以揭示相较于现有分类等级而言更少的分类层级支持情况,并找出病毒界中存在分类学难题的区域。

a. 三款 vConTACT 工具系列之间功能的概述。b. 网络及其组成部分的概念性概述。网络(也称为图)本质上由一个节点(也称为顶点)通过一条边(也称为路径)连接到另一个节点构成。vConTACT3 中的节点是基因组,而 vConTACT3 中的边则是由共享基因的数量以及转换为基因组间相似性得分来定义的。每个网络都被划分为 CC(连通组件),它是图中节点的一个子集,其中任意两个节点之间都通过一条边相连,并且不与该子集之外的任何节点相连。最大的连通组件被称为 LCC(最大连通组件),包含网络中的最多节点数。在这些连通组件内有簇(用蓝色和橙色突出显示),这些簇通常通过一种算法辅助的正式统计方法来定义。

病毒在各种独立的生态系统(例如海洋1、2、3、土壤4、5)以及与宿主相关的生态系统(例如植物6、反刍动物7、8 以及人类9、10)中,正日益被视为重要的生态和进化因素。然而,由于病毒的生活方式多样,以及可能存在的众多不同基因组结构(即单链或双链、DNA 或 RNA),对其进行正式的分类工作颇具挑战性,仍存在诸多障碍。

首先,不同病毒序列空间(即病毒世界)中的进化速率存在差异,这使得无法制定适用于所有领域的统一划分标准,从而导致目前国际病毒分类委员会(ICTV)所认可的分类单元呈现出一种杂乱无章的格局(如物种到领域)。这使得在极其不同的病毒谱系之间比较类似的分类等级变得十分困难。其次,ICTV 最近公布了 15 个分类等级(从物种到领域),但截至目前,这 14690 个被 ICTV 标注的病毒物种中没有一个被赋予了等级,其中"子"等级的标注(子领域、子纲、子目等等)是可选的,并且在这些分类单元中并未被使用,有三分之二的分类单元并未进行此类标注。此外,对所采样的病毒世界进行的全球性调查尚未评估数据在多大程度上支持建立 15 级结构的必要性。最后,病毒分类并非是静态的,而是一个不断努力的过程,旨在反映当时可用的数据。由于地球上约 1031 种病毒尚未完成测序,当前的分类描述是基于地球病毒世界中的一小部分得出的。例如,即便是规模最大的病毒基因组资源(综合微生物基因组/病毒资源(IMG/VR)15)也仅包含约 1530 万个病毒基因组片段,这与地球上存在的病毒数量相比,差距巨大,而且国际病毒分类委员会(ICTV)的分类仅适用于 IMG/VR 序列的不到 0.01%。尽管目前尚不清楚这 1031 个病毒颗粒将代表多少种病毒"类型",但病毒调查(尤其是在新研究的生态系统中)通常会发现一些无法在较低分类等级上进行分类的新病毒,这表明我们还有很长的路要走,才能捕捉到地球上存在的众多病毒基因组形式。

目前,尽管国际病毒分类委员会(ICTV)达成共识认为,基于基因组的进化框架是构建通用病毒分类体系所必需的16,17,18,19,但目前尚无能够实现这一愿景的统一工具或平台。虽然有一些工具能够将新序列归入已知的分类群中,但由于这些工具缺乏底层规则集或统计框架,它们无法在需要时创建新的分类群。例如,使用"特征基因"(一组病毒共有的基因,但在整个病毒界中并非普遍存在)20,21,22 或其翻译产物进行序列比对和分析以检测基因组范围内的共性基因内容(VirClust23)、基于模式的隐马尔可夫模型或蛋白质家族(GRAViTy24、VPF-Class25、geNomad26),或者基于基因组的信号(例如,VIRIDIC27、PASC28)等工具。

将层次聚类与核心蛋白质或基因标记检测相结合的最新研究方法提供了注释和接近参考的分类体系(VirClust23、Cenote-Taker29),但它们在可扩展性方面存在局限性,并且无法创建新的分类单元。其中,只有 geNomad 具有可扩展性,因为它使用了庞大的标记基因数据集,对于接近参考的基因组,其在家族级别上的分配准确率已得到证实26,但较低级别的分类单元则颇具挑战性,而且它无法创建新的分类单元。迄今为止,基因共享网络已被用于在序列空间中识别具有统计支持的"病毒簇"30(VCs)。这种方法具有可扩展性,并能够创建可与 ICTV 分类体系相比较的新分类单元,并且在双链 DNA(dsDNA)噬菌体以及单个等级(属)方面进行了广泛基准测试,其能力已被正式化为工具(vConTACT31、vConTACT232),这些工具在对这些噬菌体进行详细分类以及大规模宏基因组研究中发挥了关键作用33。然而,即使是 vConTACT2 也存在局限性,这些局限性极大地阻碍了病毒的发现。

我们先前开发的 vConTACT 和 vConTACT v.2.031、32(简称 vConTACT2)是基于共享基因内容生成的病毒分类群,其分类结果大致符合属级别的分组情况,且与主要属于尾状双链 DNA 腺病毒科(现称作 Caudoviricetes,以前称为 Caudovirales)的属类病毒进行了对比验证。ClusterONE(具有重叠邻域扩展的聚类)算法相较于 vConTACT 在分类的敏感性和准确性方面有了显著提升,这是因为该算法能够形成重叠的聚类,并且作者还实现了网络和分类学置信度的分级机制。将 MCL35(用于 vConTACT)替换为 ClusterONE(在 vConTACT2 中使用)能够更好地区分异常基因组、重叠的病毒组以及混合属的异质性聚类。然而,分类仅限于属级别,因为定义了属级别的阈值,而 15 级的正式化则较晚完成。

代码

https://bitbucket.org/MAVERICLab/vcontact3/src/master/

参考

相关推荐
NAGNIP9 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab10 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab10 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP14 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年14 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼14 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS14 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区15 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈16 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang16 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx