摘要
抗菌肽(AMPs)具有在临床和非临床环境中应对多重耐药病原体的潜力。近年来基因组和宏基因组的广泛应用为新型抗菌肽分子的 计算预测提供了机会。然而,由于这些肽的分子较小,标准的基因筛选方法无法应用于这一领域,因此需要采取替代方法。特别是,标准的基因预测方法对于短肽的精度较低,且通过同源性进行的功能分类召回率较低。在此,作者提出了Macrel(即宏基因组抗菌肽分类与检索工具),这是一种用于从(宏)基因组中筛选高质量抗菌肽候选分子的端到端管道。为此,引入了一套新的22个肽特征,并利用这些特征构建了分类器,其在抗菌活性和溶血活性的预测上,与当前最先进的方法相似,但精度更高(通过标准基准测试以及更严格的测试方案)。作者展示了Macrel通过真实的模拟和实际数据恢复了高质量的抗菌肽候选分子。
引言
抗菌肽(AMPs)是短小的蛋白质(包含少于100个氨基酸),能够抑制或减少细菌的生长。考虑到近年来新型抗生素的匮乏以及抗菌耐药性的上升,自然存在的抗菌肽的发掘成为了一个潜在的宝贵的新型抗菌分子来源)。随着公开的宏基因组和转录组数据的增加,揭示了许多迄今未知的微生物,这些微生物具有巨大的生物技术潜力。这为使用这些(宏)基因组数据发现新的抗菌肽序列提供了机会。然而,成功发掘其他微生物功能的方法不能直接应用于小基因,例如抗菌肽。特别是,有两个主要的计算挑战:在DNA序列(无论是基因组还是宏基因组的contigs)中预测小基因,以及利用同源性方法预测小基因的抗菌活性。
当前的自动基因预测方法通常会排除小开放阅读框(smORFs),因为直接使用适用于大序列的方法会导致在处理短序列时假阳性率过高。然而,近期一些大规模的smORFs调查表明,如果对结果进行后续分析以去除虚假基因预测,这些方法仍然可以有效使用。这些程序揭示了跨多种功能的生物活性原核smORFs。
同样,抗菌肽活性的预测需要不同于同源性方法的技术,后者适用于较长的蛋白质。在这种情况下,几种基于机器学习的方法在预测肽类抗菌活性时,在经过标准基准测试时展示了高准确性。然而,要应用于从基因组数据中提取抗菌肽的任务,抗菌肽分类器需要对基因预测错误具有鲁棒性,并且需要在这种背景下进行基准测试。特别是,现实评估需要反映出大多数预测基因不太可能具有抗菌特性这一事实。
不同的抗菌肽预测方法采用了多种方式来表示肽序列的顺序、组成和理化特性,从而创建了二分类(AMP与非AMP)或多分类分(例如抗菌、抗真菌等)类器。抗菌肽集合网站(CAMP R3)提供了一些基于随机森林(RF)、支持向量机(SVM)、人工神经网络(ANN)和判别分析(DA)的抗菌肽预测工具,这些工具使用257个特征进行训练。Xiao等提出了iAMP-2L,该方法使用模糊K近邻算法和抗菌肽的伪氨基酸组成,结果生成了46个特征。另一个多分类的抗菌肽预测工具是基于SVM的iAMPpred,该工具同样使用表示抗菌肽理化和结构特征的特征。在这两个系统中,相同的序列可能被识别为同时属于不同子类(例如,既是抗菌的也是抗真菌的)。随后,Bhadra等提出了使用氨基酸特性分布模式作为特征的高精度RF分类器(AmPEP)。Veltri, Kamath & Shehu介绍了一种深度学习方法,通过卷积层的神经网络模型和氨基酸序列作为预测特征来预测抗菌肽,即AMP Scanner。
这些分类器适用于肽序列,并不直接适用于微生物基因组或宏基因组。为此,提出了Macrel------(宏)基因组抗菌肽分类与检索系统------这是一条处理基因组和宏基因组中肽、contigs或读取数据的管道,能够预测抗菌肽序列。Macrel还能够提供特定抗菌肽在宏基因组中的丰度分析。与上述系统不同,Macrel是在抗菌肽与非抗菌肽的比例非常低的条件下进行训练的,模拟了基因组和宏基因组中只有少数肽具有抗菌活性的情形。此外,针对(宏)基因组数据的应用,真实数据中的类别不平衡意味着特异性 比灵敏度更加重要。
方法
Macrel模型
特征
局部特征 (依赖于肽序列顺序)受组成-过渡-分布(CTD)框架 的启发。研究表明,肽在N端的理化性质对其抗菌活性的预测具有重要参考意义。因此,作者基于感兴趣的氨基酸组中第一个氨基酸的归一化位置定义了相关特征。
全局特征 (独立于氨基酸的一级序列)被选择用来捕捉抗菌肽的典型特征,如约50%的疏水残基 组成、通常的正电荷及折叠为两亲性的有序结构。此外,Macrel通过全局描述符(稳定性、两亲性及肽结合膜的倾向)总结了抗菌活性机制。
因此,Macrel结合了6个局部特征和16个全局特征,具体分组如下:
-
新型局部特征组(3个局部特征)
定义为肽中3类氨基酸组(依据自由能过渡,从随机线圈状态到脂质相中的有序螺旋结构)第一次出现的位置的相对位置。
- 组1(最低FET):ILVWAMGT
- 组2(中等FET):FYSQCN
- 组3(最高FET):PHKEDR。
-
溶剂可及性(3个局部特征)
基于氨基酸残基的溶剂可及性,按其首次出现分布进行分组:
- 组1(埋藏):ALFCGIVW
- 组2(暴露):RKQEND
- 组3(中间):MSPTHY。
-
氨基酸组成(9个全局特征)
定义为不同氨基酸组的比例,按照其大小(面积/体积)、极性、电荷及R基团分类:酸性、碱性、极性、非极性、脂肪族、芳香族、带电、小型及微型。
-
电荷与溶解性(2个全局特征)
- 肽的电荷。
- 等电点。
-
多用途指数(3个全局特征)
- 不稳定性
- 脂肪族性
- 结合膜倾向。
-
疏水性(2个全局特征)
- 疏水性(基于Kyte-Doolittle标度)
- 在100°的疏水矩,捕捉螺旋动量
基因组和宏基因组的预测
为了处理基因组或宏基因组数据,Macrel接受成对末端 或单端读取的FastQ格式输入(可能经过压缩),并使用NGLess 进行基于质量的修剪。在初步阶段后,Macrel使用MEGAHIT 进行contig拼接 (使用最小拼接长度1,000个碱基对)。如果已有拼接结果,也可以将其直接传入Macrel。接着,在这些contig上进行基因预测,使用修改版的Prodigal,该版本预测的基因最小长度为30个碱基对(相比标准Prodigal版本的90个碱基对)。原始阈值旨在最小化假阳性结果,因为基因预测方法通常在短序列(smORFs)中产生更多假阳性。研究表明,若不进一步过滤,降低长度阈值可能导致**61.2%**的预测smORFs为假阳性。在Macrel中,过滤过程仅输出被分类为AMP的smORFs(10-100个氨基酸)。
为了便于处理,Macrel可以将重复序列聚类并输出为一个单一实体。对于AMP丰度分析,Macrel使用Paladin 和NGLess。
在原核生物中,蛋白质合成由N-甲酰甲硫氨酸开始。合成后,约80-50%的蛋白质会经过N-甲硫氨酸去除,使得该初始残基不再出现在肽的活性形式中。由于目前没有工具能预测哪些肽会经过此过程,作者选择在计算特征时始终忽略初始的甲硫氨酸,以此模拟去除过程。
Benchmarking
对比方法
作者将Macrel AMP分类器 与以下方法的网络服务器版本进行了比较:CAMPR3 (包括所有算法)、iAMP-2L 、AMAP 、iAMPpred 和Antimicrobial Peptides Scanner v2 。AmPEP在此基准测试中的结果来自原始文献。
所有比较均使用了来自Xiao等人的基准数据集,该数据集包含920个AMP和920个非AMP。
这些数据集之间并不重叠。然而,Macrel 使用的训练集和Xiao等人的测试集有很大的重叠。因此,在测试时,在去除相同序列后,对于任何出现在训练集中的序列,作者使用了袋外估计。此外,如下所述,作者还使用了一种方法,避免测试集和训练集中存在同源序列。
溶血肽分类器 的基准测试使用了HemoPI-1 数据集,该数据集由Chaudhary等人 建立,包含110个溶血蛋白和110个非溶血蛋白。Macrel模型的性能与使用不同算法创建的模型进行了比较,包括支持向量机(SVM)、K-近邻(IBK)、神经网络(多层感知机)、逻辑回归、决策树(J48)和随机森林(RF)。在溶血肽的基准测试中,训练集与测试集之间没有重叠。
同源性感知基准测试
使用Cd-hit (v4.8.1)对所有序列进行聚类,聚类的相似性阈值为80% identity 和90%覆盖度 。每个聚类中仅选取一个代表性序列,数据集被随机划分为训练集和测试集。测试集包含500个AMP 和500个非AMP 。训练集包含1,197个AMP,并随机选择包含不同比例非AMP的样本(1:1, 1:5, 1:10, 1:20, 1:30, 1:40, 和1:50)。
使用训练集和测试集,作者测试了四种不同的方法:同源搜索 、Macrel 、iAMP-2L 、AMP Scanner v.2 (这些工具允许用户重新训练分类器)。同源搜索使用blastp ,最大e值为1e−5,最小相似度为50%,词大小为5,查询覆盖度为90%,窗口大小为10,且启用subject besthit选项。没有同源性匹配的序列被视为误分类。
模拟数据和真实数据的基准测试
为了测试Macrel短序列管道 ,作者使用ART Illumina v2.5.8 模拟了6个宏基因组 ,每个宏基因组有3个不同的测序深度(分别为40、60和80百万条150 bp的读取),并使用了HiSeq 2500测序仪的预设错误配置文件。为了确保模拟数据的真实感,模拟的宏基因组包含了来自真实人类肠道微生物群的物种丰度估算。
作者使用Macrel处理模拟的宏基因组数据和用于构建宏基因组的分离基因组,验证是否能够提取相同的AMP候选序列,并检查宏基因组处理过程中是否引入了原基因组中不存在的假阳性序列。
用于基准测试的182个宏基因组和36个宏转录组数据集由Heintz-Buschart等人 发布,并可以从欧洲核酸档案馆 (PRJNA289586)获取。作者使用Macrel处理宏基因组的读取,并生成AMP候选序列在宏转录组中的丰度概况。结果从计数转换为每百万转录本的读取数。
假序列的检测
为了测试是否仍然出现假序列,作者使用了Spurio,并将得分大于或等于0.8的预测视为假序列。
为了识别潜在的基因片段,作者将使用Macrel预测的AMP序列通过同源搜索与NCBI非冗余数据库 进行比对。AMP预测注释通过与DRAMP数据库 进行同源比对来完成,该数据库包含约20,000个AMP。使用blastp 算法进行比对,最大e值设为1e−5,词大小为3。保留具有至少70%相似度 和95%查询覆盖度的比对结果,并根据得分、e值、相似度和覆盖度对比对结果进行排序和解析。为了检查通过Macrel管道预测的AMP是否为基因片段、专利肽或已知AMP,作者对比对结果进行了人工评估。
结果
Macrel: (Meta)基因组AMPs分类和检索
在这里,作者介绍了Macrel,这是一个简单但准确的管道,可处理基因组、宏基因组/转录组数据并预测AMP序列。作者使用标准的AMP预测基准数据以及模拟和真实的测序数据对Macrel进行了测试,结果表明,即使在大量(潜在伪造的)输入短开放阅读框(smORFs)存在的情况下,Macrel依然能输出少量高质量的候选AMP。
Macrel能够处理宏基因组数据(以短序列的形式)、(meta)基因组的contig序列或肽段。如果输入数据为短序列,Macrel会预处理并将其组装成较大的contig序列。随后,自动化基因预测提取这些contig中的短开放阅读框(smORFs),并将其分类为AMP或拒绝进一步处理。潜在的AMPs进一步被分类为溶血性或非溶血性。与其他管道不同,Macrel不仅可以量化已知序列,还能发现新的AMP。
Macrel也可以作为web服务器使用,网址为 AMP prediction using Macrel,接受肽段和contig序列输入,并检索由其自身基因编码的AMPs。
用于AMP识别的全新蛋白描述符
Macrel使用两个二分类器:一个用于预测AMP活性,另一个用于预测溶血活性(仅对潜在的AMPs适用)。这些是基于特征的分类器,使用一组22个变量来捕捉AMP的两亲性特征及其形成跨膜螺旋的倾向。
肽段序列可以通过局部特征 或全局特征来表征:局部特征依赖于氨基酸的顺序,而全局特征则不依赖于顺序。研究表明,局部特征在预测AMP活性及其靶点时更具信息量,而全局特征则在预测给定AMP的效力时更具信息量。因此,Macrel结合了两者,包括6个局部特征和16个全局特征:
- 自由能转变(FET)(3个局部特征):这是一个新设计的特征组,用于捕捉AMPs通常从极性相中的随机线圈折叠到脂质膜中的结构变化。每个氨基酸被分配到三个不同的自由能变化组中,表示从低到高的自由能变化。该特征组的三个特征分别表示每个组中第一个氨基酸的位置,并进行标准化处理。先前的研究表明,N端在确定AMP活性方面特别重要。
- 溶剂可接触性(3个局部特征):与FET特征的计算方式相同,但这里是基于氨基酸的溶剂可接触性进行分组。
- 氨基酸组成(9个全局特征):AMPs通常具有偏倚的氨基酸组成,因此作者使用氨基酸分布的比例,包括电荷、大小、极性和疏水性等分类。
- 电荷(1个全局特征):AMPs通常含有大约50%的疏水残基,其净电荷对促进肽段引起的膜破坏至关重要。
- 膜结合和在不同介质中的溶解度(6个全局特征):这些特征捕捉肽段与膜结合的倾向以及其在不同介质中的溶解度。
Macrel中使用的所有22个描述符对分类都非常重要。在溶血性肽分类器中,酸性残基的比例、电荷和等电点是最重要的变量,这些变量有助于捕捉肽段和膜之间的静电相互作用,这在溶血过程中是关键步骤。在AMP预测中,电荷、FET和溶剂可接触性的分布参数是最重要的变量。这与研究表明,阳离子肽(例如富含赖氨酸的肽)显示出更强的AMP活性相一致。
与其他工具的比较:Macrel在特异性方面优于其他工具,尽管敏感性较低
为了评估Macrel中使用的特征集和分类器在整个管道中的表现,作者对在Bhadra等(2018)训练集上建立的AMP分类器进行了基准测试,该训练集包含1个AMP和50个负例,此外还对第二个AMP分类器(称为MacrelX)进行了测试,该分类器采用与Xiao等(2013)相同的特征和方法,训练集包含770个AMP和2,405个非AMP(约为1:3的比例)。基准测试结果表明,使用更平衡数据集训练的AMP分类器在这个平衡的基准上优于大多数其他工具,其中AmPEP(Bhadra等,2018)取得了最好的结果。
在这个基准上的整体准确度方面,Macrel实现的AMP分类器与最好的方法相当,但具有不同的权衡。在特定情况下,Macrel实现了最高的精确度 和特异性,尽管牺牲了部分敏感性。虽然作者没有准确估算真实基因组(或宏基因组)中预测的smORFs中AMP的比例,但预计这个比例更接近1:50,而非1:3。因此,作者选择在真实数据中使用Macrel的高精度分类器,以尽量减少管道中的假阳性。
控制同源性时保持高特异性
虽然在上一节中使用了袋外估计来控制训练集和测试集之间的完全重叠,但由于训练和测试集之间仍包含相似序列,这导致了泛化潜力的过高估计。为了控制这一影响,Macrel和三种方法(这些方法允许原作者重训练模型)使用了一种更严格的同源性感知方案进行测试,在这种方案下,训练集和测试集之间不包含同源序列(氨基酸身份≥80%)。
正如预期的那样,在这种设定下,测得的性能有所下降,但Macrel仍然达到了完美的特异性。此外,这种特异性对训练集中AMP和非AMP比例的变化具有稳健性,超过某个阈值后。考虑到iAMP-2L模型的整体表现,未来版本的Macrel可以结合Macrel和iAMP-2L的特征。
使用blastp作为分类方法的表现与随机预测无异,这证明同源性方法在这种问题中不适用,尤其是对于非常相似的同源物种。
Macrel从基因组和宏基因组中恢复高质量的AMP候选序列
为了评估Macrel在真实数据上的表现,作者将其应用于484个之前已知在人类肠道中丰富的参考基因组。这导致预测出了171,645个(冗余的)smORFs。然而,经过冗余移除后,只有8,202个被分类为潜在的AMP。Spurio工具将其中853个(约10%)标记为可能是伪造的预测结果。
同源性搜索确认了13个AMP候选序列,它们是DRAMP数据库中的同源序列。包括来自Brevibacillus 的Laterosporulin(一种细菌素)、来自Streptococcus 的BHT-B蛋白、来自Staphylococcus的Gonococcal生长抑制因子II等其他已知的抗菌蛋白。同样,七个确认的AMP也出现在用于模型训练的数据集中。
为测试Macrel在短序列上的表现,作者模拟了由这484个参考基因组组成的宏基因组,使用三种不同的测序深度(分别为4,000万、6,000万和8,000万条150bp的读数),并根据六个真实样本的丰度配置文件进行模拟。这导致了约20,000个smORFs的预测,特别是在80百万模拟读数的情况下。尽管候选的smORF数量很大,但其中只有一小部分(0.17%到0.64%)被分类为潜在的AMP。
在模拟的宏基因组中,作者共恢复了1,376条序列,总计547个非冗余的AMP。尽管这些AMP只有44.9%的序列与之前的标准参考数据库有重叠,但它们显然具有新的抗菌特性。
通过Macrel,能以较高的信度预测与特定微生物相关的AMP候选序列,极大地减少了对生成合成肽的需求,这为研究肠道菌群与宿主健康之间的相互关系提供了强大的工具。