上次我们用了karken2和bracken进行了物种分类,这次我们使用centrifuge.
Centrifuge 是一种用于快速和准确进行微生物分类和物种鉴定的软件。其主要功能包括:
-
快速分类和物种鉴定: Centrifuge 可以对高通量测序数据(如 metagenomic 或 RNA-Seq 数据)进行快速的微生物分类和物种鉴定。通过比对序列数据与已知的参考数据库,Centrifuge可以快速而准确地确定每个序列的来源微生物学分类。
-
精确性: Centrifuge 使用了一种快速的压缩算法来加速分类过程,同时不牺牲准确性。它能够在短时间内处理大规模的测序数据,并提供高质量的分类结果。
-
多样性分析: 除了物种鉴定外,Centrifuge 还可以提供关于微生物群落多样性和组成的相关信息。这对于研究微生物群落结构、功能和生态学角度的应用非常有用。
-
支持不同类型的测序数据: Centrifuge 不仅适用于 metagenomic 数据,也可以用于其他类型的测序数据,例如 RNA-Seq 数据,从而帮助研究人员更全面地理解微生物组成和功能。
-
centrifuge是一种非常快速且省内存的软件,用于对微生物样本中的DNA序列进行分类,具有比其他领先系统更好的灵敏度和可比的准确性。该系统使用了一种基于Burrows-Wheeler变换(BWT)和Ferragina Manzini(FM)索引的新索引方案,专门针对宏基因组分类问题进行了优化。centrifuge需要相对较小的索引(例如,约4100个细菌基因组需要4.3GB),但分类速度非常快,可以在一小时内处理典型的DNA测序。
#安装centrifuge,有两种安装方法
第一种,conda 安装
conda create -n centrifuge python=3.6
conda activate centrifuge
下载软件
mamba install -y centrifuge
第二种方法登录 Centrifuge (jhu.edu) 官网,选择满足自己需求的版本,解压缩,添加环境目录到~/.bashrc,再source ~/.bashrc,激活一下。
我选择的是centrifuge-1.0.3-beta-Linux_x86_64版本。
接下来就是下载数据库,还是刚才的官网。
1.h+v+c:人类基因组和病毒基因组,包括106个SARS-CoV-2完整基因组(下载链接)
2.h+p+v+c:人类基因组、原核基因组和病毒基因组,包括106个SARS-CoV-2完整基因组(下载链接)
3.其他索引,包括nt索引,也可在Genexa获得(注:索引包括一个参考SARS-CoV-2基因组)。
我下载了HPVC,解压缩之后,
#(centrifuge) guozihan@PC:/mnt/h/db/centrifuge$ ls
hpvc.1.cf hpvc.2.cf hpvc.3.cf hpvc.4.cf hpvc.tar.gz
#跑流程,下面是centrifuge的基础用法。双端数据。
centrifuge -x <index> -1 <reads1.fastq> -2 <reads2.fastq> -S <output_file>
以下是基因组Centrifuge软件中常见的参数及其作用:
-
-x, --index:指定要使用的索引文件,该索引文件包含了对应基因组序列的信息,用于比对和分类DNA测序数据。
-
-U, --reads:指定输入的DNA测序数据文件,用于进行分类和注释分析。
-
-S, --report-file:指定结果输出文件,将分类和注释结果输出到指定文件中,以便后续分析和查看。
-
-p, --threads:指定使用的线程数,加快计算速度,特别是对于大规模DNA测序数据的处理更为重要。
-
-k, --keep-tmpfiles:保留临时文件,有助于调试和分析过程中可能出现的问题。
-
-m, --min-hitlen:设置最小命中长度,用于过滤较短的比对结果,提高分析的准确性。
-
-t, --taxid-map:提供一个taxid映射文件,用于将分类结果映射到相应的分类单元(如物种、门、纲等)。
除此之外,还有很多可选参数,大家可以看技术文档。
每个软件都有自己的特长和短板,很多时候要比对结果,选择合适的软件。