DupGen_finder
目录
软件依赖安装教程输入文件准备软件运行结果文件说明参考文献引用
软件依赖 perl
安装教程
cd ~/software # 可自定义安装目录
git clone https://github.com/qiao-xin/DupGen_finder.git
cd DupGen_finder
make
sh add_PATH_to_bash.sh
source ~/.bashrc
验证安装:
在终端输入命令测试程序能否正常调用
DupGen_finder.pl
正常输出程序帮助文档即安装成功。
注意DupGen_finder 内置定制版 MCScanX 算法,可输出排序后的基因位置文件(如 Ath.gff.sorted),与原版 MCScanX 软件中的算法存在小幅改动。
输入文件准备
运行 DupGen_finder 需要提前准备 outfmt6 格式 BLAST 结果、制表符分隔的基因位置 GFF 文件。
以待分析物种(目标物种)区分,需准备两类文件:
- 目标物种自身分析文件
- target_species.gff:目标物种基因位置文件(制表分隔,示例:Ath.gff)
- target_species.blast:目标物种蛋白自比对 blastp 结果(outfmt 6 格式,全基因组自比对,示例:Ath.blast)
- 外类群物种关联文件
- 目标物种_外类群.gff:目标 + 外类群合并基因位置文件
- 目标物种_外类群.blast:两物种跨物种蛋白比对 blastp 结果(outfmt 6)
举例 :拟南芥 (Ath) 为目标物种、莲 (Nnu) 作为外类群,一共准备 4 个输入文件:Ath.gff、Ath.blast、Ath_Nnu.gff、Ath_Nnu.blast
1. GFF 基因位置文件格式(制表符分隔)
字段:物种缩写 - 染色体 ID|基因 ID|基因起始|基因终止示例(Ath.gff)
Ath-Chr1 AT1G01010.1 3631 5899
Ath-Chr1 AT1G01020.1 5928 8737
Ath-Chr1 AT1G01030.1 11649 13714
Ath-Chr1 AT1G01040.2 23416 31120
Ath-Chr1 AT1G01050.1 31170 33153
合并两物种 GFF 命令:
cat Ath.gff Nnu.gff >Ath_Nnu.gff
合并后文件同时包含拟南芥、莲的基因坐标信息。
2. BLAST 结果文件(outfmt6 标准格式)
字段:查询序列 ID|比对序列 ID|相似度|比对长度|错配数|空位起始|查询起始|查询终止|模板起始|模板终止|E 值|打分示例(Ath.blast)
ATCG00500.1 ATCG00500.1 100.00 488 0 0 1 488 1 488 0.0 932
ATCG00510.1 ATCG00510.1 100.00 37 0 0 1 37 1 37 2e-19 73.9
生成 blast 结果两种方案
方案 1:原生 BLAST+
# 建蛋白库
makeblastdb -in Ath.pep -dbtype prot -title Ath -parse_seqids -out Ath
# 自比对
blastp -query Ath.pep -db Ath -evalue 1e-10 -max_target_seqs 5 -outfmt 6 -out Ath.blast
方案 2:DIAMOND 加速比对
# 建库
diamond makedb --in Ath.pep -d Ath
# 蛋白比对
diamond blastp -d Ath -q Ath.pep -o Ath.blast -p 20 --sensitive --max-target-seqs 5 --evalue 1e-10 --quiet
备注:所有输入文件必须放在同一个文件夹(
-i参数指定目录)。
软件运行
查看帮助文档:
DupGen_finder.pl
基础用法
DupGen_finder.pl -i 数据目录 -t 目标物种缩写 -c 外类群缩写 -o 输出目录
可选参数
-a 1/0:串联重复区段是否为祖先位点,默认 1(是)-d 数字:判定邻近复制的最大间隔基因数,默认 10
MCScanX 内嵌可调参数
-k:共线性区块得分阈值,默认 50-g:空位罚分,默认 - 1-s:构成共线性区块最少基因数,默认 5-e:比对显著性 E 值阈值,默认 1e-5-m:共线性允许最大空位数目,默认 25-w:合并 blast 匹配的基因间隔窗口,默认 5
运行示例
DupGen_finder.pl -i data -t Ath -c Nnu -o results
含义:以莲 (Nnu) 为外类群,解析拟南芥 (Ath) 各类复制基因,输入文件存于 data,结果输出至 results。
建议输入、输出目录填写绝对路径(如 /home/xxx/data)。
去冗余版本 DupGen_finder-unique
功能:同一基因仅归属唯一复制类型,优先级:全基因组复制 (WGD)>串联复制 (TD)>邻近复制 (PD)>转座复制 (TRD)>散在复制 (DSD)
DupGen_finder-unique.pl -i data -t Ath -c Nnu -o results
结果文件说明
1. 五类复制基因对文件
Ath.wgd.pairs # WGD全基因组复制基因对
Ath.tandem.pairs # TD串联复制基因对
Ath.proximal.pairs # PD邻近复制基因对
Ath.transposed.pairs # TRD转座复制基因对
Ath.dispersed.pairs # DSD散在复制基因对
格式:基因 1|位置|基因 2|位置|E 值
AT1G01010.1 Ath-Chr1:3631 AT4G01550.1 Ath-Chr4:673862 5e-52
2. Ath.singletons
物种内无同源基因的单拷贝基因列表字段:基因 ID|染色体位置
3. Ath.stats
各类复制基因对数量统计表
Types NO. of gene pairs
WGD-pairs 4352
TD-pairs 2063
PD-pairs 788
TRD-pairs 4447
DSD-pairs 16130
4. 共线性区块文件
- Ath.collinearity:目标物种自身共线性区块
- Ath_Nnu.collinearity:目标 - 外类群跨物种共线性区块
关键名词汇总
WGD:Whole-genome duplication 全基因组复制TD:Tandem duplication 串联复制PD:Proximal duplication 邻近复制TRD:Transposed duplication 转座型复制DSD:Dispersed duplication 散在复制