DupGen_finder v1.0.0安装与使用--生信工具092

DupGen_finder

目录

软件依赖安装教程输入文件准备软件运行结果文件说明参考文献引用

软件依赖 perl

安装教程

复制代码
cd ~/software  # 可自定义安装目录
git clone https://github.com/qiao-xin/DupGen_finder.git
cd DupGen_finder
make
sh add_PATH_to_bash.sh
source ~/.bashrc

验证安装:

在终端输入命令测试程序能否正常调用

复制代码
DupGen_finder.pl

正常输出程序帮助文档即安装成功。

注意DupGen_finder 内置定制版 MCScanX 算法,可输出排序后的基因位置文件(如 Ath.gff.sorted),与原版 MCScanX 软件中的算法存在小幅改动。

输入文件准备

运行 DupGen_finder 需要提前准备 outfmt6 格式 BLAST 结果、制表符分隔的基因位置 GFF 文件

以待分析物种(目标物种)区分,需准备两类文件:

  1. 目标物种自身分析文件
  • target_species.gff:目标物种基因位置文件(制表分隔,示例:Ath.gff)
  • target_species.blast:目标物种蛋白自比对 blastp 结果(outfmt 6 格式,全基因组自比对,示例:Ath.blast)
  1. 外类群物种关联文件
  • 目标物种_外类群.gff:目标 + 外类群合并基因位置文件
  • 目标物种_外类群.blast:两物种跨物种蛋白比对 blastp 结果(outfmt 6)

举例 :拟南芥 (Ath) 为目标物种、莲 (Nnu) 作为外类群,一共准备 4 个输入文件:Ath.gff、Ath.blast、Ath_Nnu.gff、Ath_Nnu.blast

1. GFF 基因位置文件格式(制表符分隔)

字段:物种缩写 - 染色体 ID|基因 ID|基因起始|基因终止示例(Ath.gff)

复制代码
Ath-Chr1	AT1G01010.1	3631	5899
Ath-Chr1	AT1G01020.1	5928	8737
Ath-Chr1	AT1G01030.1	11649	13714
Ath-Chr1	AT1G01040.2	23416	31120
Ath-Chr1	AT1G01050.1	31170	33153

合并两物种 GFF 命令

复制代码
cat Ath.gff Nnu.gff >Ath_Nnu.gff

合并后文件同时包含拟南芥、莲的基因坐标信息。

2. BLAST 结果文件(outfmt6 标准格式)

字段:查询序列 ID|比对序列 ID|相似度|比对长度|错配数|空位起始|查询起始|查询终止|模板起始|模板终止|E 值|打分示例(Ath.blast)

复制代码
ATCG00500.1	ATCG00500.1	100.00	488	0	0	1	488	1	488	0.0	 932
ATCG00510.1	ATCG00510.1	100.00	37	0	0	1	37	1	37	2e-19	73.9
生成 blast 结果两种方案
方案 1:原生 BLAST+
复制代码
# 建蛋白库
makeblastdb -in Ath.pep -dbtype prot -title Ath -parse_seqids -out Ath
# 自比对
blastp -query Ath.pep -db Ath -evalue 1e-10 -max_target_seqs 5 -outfmt 6 -out Ath.blast
方案 2:DIAMOND 加速比对
复制代码
# 建库
diamond makedb --in Ath.pep -d Ath
# 蛋白比对
diamond blastp -d Ath -q Ath.pep -o Ath.blast -p 20 --sensitive --max-target-seqs 5 --evalue 1e-10 --quiet

备注:所有输入文件必须放在同一个文件夹(-i参数指定目录)。

软件运行

查看帮助文档:

复制代码
DupGen_finder.pl

基础用法

复制代码
DupGen_finder.pl -i 数据目录 -t 目标物种缩写 -c 外类群缩写 -o 输出目录
可选参数
  • -a 1/0:串联重复区段是否为祖先位点,默认 1(是)
  • -d 数字:判定邻近复制的最大间隔基因数,默认 10
MCScanX 内嵌可调参数
  • -k:共线性区块得分阈值,默认 50
  • -g:空位罚分,默认 - 1
  • -s:构成共线性区块最少基因数,默认 5
  • -e:比对显著性 E 值阈值,默认 1e-5
  • -m:共线性允许最大空位数目,默认 25
  • -w:合并 blast 匹配的基因间隔窗口,默认 5

运行示例

复制代码
DupGen_finder.pl -i data -t Ath -c Nnu -o results

含义:以莲 (Nnu) 为外类群,解析拟南芥 (Ath) 各类复制基因,输入文件存于 data,结果输出至 results。

建议输入、输出目录填写绝对路径(如 /home/xxx/data)。

去冗余版本 DupGen_finder-unique

功能:同一基因仅归属唯一复制类型,优先级:全基因组复制 (WGD)>串联复制 (TD)>邻近复制 (PD)>转座复制 (TRD)>散在复制 (DSD)

复制代码
DupGen_finder-unique.pl -i data -t Ath -c Nnu -o results

结果文件说明

1. 五类复制基因对文件

复制代码
Ath.wgd.pairs      # WGD全基因组复制基因对
Ath.tandem.pairs   # TD串联复制基因对
Ath.proximal.pairs # PD邻近复制基因对
Ath.transposed.pairs # TRD转座复制基因对
Ath.dispersed.pairs  # DSD散在复制基因对

格式:基因 1|位置|基因 2|位置|E 值

复制代码
AT1G01010.1	Ath-Chr1:3631	AT4G01550.1	Ath-Chr4:673862	5e-52

2. Ath.singletons

物种内无同源基因的单拷贝基因列表字段:基因 ID|染色体位置

3. Ath.stats

各类复制基因对数量统计表

复制代码
Types	NO. of gene pairs
WGD-pairs	4352
TD-pairs	2063
PD-pairs	788
TRD-pairs	4447
DSD-pairs	16130

4. 共线性区块文件

  • Ath.collinearity:目标物种自身共线性区块
  • Ath_Nnu.collinearity:目标 - 外类群跨物种共线性区块

关键名词汇总

WGD:Whole-genome duplication 全基因组复制TD:Tandem duplication 串联复制PD:Proximal duplication 邻近复制TRD:Transposed duplication 转座型复制DSD:Dispersed duplication 散在复制

相关推荐
下班走回家1 小时前
AI 搜索引擎的崛起:Perplexity、GEO 与传统搜索的差异
大数据·人工智能·搜索引擎
醉颜凉1 小时前
Scala Cats Effect纯函数式并发编程:从Fiber模型到生产级应用
大数据·网络·scala
珠***格1 小时前
边缘计算——“云-边-端”协同架构解析
大数据·人工智能·分布式·架构·能源·边缘计算
陕西企来客6 小时前
企来客科技来客 GEO 优化系统深度解析:核心技术与原因分析
大数据·人工智能·科技·搜索引擎
J2虾虾10 小时前
Caddy在Arm64的Kylin Server上的部署
大数据·kylin
jiayong2311 小时前
Claude Code 快速参考卡片
大数据·elasticsearch·搜索引擎·ai·claude·claude code
标书畅畅行13 小时前
全流程企业级 AI 标书系统技术实现与工程实践
大数据·人工智能
赴山海bi13 小时前
AI驱动亚马逊电商增长:DeepBI如何重塑盈利模式
大数据·人工智能
IT231014 小时前
鼎钻抗菌不锈钢与医疗级金属装饰:医院、学校、食品车间的不锈钢选材指南
大数据·人工智能