RepeatMasker-4.2.4 安装与使用--bioinformatics tools094

RepeatModeler 2.0.7 安装与使用--生信工具75-CSDN博客

运行环境与安装说明

bash 复制代码
https://www.repeatmasker.org/RepeatMasker/   #官网

前置依赖

  1. 类 Unix 系统,且已安装 Perl 5.8.0 及以上版本
  2. Python 3h5py 库 安装教程参考:https://docs.h5py.org/en/latest/build.html

序列检索引擎

RepeatMasker 依靠序列检索引擎完成重复序列检索,目前支持 Cross_Match、RMBlast、WUBlast/ABBlast,需自行下载并安装其中任意一款:

  • Cross_Match :隶属于 Phrap 软件包,前往 http://www.phrap.org 下载,选择 Phred/Phrap/Consed 套件即可。
  • RMBlast :专为 RepeatMasker/RepeatModeler 改造的 NCBI Blast 版本,下载地址:http://www.repeatmasker.org/rmblast建议使用 2.13.0 及以上版本
  • HMMER :请在此处下载 3.2.1 版本:http://hmmer.org/
  • ABBlast/WUBlast :WU-BLAST(BLAST 2.0)相关权益由 Advanced Biocomputing 公司持有,授权及下载见:http://blast.advbiocomp.com/licensing/。RepeatMasker 3.2.8 及以上版本可完全兼容该两款工具。

串联重复序列查找工具(TRF)

全称为 Tandem Repeat Finder(作者 G. Benson 等)。 免费下载地址:http://tandem.bu.edu/trf/trf.htmlhttps://github.com/Benson-Genomics-Lab/TRF。 本软件基于 TRF 4.0.9 版本开发调试。

重复序列数据库(FamDB)

RepeatMasker 支持自定义序列库,也可直接搭配 Dfam 数据库使用。Dfam 是收录转座子(TE)隐马尔可夫模型与一致序列的开源数据库。

当前版本 RepeatMasker 未附带转座子数据库,你可通过 FamDB 工具下载 FamDB H5 格式 的 Dfam 数据库,工具地址:https://github.com/Dfam-consortium/FamDB。 此外,也可下载 RepBase 专用版数据库,并与 Dfam 联合使用。RepBase RepeatMasker 数据库获取地址:http://www.girinst.org

复制代码
https://github.com/Dfam-consortium/FamDB/archive/refs/tags/3.0.0.tar.gz

安装步骤

01 下载安装包

  • 最新版(2026-06-05):RepeatMasker-4.2.4.tar.gz
  • 历史稳定版(2025-12-17):RepeatMasker-4.2.3.tar.gz

02 解压安装包

可将压缩包解压至个人家目录,或系统共享目录(如 /usr/local/)。请勿解压到已存在同名 RepeatMasker 文件夹下,避免文件被覆盖。 示例命令:

复制代码
cp RepeatMasker-open-4-#-#.tar.gz /usr/local
cd /usr/local
gunzip RepeatMasker-open-4-#-#.tar.gz
tar xvf RepeatMasker-open-4-#-#.tar

03 安装重复序列库

当前软件包未内置数据库。你可直接使用自定义库(运行时添加参数 -lib mylib.fa);也建议安装 FamDB 工具,用于下载和管理 Dfam 转座子库(推荐方案)。

FamDB 为配套 Dfam 与 RepeatMasker 的辅助工具(非必需,但强烈推荐),安装及数据库下载流程如下:

复制代码
# 安装依赖
pip3 install --user h5py
# 下载 FamDB 安装包(将 #.#.# 替换为实际版本号)
wget https://github.com/Dfam-consortium/FamDB/archive/refs/tags/#.#.#.tar.gz
tar zxvf #.#.#.tar.gz
cd FamDB-#.#.#
# 自动下载 Dfam 数据库
python3 utils/download_dfam.py
bash 复制代码
https://github.com/Dfam-consortium/FamDB/releases
bash 复制代码
https://www.dfam.org/releases/Dfam_3.9/families/FamDB/   #官网

04 执行配置脚本

软件首次使用前需完成初始化配置:

复制代码
cd /usr/local/RepeatMasker
perl ./configure
bash 复制代码
perl ./configure


 -- Setting perl interpreter...
RepeatMasker Configuration Program


Checking for libraries...

 - Found a FamDB root partition

<PRESS ENTER TO CONTINUE>




The full path including the name for the TRF program.
TRF_PRGM [/mnt/data/home/tycloud/anaconda3/envs/jiegou2/bin/trf]: 



Add a Search Engine:
   1. Crossmatch: [ Un-configured ]
   2. RMBlast: [ Un-configured ]
   3. HMMER3.1 & DFAM: [ Un-configured ]
   4. ABBlast: [ Un-configured ]

   5. Done


Enter Selection: 2




The path to the installation of the RMBLAST sequence alignment program.
RMBLAST_DIR [/mnt/data/home/tycloud/anaconda3/envs/jiegou2/bin]: 



Add a Search Engine:
   1. Crossmatch: [ Un-configured ]
   2. RMBlast: [ Configured, Default ]
   3. HMMER3.1 & DFAM: [ Un-configured ]
   4. ABBlast: [ Un-configured ]

   5. Done


Enter Selection: 3




The path to the HMMER profile HMM search software.
HMMER_DIR [/mnt/data/home/tycloud/anaconda3/envs/jiegou2/bin]: 



Do you want HMMER3.1 & DFAM to be your default
search engine for Repeatmasker? (Y/N)  [ Y ]: n



Add a Search Engine:
   1. Crossmatch: [ Un-configured ]
   2. RMBlast: [ Configured, Default ]
   3. HMMER3.1 & DFAM: [ Configured ]
   4. ABBlast: [ Un-configured ]

   5. Done


Enter Selection: 5
Building FASTA version of RepeatMasker.lib .....
Building RMBlast frozen libraries..
The program is installed with a the following repeat libraries:

FamDB Directory     : /mnt/data/home/tycloud/anaconda3/envs/jiegou2/share/RepeatMasker/Libraries/famdb
FamDB Format Version: 2.0.0
FamDB Creation Date : 2025-03-07 11:31:57.201792

Database: Dfam
Version : 3.9
Date    : 2025-03-10

Dfam - A database of transposable element (TE) sequence alignments and HMMs.

3 Partitions Present
Total consensus sequences present: 320994
Total HMMs present               : 320880


Partition Details
-----------------
 Partition 0 [dfam3.9.0.h5]: root 
     Consensi: 237, HMMs: 199

 Partition 1 [ Absent ]: Brachycera 

 Partition 2 [ Absent ]: Archelosauria 

 Partition 3 [ Absent ]: Hymenoptera 

 Partition 4 [ Absent ]: Otomorpha 

 Partition 5 [dfam3.9.5.h5]: rosids 
     Consensi: 166018, HMMs: 165980

 Partition 6 [dfam3.9.6.h5]: Viridiplantae - Saxifragales, asterids, Proteales, Nymphaeales, Amborellales, Caryophyllales, Ranunculales, Mesostigmatophyceae, Chlorokybophyceae, Charophyceae, Lycopodiopsida, Chlorophyta, Liliopsida, Polypodiopsida, Marchantiophyta, Acrogymnospermae, Bryophyta
     Consensi: 154739, HMMs: 154701

 Partition 7 [ Absent ]: Mammalia 

 Partition 8 [ Absent ]: Noctuoidea 

 Partition 9 [ Absent ]: Obtectomera - Bombycoidea, Papilionoidea, Pyraloidea, Hesperioidea, Geometroidea, Drepanoidea, Pterophoroidea

 Partition 10 [ Absent ]: Eupercaria 

 Partition 11 [ Absent ]: Ctenosquamata - Ovalentaria, Myctophata, Lampridacea, Carangaria, Holocentrimorphaceae, Batrachoidaria, Anabantaria, Paracanthopterygii, Ophidiaria, Gobiaria, Syngnathiaria, Pelagiaria

 Partition 12 [ Absent ]: Vertebrata <vertebrates> - Chondrichthyes, Lepidosauria, Protacanthopterygii, Coelacanthimorpha, Amphibia, Cladistia, Holostei, Cyclostomata <vertebrates>, Osteoglossocephala, Stomiati, Dipnomorpha, Elopocephalai, Chondrostei

 Partition 13 [ Absent ]: Coleoptera 

 Partition 14 [ Absent ]: Endopterygota - Gelechioidea, Yponomeutoidea, Incurvarioidea, Tineoidea, Apoditrysia, Nematocera, Strepsiptera, Neuropterida, Siphonaptera, Trichoptera

 Partition 15 [ Absent ]: Protostomia - Nematoda, Chelicerata, Collembola, Polyneoptera, Monocondylia, Palaeoptera, Crustacea, Paraneoptera, Myriapoda, Scalidophora, Spiralia

 Partition 16 [ Absent ]: Riboviria - Fungi, Cnidaria, Discoba, Sar, Amoebozoa, Metamonada, Filasterea, Polydnaviriformidae, Rotosphaerida, Cryptophyceae, Hemichordata, unclassified viruses, Choanoflagellata, Ichthyosporea, Rhodophyta, Tunicata, Cephalochordata, Ctenophora <comb jellies>, Placozoa, Apusozoa, Porifera, Haptista, Naldaviricetes, Bacteria <bacteria>, Echinodermata, Varidnaviria, Riboviria


Further documentation on the program may be found here:
  /mnt/data/home/tycloud/anaconda3/envs/jiegou2/share/RepeatMasker/repeatmasker.help
相关推荐
知识分享小能手1 小时前
Hadoop学习教程,从入门到精通, Hadoop 3.x 高可用集群 — 知识点详解(6)
大数据·hadoop·学习
heart_66621 小时前
AMD平台实战:ModelScope 一键微调 Gemma 4 情绪分类实战
大数据·人工智能·datawhale·amdev
Agilex松灵机器人1 小时前
万小时数据落地!松灵机器人构建具身智能数据新基建
大数据·人工智能·机器人·具身智能·松灵机器人
大大大大晴天️2 小时前
Flink Resource Providers 深度解析:机制原理、部署模式与最佳实践
大数据·flink
听你说3211 小时前
科技护航极限征程 三诺生物助力雄关330长城越野赛
大数据·科技·健康医疗
电商API_1800790524711 小时前
bilibili关键字搜索视频列表|获取视频详情API调用示例
大数据·数据挖掘·网络爬虫·音视频
数智顾问14 小时前
(151页PPT)XX集团信息化整体架构规划及ERP方案建议书(附下载方式)
大数据·架构
天行健,君子而铎14 小时前
2026年通用行业数据分类分级产品排名——聚焦成本低、全链路覆盖与高性能计算的优质选型
大数据·数据库·人工智能
财经资讯数据_灵砚智能15 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能