TRF (Tandem Repeats Finder) :DNA 串联重复序列鉴定工具
trf 4.10安装与使用-生信工具42_tandem repeat finder-CSDN博客
前言
在基因组分析中,串联重复序列(DNA 中两个或多个相邻、近似的核苷酸模式拷贝)是重要的研究对象,而Tandem Repeats Finder(TRF) 是一款专门用于定位和展示 DNA 序列中串联重复序列的经典工具,无需手动指定重复模式、模式长度等参数,分析速度快(约 0.5Mb 序列仅需数秒),可检测 1~2000bp 长度的重复模式,支持任意长度的 DNA 序列输入,是基因组学、分子生物学研究中鉴定串联重复序列的必备工具。
核心功能
-
自动识别 FASTA 格式 DNA 序列中的串联重复序列,无需预设重复模式;
-
输出重复序列表格文件 和序列比对文件,支持网页浏览器可视化;
-
提供重复序列的位置、长度、拷贝数、核苷酸组成等详细信息;
-
生成重复拷贝与共有模式的比对结果,直观展示错配、插入 / 缺失情况;
-
支持多平台编译运行(Linux、macOS、Windows(Cygwin/MinGW));
-
可通过参数调整匹配权重、错配惩罚、最小比对分数等,适配不同分析需求。
01 获取 TRF:预编译版本 / 手动编译
TRF 提供预编译可执行文件 和源码编译两种方式,预编译版本适合快速使用,源码编译适合需要自定义或适配特殊系统的场景。
1.1 直接下载预编译版本trf 4.10安装与使用-生信工具42_tandem repeat finder-CSDN博客
# 解压源码包(替换为实际下载的版本号,如4.10.0)
tar xzvf trf-4.10.0.tar.gz
cd trf-4.10.0
# 创建编译目录
mkdir build
cd build
# 配置编译环境
../configure
# 编译源码
make
# 可选:安装到系统全局(需管理员权限)
sudo make install
# 可选:将可执行文件复制到指定目录
cp src/trf 目标目录路径
从仓库克隆并编译(推荐,获取最新版本)
将上述前两行替换为以下指令,后续步骤不变:
git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
分步详细编译教程(适合新手)
- 打开终端,切换到 TRF 仓库克隆后的目录;
- 创建编译目录并进入:
mkdir build && cd build; - 配置编译环境:
../configure; - 编译源码:
make; - 可选安装:
sudo make install(全局可用),或直接从build/src目录复制可执行文件; - 编译完成后,
build/src目录下会生成可执行文件:Linux/macOS 为trf,Windows 为trf.exe; - 为兼容旧脚本,安装后会自动生成带版本和系统的符号链接(如 Linux64+4.10.0 版本为
trf4.10.0.linux64.exe)。
02 验证安装:测试 TRF 运行效果
编译 / 下载完成后,使用工具自带的测试文件test_seqs.fasta验证安装是否成功,直接运行以下指令 (确保可执行文件名为trf):
trf test_seqs.fasta 2 5 7 80 10 50 2000 -l 10
验证标准
运行成功后会生成9 个输出文件,包含 1 个汇总 html 文件和 8 个分序列的比对 / 表格文件:
test_seqs.fasta.2.5.7.80.10.50.2000.summary.html
test_seqs.fasta.s1.2.5.7.80.10.50.2000.1.html
test_seqs.fasta.s1.2.5.7.80.10.50.2000.1.txt.html
# 其余s2/s3/s4对应的html/txt.html文件省略
打开summary.html汇总文件,可看到 4 个串联重复序列的链接,点击后能查看对应的详细表格(包含重复序列位置、拷贝数、核苷酸组成等),只需确认文件生成且表格内容存在,即代表安装成功。
03 快速上手:TRF 基础运行指令
TRF 的核心运行方式为命令行调用,推荐基础指令 (直接替换yourfile.fa为你的 FASTA 格式序列文件即可):
trf yourfile.fa 2 5 7 80 10 50 2000
该指令使用 TRF 官方推荐参数,可满足绝大多数串联重复序列鉴定的基础需求,后续会详细解释每个参数的含义。
04 TRF 命令行参数全解析
运行trf无参数指令可查看完整使用语法,核心语法为:
trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]
所有权重、惩罚项和分数均为正数,必须输入至少 8 个基础参数 ,可选参数可生成额外输出文件,以下分基础参数 和可选参数详细说明。
4.1 基础参数(必选,8 个)
| 参数位置 | 参数名 | 含义 | 官方推荐值 | 补充说明 |
|---|---|---|---|---|
| 1 | File | 输入文件 | 你的 FASTA 文件 | 需为 FASTA 格式,支持单个 / 多个序列,序列大小写均可,非字母字符会被忽略 |
| 2 | Match | 匹配权重 | 2 | Smith-Waterman 局部比对的匹配得分,值越高对匹配的要求越严格 |
| 3 | Mismatch | 错配惩罚 | 7 | 错配的扣分(实际按负数计算),3 = 宽松,7 = 严格 |
| 4 | Delta | 插入 / 缺失惩罚 | 7 | 插入 / 缺失的扣分(实际按负数计算),与错配惩罚配合使用 |
| 5 | PM | 匹配概率 | 80 | 整数,代表拷贝间的平均一致性百分比,仅支持 75/80 |
| 6 | PI | 插入 / 缺失概率 | 10 | 整数,代表拷贝间的平均插入 / 缺失百分比,仅支持 10/20 |
| 7 | Minscore | 最小比对分数 | 50 | 串联重复序列的比对分数需≥该值才会被报告,分数越高筛选越严格 |
| 8 | MaxPeriod | 最大周期长度 | 2000 | 程序预测的重复模式最大长度,支持 1~2000bp,可按需缩小范围 |
基础参数关键说明
- 匹配 / 错配 / 插入缺失的权重组合:推荐
2 7 7,该组合能有效平衡灵敏度和特异性; - PM/PI 组合:推荐
80 10,分析速度最快;75 20结果相近,但处理时间约为前者的 10 倍; - Minscore 计算示例:匹配权重 = 2,最小分数 = 50 时,完美比对下至少需要 25 个匹配字符(如 5 个拷贝 ×5bp 周期)。
4.2 可选参数(按需添加)
| 参数 | 含义 | 实用场景 |
|---|---|---|
| -m | 生成屏蔽序列文件 | 将串联重复区域替换为 N,用于后续去重复分析 |
| -f | 输出重复序列侧翼序列 | 用于设计 PCR 引物(默认输出两侧各 500bp) |
| -d | 生成数据文件 | 纯文本格式,包含汇总表所有信息 + 共有模式 + 重复序列,适合 perl 等脚本后续分析 |
| -h | 抑制 HTML 输出 | 仅生成纯文本文件,自动开启 - d 参数 |
| -r | 不消除冗余 | 保留所有重复序列结果,不做冗余过滤 |
| -l <n> | 设置预期最长串联重复序列(百万 bp) | 默认 2(2Mb),设置过高可能因内存不足报错,最大测试值 29 |
| -u | 打印帮助信息 | 查看参数使用说明 |
| -v | 打印版本信息 | 确认当前 TRF 版本 |
| -ngs | 多序列文件生成紧凑.dat 输出 | 适合高通量测序数据,- 表示从管道输入,输出到标准输出,仅展示含重复序列的表头 |
4.3 推荐实用指令(含可选参数)
结合常用分析需求,推荐添加-f -d -m参数,生成侧翼序列、数据文件和屏蔽序列,满足后续引物设计、脚本分析和去重复需求:
trf yoursequence.txt 2 7 7 80 10 50 500 -f -d -m
4.4 运行提示
- 程序运行时会在终端打印更新信息,输出
Done表示分析完成; - 单序列输入:至少生成 2 个 HTML 文件(重复表 + 比对文件),重复序列 > 120 个时会生成多个关联的表格文件,表格顶部 / 底部有跳转链接;
- 多序列输入:生成 1 个
summary.html汇总文件,链接到各序列的单独结果,单独结果文件名含.sn.(n 为序列在输入文件中的索引)。
05 输入文件格式:FASTA 格式规范
TRF 仅支持FASTA 格式的 DNA 序列输入,格式要求简单,支持单个 / 多个序列,具体规范:
- 序列头行以 **>** 开头,后接序列名称 / 标识符,必须为单行;
- 后续行为核苷酸序列,大小写均可,数字、符号等非字母字符会被自动忽略;
- 多序列时,每个序列需有独立的头行,依次排列即可。
FASTA 格式示例
>myseq_01 # 序列头行
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTTCTAGCTAGC
TAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGCTTTAGCTAGCTAGCATAG
>myseq_02 # 第二个序列的头行
CATACGAGCATATCGGTAGACTGATTGGGTTTAGGTTACCGATCGATCGATGCTAGCTAG
CTGATCGATCGACGTACGTACGTAGCTAGCTGATCGA
06 输出结果解读:表格文件 + 比对文件
TRF 的核心输出为HTML 格式的表格文件 和比对文件,支持浏览器可视化,表格文件提供重复序列的核心信息,比对文件直观展示重复拷贝与共有模式的匹配情况,以下分别解读。
6.1 表格文件(*.html):重复序列核心信息
表格文件为汇总式展示,每一行代表一个鉴定到的串联重复序列,包含9 项核心信息,按列排列:
- Indices:重复序列相对于序列起始位置的坐标;
- Period Size:重复序列的周期长度(程序预测的重复模式长度);
- Copy Number:与共有模式比对的拷贝数;
- Consensus Size:共有模式的长度(可能与周期长度略有差异);
- Percent Matches:相邻拷贝间的整体匹配百分比;
- Percent Indels:相邻拷贝间的整体插入 / 缺失百分比;
- Score:比对分数(≥Minscore 才会被报告);
- A/C/G/T:四种核苷酸在重复序列中的组成百分比;
- Entropy (0-2):基于核苷酸组成的熵值(0 = 低多样性,2 = 高多样性)。
表格结果示例(test_seqs.fasta.s1 结果)
| Indices | Period Size | Copy Number | Consensus Size | Percent Matches | Percent Indels | Score | A | C | G | T | Entropy (0-2) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1--35 | 7 | 5.0 | 7 | 100 | 0 | 70 | 14 | 28 | 28 | 28 | 1.95 |
6.2 比对文件(*.txt.html):重复拷贝与共有模式的比对
比对文件直观展示重复序列的每个拷贝与共有模式的匹配情况,包含错配、插入 / 缺失的标注,核心展示规则:
- 每两行为一组:上行为实际序列,下行为所有拷贝的共有模式序列;
- 除极短模式外,每组对应一个周期长度;
- 展示重复序列前后各 10 个碱基的侧翼序列(-f 参数可扩展为 500bp);
- 符号标注:
*= 错配,-= 插入 / 缺失; - 统计信息:为相邻拷贝间的整体匹配、错配、插入 / 缺失情况,非实际序列与共有模式的比对结果;
- 额外信息:匹配碱基的距离分布、重复序列的核苷酸组成百分比、单独展示的共有模式序列;
- 若使用
-f参数,会展示重复序列两侧各 500bp 的侧翼序列。
重要注意事项
- 保存多个关联的表格文件时,使用浏览器默认文件名,否则会丢失跳转链接;
- 保存比对文件时,使用浏览器默认文件名,否则会丢失与表格文件的交叉引用。
07 TRF 核心工作原理:串联重复序列的概率模型
TRF 的核心设计基于串联重复序列的概率模型,通过伯努利试验模拟两个串联重复拷贝的比对过程,无需预设重复模式,实现自动识别,以下为模型的核心原理(保留原始设计逻辑)。
7.1 模型基础:伯努利试验模拟序列比对
对于长度为 n 的重复模式,将其两个串联拷贝的比对过程模拟为n 次独立的伯努利试验(抛硬币):
- 试验成功(正面)的概率为PM(匹配概率),代表拷贝间的平均一致性百分比,成功即表示比对的核苷酸匹配;
- 试验失败(反面)的概率为 1-PM,代表错配、插入或缺失,失败即表示比对的核苷酸存在错配 / 插入 / 缺失;
- 引入第二个概率PI(插入 / 缺失概率),指定拷贝间的平均插入 / 缺失百分比。
7.2 模型参数的意义
PM 和 PI 为保守性参数 ,作为一种极值边界 ,定量描述程序希望检测到的差异最大的拷贝(即只要拷贝间的一致性≥PM、插入 / 缺失≤PI,就会被程序识别为串联重复序列)。
常用的 PM=80、PI=10 表示:程序会检测拷贝间平均一致性≥80%、插入 / 缺失≤10% 的串联重复序列,该参数组合能平衡检测的灵敏度和特异性。
7.3 模型的实际应用
程序针对特定的(PM, PI)组合(如 80,10),分析伯努利序列的分布及其代表的比对特征,自动识别符合该概率特征的串联重复序列,实现无需预设模式的自动检测。