trf v4.09.1 安装与使用--生信工具42-version2

TRF (Tandem Repeats Finder) ：DNA 串联重复序列鉴定工具

trf 4.10安装与使用-生信工具42_tandem repeat finder-CSDN博客

前言

在基因组分析中，串联重复序列（DNA 中两个或多个相邻、近似的核苷酸模式拷贝）是重要的研究对象，而Tandem Repeats Finder（TRF） 是一款专门用于定位和展示 DNA 序列中串联重复序列的经典工具，无需手动指定重复模式、模式长度等参数，分析速度快（约 0.5Mb 序列仅需数秒），可检测 1~2000bp 长度的重复模式，支持任意长度的 DNA 序列输入，是基因组学、分子生物学研究中鉴定串联重复序列的必备工具。

核心功能

自动识别 FASTA 格式 DNA 序列中的串联重复序列，无需预设重复模式；
输出重复序列表格文件 和序列比对文件，支持网页浏览器可视化；
提供重复序列的位置、长度、拷贝数、核苷酸组成等详细信息；
生成重复拷贝与共有模式的比对结果，直观展示错配、插入 / 缺失情况；
支持多平台编译运行（Linux、macOS、Windows（Cygwin/MinGW））；
可通过参数调整匹配权重、错配惩罚、最小比对分数等，适配不同分析需求。

https://github.com/Benson-Genomics-Lab/TRF #官网

01 获取 TRF：预编译版本 / 手动编译

TRF 提供预编译可执行文件 和源码编译两种方式，预编译版本适合快速使用，源码编译适合需要自定义或适配特殊系统的场景。

1.1 直接下载预编译版本trf 4.10安装与使用-生信工具42_tandem repeat finder-CSDN博客

复制代码

# 解压源码包（替换为实际下载的版本号，如4.10.0）
tar xzvf trf-4.10.0.tar.gz
cd trf-4.10.0
# 创建编译目录
mkdir build
cd build
# 配置编译环境
../configure
# 编译源码
make
# 可选：安装到系统全局（需管理员权限）
sudo make install
# 可选：将可执行文件复制到指定目录
cp src/trf 目标目录路径

从仓库克隆并编译（推荐，获取最新版本）

将上述前两行替换为以下指令，后续步骤不变：

复制代码

git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF

分步详细编译教程（适合新手）

打开终端，切换到 TRF 仓库克隆后的目录；
创建编译目录并进入：mkdir build && cd build；
配置编译环境：../configure；
编译源码：make；
可选安装：sudo make install（全局可用），或直接从build/src目录复制可执行文件；
编译完成后，build/src目录下会生成可执行文件：Linux/macOS 为trf，Windows 为trf.exe；
为兼容旧脚本，安装后会自动生成带版本和系统的符号链接（如 Linux64+4.10.0 版本为trf4.10.0.linux64.exe）。

02 验证安装：测试 TRF 运行效果

编译 / 下载完成后，使用工具自带的测试文件test_seqs.fasta验证安装是否成功，直接运行以下指令 （确保可执行文件名为trf）：

复制代码

trf test_seqs.fasta 2 5 7 80 10 50 2000 -l 10

验证标准

运行成功后会生成9 个输出文件，包含 1 个汇总 html 文件和 8 个分序列的比对 / 表格文件：

复制代码

test_seqs.fasta.2.5.7.80.10.50.2000.summary.html
test_seqs.fasta.s1.2.5.7.80.10.50.2000.1.html
test_seqs.fasta.s1.2.5.7.80.10.50.2000.1.txt.html
# 其余s2/s3/s4对应的html/txt.html文件省略

打开summary.html汇总文件，可看到 4 个串联重复序列的链接，点击后能查看对应的详细表格（包含重复序列位置、拷贝数、核苷酸组成等），只需确认文件生成且表格内容存在，即代表安装成功。

03 快速上手：TRF 基础运行指令

TRF 的核心运行方式为命令行调用，推荐基础指令 （直接替换yourfile.fa为你的 FASTA 格式序列文件即可）：

复制代码

trf yourfile.fa 2 5 7 80 10 50 2000

该指令使用 TRF 官方推荐参数，可满足绝大多数串联重复序列鉴定的基础需求，后续会详细解释每个参数的含义。

04 TRF 命令行参数全解析

运行trf无参数指令可查看完整使用语法，核心语法为：

复制代码

trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]

所有权重、惩罚项和分数均为正数，必须输入至少 8 个基础参数 ，可选参数可生成额外输出文件，以下分基础参数 和可选参数详细说明。

4.1 基础参数（必选，8 个）

参数位置	参数名	含义	官方推荐值	补充说明
1	File	输入文件	你的 FASTA 文件	需为 FASTA 格式，支持单个 / 多个序列，序列大小写均可，非字母字符会被忽略
2	Match	匹配权重	2	Smith-Waterman 局部比对的匹配得分，值越高对匹配的要求越严格
3	Mismatch	错配惩罚	7	错配的扣分（实际按负数计算），3 = 宽松，7 = 严格
4	Delta	插入 / 缺失惩罚	7	插入 / 缺失的扣分（实际按负数计算），与错配惩罚配合使用
5	PM	匹配概率	80	整数，代表拷贝间的平均一致性百分比，仅支持 75/80
6	PI	插入 / 缺失概率	10	整数，代表拷贝间的平均插入 / 缺失百分比，仅支持 10/20
7	Minscore	最小比对分数	50	串联重复序列的比对分数需≥该值才会被报告，分数越高筛选越严格
8	MaxPeriod	最大周期长度	2000	程序预测的重复模式最大长度，支持 1~2000bp，可按需缩小范围

基础参数关键说明

匹配 / 错配 / 插入缺失的权重组合：推荐2 7 7，该组合能有效平衡灵敏度和特异性；
PM/PI 组合：推荐80 10，分析速度最快；75 20结果相近，但处理时间约为前者的 10 倍；
Minscore 计算示例：匹配权重 = 2，最小分数 = 50 时，完美比对下至少需要 25 个匹配字符（如 5 个拷贝 ×5bp 周期）。

4.2 可选参数（按需添加）

参数	含义	实用场景
-m	生成屏蔽序列文件	将串联重复区域替换为 N，用于后续去重复分析
-f	输出重复序列侧翼序列	用于设计 PCR 引物（默认输出两侧各 500bp）
-d	生成数据文件	纯文本格式，包含汇总表所有信息 + 共有模式 + 重复序列，适合 perl 等脚本后续分析
-h	抑制 HTML 输出	仅生成纯文本文件，自动开启 - d 参数
-r	不消除冗余	保留所有重复序列结果，不做冗余过滤
-l <n>	设置预期最长串联重复序列（百万 bp）	默认 2（2Mb），设置过高可能因内存不足报错，最大测试值 29
-u	打印帮助信息	查看参数使用说明
-v	打印版本信息	确认当前 TRF 版本
-ngs	多序列文件生成紧凑.dat 输出	适合高通量测序数据，- 表示从管道输入，输出到标准输出，仅展示含重复序列的表头

4.3 推荐实用指令（含可选参数）

结合常用分析需求，推荐添加-f -d -m参数，生成侧翼序列、数据文件和屏蔽序列，满足后续引物设计、脚本分析和去重复需求：

复制代码

trf yoursequence.txt 2 7 7 80 10 50 500 -f -d -m

4.4 运行提示

程序运行时会在终端打印更新信息，输出Done表示分析完成；
单序列输入：至少生成 2 个 HTML 文件（重复表 + 比对文件），重复序列 > 120 个时会生成多个关联的表格文件，表格顶部 / 底部有跳转链接；
多序列输入：生成 1 个summary.html汇总文件，链接到各序列的单独结果，单独结果文件名含.sn.（n 为序列在输入文件中的索引）。

05 输入文件格式：FASTA 格式规范

TRF 仅支持FASTA 格式的 DNA 序列输入，格式要求简单，支持单个 / 多个序列，具体规范：

序列头行以 **>** 开头，后接序列名称 / 标识符，必须为单行；
后续行为核苷酸序列，大小写均可，数字、符号等非字母字符会被自动忽略；
多序列时，每个序列需有独立的头行，依次排列即可。

FASTA 格式示例

复制代码

>myseq_01  # 序列头行
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTTCTAGCTAGC
TAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGCTTTAGCTAGCTAGCATAG
>myseq_02  # 第二个序列的头行
CATACGAGCATATCGGTAGACTGATTGGGTTTAGGTTACCGATCGATCGATGCTAGCTAG
CTGATCGATCGACGTACGTACGTAGCTAGCTGATCGA

06 输出结果解读：表格文件 + 比对文件

TRF 的核心输出为HTML 格式的表格文件 和比对文件，支持浏览器可视化，表格文件提供重复序列的核心信息，比对文件直观展示重复拷贝与共有模式的匹配情况，以下分别解读。

6.1 表格文件（*.html）：重复序列核心信息

表格文件为汇总式展示，每一行代表一个鉴定到的串联重复序列，包含9 项核心信息，按列排列：

Indices：重复序列相对于序列起始位置的坐标；
Period Size：重复序列的周期长度（程序预测的重复模式长度）；
Copy Number：与共有模式比对的拷贝数；
Consensus Size：共有模式的长度（可能与周期长度略有差异）；
Percent Matches：相邻拷贝间的整体匹配百分比；
Percent Indels：相邻拷贝间的整体插入 / 缺失百分比；
Score：比对分数（≥Minscore 才会被报告）；
A/C/G/T：四种核苷酸在重复序列中的组成百分比；
Entropy (0-2)：基于核苷酸组成的熵值（0 = 低多样性，2 = 高多样性）。

表格结果示例（test_seqs.fasta.s1 结果）

Indices	Period Size	Copy Number	Consensus Size	Percent Matches	Percent Indels	Score	A	C	G	T	Entropy (0-2)
1--35	7	5.0	7	100	0	70	14	28	28	28	1.95

6.2 比对文件（*.txt.html）：重复拷贝与共有模式的比对

比对文件直观展示重复序列的每个拷贝与共有模式的匹配情况，包含错配、插入 / 缺失的标注，核心展示规则：

每两行为一组：上行为实际序列，下行为所有拷贝的共有模式序列；
除极短模式外，每组对应一个周期长度；
展示重复序列前后各 10 个碱基的侧翼序列（-f 参数可扩展为 500bp）；
符号标注：*= 错配，-= 插入 / 缺失；
统计信息：为相邻拷贝间的整体匹配、错配、插入 / 缺失情况，非实际序列与共有模式的比对结果；
额外信息：匹配碱基的距离分布、重复序列的核苷酸组成百分比、单独展示的共有模式序列；
若使用-f参数，会展示重复序列两侧各 500bp 的侧翼序列。

重要注意事项

保存多个关联的表格文件时，使用浏览器默认文件名，否则会丢失跳转链接；
保存比对文件时，使用浏览器默认文件名，否则会丢失与表格文件的交叉引用。

07 TRF 核心工作原理：串联重复序列的概率模型

TRF 的核心设计基于串联重复序列的概率模型，通过伯努利试验模拟两个串联重复拷贝的比对过程，无需预设重复模式，实现自动识别，以下为模型的核心原理（保留原始设计逻辑）。

7.1 模型基础：伯努利试验模拟序列比对

对于长度为 n 的重复模式，将其两个串联拷贝的比对过程模拟为n 次独立的伯努利试验（抛硬币）：

试验成功（正面）的概率为PM（匹配概率），代表拷贝间的平均一致性百分比，成功即表示比对的核苷酸匹配；
试验失败（反面）的概率为 1-PM，代表错配、插入或缺失，失败即表示比对的核苷酸存在错配 / 插入 / 缺失；
引入第二个概率PI（插入 / 缺失概率），指定拷贝间的平均插入 / 缺失百分比。

7.2 模型参数的意义

PM 和 PI 为保守性参数 ，作为一种极值边界 ，定量描述程序希望检测到的差异最大的拷贝（即只要拷贝间的一致性≥PM、插入 / 缺失≤PI，就会被程序识别为串联重复序列）。

常用的 PM=80、PI=10 表示：程序会检测拷贝间平均一致性≥80%、插入 / 缺失≤10% 的串联重复序列，该参数组合能平衡检测的灵敏度和特异性。

7.3 模型的实际应用

程序针对特定的（PM, PI）组合（如 80,10），分析伯努利序列的分布及其代表的比对特征，自动识别符合该概率特征的串联重复序列，实现无需预设模式的自动检测。