trf v4.09.1 安装与使用--生信工具42-version2

TRF (Tandem Repeats Finder) :DNA 串联重复序列鉴定工具

trf 4.10安装与使用-生信工具42_tandem repeat finder-CSDN博客

前言

在基因组分析中,串联重复序列(DNA 中两个或多个相邻、近似的核苷酸模式拷贝)是重要的研究对象,而Tandem Repeats Finder(TRF) 是一款专门用于定位和展示 DNA 序列中串联重复序列的经典工具,无需手动指定重复模式、模式长度等参数,分析速度快(约 0.5Mb 序列仅需数秒),可检测 1~2000bp 长度的重复模式,支持任意长度的 DNA 序列输入,是基因组学、分子生物学研究中鉴定串联重复序列的必备工具。

核心功能

  1. 自动识别 FASTA 格式 DNA 序列中的串联重复序列,无需预设重复模式;

  2. 输出重复序列表格文件序列比对文件,支持网页浏览器可视化;

  3. 提供重复序列的位置、长度、拷贝数、核苷酸组成等详细信息;

  4. 生成重复拷贝与共有模式的比对结果,直观展示错配、插入 / 缺失情况;

  5. 支持多平台编译运行(Linux、macOS、Windows(Cygwin/MinGW));

  6. 可通过参数调整匹配权重、错配惩罚、最小比对分数等,适配不同分析需求。

    https://github.com/Benson-Genomics-Lab/TRF #官网

01 获取 TRF:预编译版本 / 手动编译

TRF 提供预编译可执行文件源码编译两种方式,预编译版本适合快速使用,源码编译适合需要自定义或适配特殊系统的场景。

1.1 直接下载预编译版本trf 4.10安装与使用-生信工具42_tandem repeat finder-CSDN博客

复制代码
# 解压源码包(替换为实际下载的版本号,如4.10.0)
tar xzvf trf-4.10.0.tar.gz
cd trf-4.10.0
# 创建编译目录
mkdir build
cd build
# 配置编译环境
../configure
# 编译源码
make
# 可选:安装到系统全局(需管理员权限)
sudo make install
# 可选:将可执行文件复制到指定目录
cp src/trf 目标目录路径
从仓库克隆并编译(推荐,获取最新版本)

将上述前两行替换为以下指令,后续步骤不变:

复制代码
git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
分步详细编译教程(适合新手)
  1. 打开终端,切换到 TRF 仓库克隆后的目录;
  2. 创建编译目录并进入:mkdir build && cd build
  3. 配置编译环境:../configure
  4. 编译源码:make
  5. 可选安装:sudo make install(全局可用),或直接从build/src目录复制可执行文件;
  6. 编译完成后,build/src目录下会生成可执行文件:Linux/macOS 为trf,Windows 为trf.exe
  7. 为兼容旧脚本,安装后会自动生成带版本和系统的符号链接(如 Linux64+4.10.0 版本为trf4.10.0.linux64.exe)。

02 验证安装:测试 TRF 运行效果

编译 / 下载完成后,使用工具自带的测试文件test_seqs.fasta验证安装是否成功,直接运行以下指令 (确保可执行文件名为trf):

复制代码
trf test_seqs.fasta 2 5 7 80 10 50 2000 -l 10

验证标准

运行成功后会生成9 个输出文件,包含 1 个汇总 html 文件和 8 个分序列的比对 / 表格文件:

复制代码
test_seqs.fasta.2.5.7.80.10.50.2000.summary.html
test_seqs.fasta.s1.2.5.7.80.10.50.2000.1.html
test_seqs.fasta.s1.2.5.7.80.10.50.2000.1.txt.html
# 其余s2/s3/s4对应的html/txt.html文件省略

打开summary.html汇总文件,可看到 4 个串联重复序列的链接,点击后能查看对应的详细表格(包含重复序列位置、拷贝数、核苷酸组成等),只需确认文件生成且表格内容存在,即代表安装成功。

03 快速上手:TRF 基础运行指令

TRF 的核心运行方式为命令行调用,推荐基础指令 (直接替换yourfile.fa为你的 FASTA 格式序列文件即可):

复制代码
trf yourfile.fa 2 5 7 80 10 50 2000

该指令使用 TRF 官方推荐参数,可满足绝大多数串联重复序列鉴定的基础需求,后续会详细解释每个参数的含义。

04 TRF 命令行参数全解析

运行trf无参数指令可查看完整使用语法,核心语法为:

复制代码
trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]

所有权重、惩罚项和分数均为正数,必须输入至少 8 个基础参数 ,可选参数可生成额外输出文件,以下分基础参数可选参数详细说明。

4.1 基础参数(必选,8 个)

参数位置 参数名 含义 官方推荐值 补充说明
1 File 输入文件 你的 FASTA 文件 需为 FASTA 格式,支持单个 / 多个序列,序列大小写均可,非字母字符会被忽略
2 Match 匹配权重 2 Smith-Waterman 局部比对的匹配得分,值越高对匹配的要求越严格
3 Mismatch 错配惩罚 7 错配的扣分(实际按负数计算),3 = 宽松,7 = 严格
4 Delta 插入 / 缺失惩罚 7 插入 / 缺失的扣分(实际按负数计算),与错配惩罚配合使用
5 PM 匹配概率 80 整数,代表拷贝间的平均一致性百分比,仅支持 75/80
6 PI 插入 / 缺失概率 10 整数,代表拷贝间的平均插入 / 缺失百分比,仅支持 10/20
7 Minscore 最小比对分数 50 串联重复序列的比对分数需≥该值才会被报告,分数越高筛选越严格
8 MaxPeriod 最大周期长度 2000 程序预测的重复模式最大长度,支持 1~2000bp,可按需缩小范围
基础参数关键说明
  1. 匹配 / 错配 / 插入缺失的权重组合:推荐2 7 7,该组合能有效平衡灵敏度和特异性;
  2. PM/PI 组合:推荐80 10,分析速度最快;75 20结果相近,但处理时间约为前者的 10 倍;
  3. Minscore 计算示例:匹配权重 = 2,最小分数 = 50 时,完美比对下至少需要 25 个匹配字符(如 5 个拷贝 ×5bp 周期)。

4.2 可选参数(按需添加)

参数 含义 实用场景
-m 生成屏蔽序列文件 将串联重复区域替换为 N,用于后续去重复分析
-f 输出重复序列侧翼序列 用于设计 PCR 引物(默认输出两侧各 500bp)
-d 生成数据文件 纯文本格式,包含汇总表所有信息 + 共有模式 + 重复序列,适合 perl 等脚本后续分析
-h 抑制 HTML 输出 仅生成纯文本文件,自动开启 - d 参数
-r 不消除冗余 保留所有重复序列结果,不做冗余过滤
-l <n> 设置预期最长串联重复序列(百万 bp) 默认 2(2Mb),设置过高可能因内存不足报错,最大测试值 29
-u 打印帮助信息 查看参数使用说明
-v 打印版本信息 确认当前 TRF 版本
-ngs 多序列文件生成紧凑.dat 输出 适合高通量测序数据,- 表示从管道输入,输出到标准输出,仅展示含重复序列的表头

4.3 推荐实用指令(含可选参数)

结合常用分析需求,推荐添加-f -d -m参数,生成侧翼序列、数据文件和屏蔽序列,满足后续引物设计、脚本分析和去重复需求:

复制代码
trf yoursequence.txt 2 7 7 80 10 50 500 -f -d -m

4.4 运行提示

  1. 程序运行时会在终端打印更新信息,输出Done表示分析完成;
  2. 单序列输入:至少生成 2 个 HTML 文件(重复表 + 比对文件),重复序列 > 120 个时会生成多个关联的表格文件,表格顶部 / 底部有跳转链接;
  3. 多序列输入:生成 1 个summary.html汇总文件,链接到各序列的单独结果,单独结果文件名含.sn.(n 为序列在输入文件中的索引)。

05 输入文件格式:FASTA 格式规范

TRF 仅支持FASTA 格式的 DNA 序列输入,格式要求简单,支持单个 / 多个序列,具体规范:

  1. 序列头行以 **>** 开头,后接序列名称 / 标识符,必须为单行;
  2. 后续行为核苷酸序列,大小写均可,数字、符号等非字母字符会被自动忽略;
  3. 多序列时,每个序列需有独立的头行,依次排列即可。

FASTA 格式示例

复制代码
>myseq_01  # 序列头行
AGTCGTCGCTAGCTAGCTAGCATCGAGTCTTTTCGATCGAGGACTAGACTTCTAGCTAGC
TAGCATAGCATACGAGCATATCGGTCATGAGACTGATTGGGCTTTAGCTAGCTAGCATAG
>myseq_02  # 第二个序列的头行
CATACGAGCATATCGGTAGACTGATTGGGTTTAGGTTACCGATCGATCGATGCTAGCTAG
CTGATCGATCGACGTACGTACGTAGCTAGCTGATCGA

06 输出结果解读:表格文件 + 比对文件

TRF 的核心输出为HTML 格式的表格文件比对文件,支持浏览器可视化,表格文件提供重复序列的核心信息,比对文件直观展示重复拷贝与共有模式的匹配情况,以下分别解读。

6.1 表格文件(*.html):重复序列核心信息

表格文件为汇总式展示,每一行代表一个鉴定到的串联重复序列,包含9 项核心信息,按列排列:

  1. Indices:重复序列相对于序列起始位置的坐标;
  2. Period Size:重复序列的周期长度(程序预测的重复模式长度);
  3. Copy Number:与共有模式比对的拷贝数;
  4. Consensus Size:共有模式的长度(可能与周期长度略有差异);
  5. Percent Matches:相邻拷贝间的整体匹配百分比;
  6. Percent Indels:相邻拷贝间的整体插入 / 缺失百分比;
  7. Score:比对分数(≥Minscore 才会被报告);
  8. A/C/G/T:四种核苷酸在重复序列中的组成百分比;
  9. Entropy (0-2):基于核苷酸组成的熵值(0 = 低多样性,2 = 高多样性)。

表格结果示例(test_seqs.fasta.s1 结果)

Indices Period Size Copy Number Consensus Size Percent Matches Percent Indels Score A C G T Entropy (0-2)
1--35 7 5.0 7 100 0 70 14 28 28 28 1.95

6.2 比对文件(*.txt.html):重复拷贝与共有模式的比对

比对文件直观展示重复序列的每个拷贝与共有模式的匹配情况,包含错配、插入 / 缺失的标注,核心展示规则

  1. 每两行为一组:上行为实际序列,下行为所有拷贝的共有模式序列;
  2. 除极短模式外,每组对应一个周期长度;
  3. 展示重复序列前后各 10 个碱基的侧翼序列(-f 参数可扩展为 500bp);
  4. 符号标注:*= 错配,-= 插入 / 缺失;
  5. 统计信息:为相邻拷贝间的整体匹配、错配、插入 / 缺失情况,非实际序列与共有模式的比对结果;
  6. 额外信息:匹配碱基的距离分布、重复序列的核苷酸组成百分比、单独展示的共有模式序列;
  7. 若使用-f参数,会展示重复序列两侧各 500bp 的侧翼序列。

重要注意事项

  1. 保存多个关联的表格文件时,使用浏览器默认文件名,否则会丢失跳转链接;
  2. 保存比对文件时,使用浏览器默认文件名,否则会丢失与表格文件的交叉引用。

07 TRF 核心工作原理:串联重复序列的概率模型

TRF 的核心设计基于串联重复序列的概率模型,通过伯努利试验模拟两个串联重复拷贝的比对过程,无需预设重复模式,实现自动识别,以下为模型的核心原理(保留原始设计逻辑)。

7.1 模型基础:伯努利试验模拟序列比对

对于长度为 n 的重复模式,将其两个串联拷贝的比对过程模拟为n 次独立的伯努利试验(抛硬币)

  1. 试验成功(正面)的概率为PM(匹配概率),代表拷贝间的平均一致性百分比,成功即表示比对的核苷酸匹配;
  2. 试验失败(反面)的概率为 1-PM,代表错配、插入或缺失,失败即表示比对的核苷酸存在错配 / 插入 / 缺失;
  3. 引入第二个概率PI(插入 / 缺失概率),指定拷贝间的平均插入 / 缺失百分比。

7.2 模型参数的意义

PM 和 PI 为保守性参数 ,作为一种极值边界 ,定量描述程序希望检测到的差异最大的拷贝(即只要拷贝间的一致性≥PM、插入 / 缺失≤PI,就会被程序识别为串联重复序列)。

常用的 PM=80、PI=10 表示:程序会检测拷贝间平均一致性≥80%、插入 / 缺失≤10% 的串联重复序列,该参数组合能平衡检测的灵敏度和特异性。

7.3 模型的实际应用

程序针对特定的(PM, PI)组合(如 80,10),分析伯努利序列的分布及其代表的比对特征,自动识别符合该概率特征的串联重复序列,实现无需预设模式的自动检测。

相关推荐
啦啦啦_99992 小时前
Redis-5-doFormatAsync()方法
数据库·redis·c#
生产队队长2 小时前
Redis:Windows环境安装Redis,并将 Redis 进程注册为服务
数据库·redis·缓存
老邓计算机毕设2 小时前
SSM找学互助系统52568(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
数据库·ssm 框架·javaweb 毕业设计
痴儿哈哈2 小时前
自动化机器学习(AutoML)库TPOT使用指南
jvm·数据库·python
Σίσυφος19002 小时前
PCL法向量估计 之 方向约束法向量(Orientation Guided Normal)
数据库
老毛肚2 小时前
手写mybatis
java·数据库·mybatis
海山数据库2 小时前
移动云大云海山数据库(He3DB)postgresql_anonymizer插件原理介绍与安装
数据库·he3db·大云海山数据库·移动云数据库
云飞云共享云桌面3 小时前
高性能图形工作站的资源如何共享给10个SolidWorks研发设计用
linux·运维·服务器·前端·网络·数据库·人工智能
2501_927993533 小时前
SQL Server 2022安装详细教程(图文详解,非常详细)
数据库·sqlserver