PSP - Jackhmmer 搜索 EMBL 序列数据库的相似序列

欢迎关注我的CSDN:https://spike.blog.csdn.net/

本文地址:https://spike.blog.csdn.net/article/details/131817060

EMBL (European Molecular Biology Laboratory,欧洲分子生物实验室):EMBL 数据库是一个由欧洲生物信息学研究所 (EMBL-EBI) 维护的核酸序列数据库,与 Genbank 和 DDBJ 的数据合作交换,因此,也是一个全面的核酸序列数据库。EMBL 数据库收集了来自各种来源的核酸序列,包括基因组计划、转录组学、表观遗传学、变异分析等。EMBL 数据库是生物蛋白质领域的专家和研究者的重要数据资源,可以帮助他们了解生物分子的结构、功能和进化。

Jackhmmer 搜索算法是一种基于隐马尔可夫模型 (HMM) 的迭代搜索算法,可以使用一条或多条蛋白质序列,在蛋白质序列数据库中寻找同源序列。原理是使用输入序列构建一个初始的 HMM,在数据库中搜索,找到与之匹配的序列。再将这些匹配的序列,加入到输入序列中,重新构建一个 HMM,并重复搜索过程,直到达到最大迭代次数或没有新的匹配序列为止。算法的优点是可以发现较远的同源序列,提高敏感性和准确性。

网址:https://www.ebi.ac.uk/Tools/hmmer/search/jackhmmer

输入序列:4NSC_1

MHHHHHHSSGLEVLFQGPGSMEEKKKKRSGFRDRKVMEYENRIRAYSTPDKIFRYFATLKVISEPGEAEVFMTPEDFVRSITPNEKQPEHLGLDQYIIKRFDGKKISQEREKFADEGSIFYTLGECGLISFSDYIFLTTVLSTPQRNFEIAFKMFDLNGDGEVDMEEFEQVQSIIRSQTSMGMRHRDRPTTGNTLKSGLCSALTTYFFGADLKGKLTIKNFLEFQRKLQHDVLKLEFERHDPVDGRITERQFGGMLLAYSGVQSKKLTAMQRQLKKHFKEGKGLTFQEVENFFTFLKNINDVDTALSFYHMAGASLDKVTMQQVARTVAKVELSDHVCDVVFALFDCDGNGELSNKEFVSIMKQRLMRGLEKPKDMGFTRLMQAMWKCAQETAWDFALPKQ

搜索数据库:SwissProt (SP) 和 TrEMBL (TR)

  • SwissProt 是一个由专家审核的蛋白质序列和功能信息的数据库,是 UniProtKB 的一个子集,包含了最高质量和最完整的蛋白质记录。目标是提供一个准确、一致和可信赖的蛋白质知识资源,为生物学研究和应用提供支持。标识是sp,例如 sp|Q9BPX6|MICU1_HUMAN/96-476
  • TrEMBL 是 UniProtKB 的一个组成部分,是一个由计算机自动注释的蛋白质序列数据库,补充了 UniProtKB/Swiss-Prot 蛋白质知识库,包含 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。目的是提供一个及时更新的、包含所有已知蛋白质序列的数据集,为生物学研究和应用提供支持。例如 tr|C7DLN3|C7DLN3_9VIRU/1-172

TrEMBL 与 Reference Proteomes (参考蛋白质组) 相似;SwissProt 包括其中,即:

默认是 TrEMBL。

在 AlphaFold2 中,也有 2 个文件相对应,即 uniprot_trembl.fasta.gzuniprot_sprot.fasta.gz,再合并成 uniprot.fasta,两者可能包括相同序列。

搜索算法选择 jackhmmer 算法,数据库 (Database) 选择 SwissProt 数据库,其余选择默认。

输出的结果,默认是根据 E-value 进行排序,第 1 条就是最相似的序列。

参考:

相关推荐
科技小花23 分钟前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
X56611 小时前
如何在 Laravel 中正确保存嵌套动态表单数据(主服务与子服务)
jvm·数据库·python
虹科网络安全3 小时前
艾体宝干货|数据复制详解:类型、原理与适用场景
java·开发语言·数据库
2301_771717213 小时前
解决mysql报错:1406, Data too long for column
android·数据库·mysql
小江的记录本3 小时前
【Kafka核心】架构模型:Producer、Broker、Consumer、Consumer Group、Topic、Partition、Replica
java·数据库·分布式·后端·搜索引擎·架构·kafka
dvjr cloi3 小时前
MySQL Workbench菜单汉化为中文
android·数据库·mysql
dFObBIMmai4 小时前
MySQL主从同步中大事务导致的延迟_如何拆分大事务优化同步
jvm·数据库·python
szccyw04 小时前
mysql如何限制特定存储过程执行权限_MySQL存储过程安全访问
jvm·数据库·python
czlczl200209254 小时前
利用“延迟关联”优化 MySQL 巨量数据的深分页查询
数据库·mysql
ACP广源盛139246256735 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑