PSP - Jackhmmer 搜索 EMBL 序列数据库的相似序列

欢迎关注我的CSDN:https://spike.blog.csdn.net/

本文地址:https://spike.blog.csdn.net/article/details/131817060

EMBL (European Molecular Biology Laboratory,欧洲分子生物实验室):EMBL 数据库是一个由欧洲生物信息学研究所 (EMBL-EBI) 维护的核酸序列数据库,与 Genbank 和 DDBJ 的数据合作交换,因此,也是一个全面的核酸序列数据库。EMBL 数据库收集了来自各种来源的核酸序列,包括基因组计划、转录组学、表观遗传学、变异分析等。EMBL 数据库是生物蛋白质领域的专家和研究者的重要数据资源,可以帮助他们了解生物分子的结构、功能和进化。

Jackhmmer 搜索算法是一种基于隐马尔可夫模型 (HMM) 的迭代搜索算法,可以使用一条或多条蛋白质序列,在蛋白质序列数据库中寻找同源序列。原理是使用输入序列构建一个初始的 HMM,在数据库中搜索,找到与之匹配的序列。再将这些匹配的序列,加入到输入序列中,重新构建一个 HMM,并重复搜索过程,直到达到最大迭代次数或没有新的匹配序列为止。算法的优点是可以发现较远的同源序列,提高敏感性和准确性。

网址:https://www.ebi.ac.uk/Tools/hmmer/search/jackhmmer

输入序列:4NSC_1

MHHHHHHSSGLEVLFQGPGSMEEKKKKRSGFRDRKVMEYENRIRAYSTPDKIFRYFATLKVISEPGEAEVFMTPEDFVRSITPNEKQPEHLGLDQYIIKRFDGKKISQEREKFADEGSIFYTLGECGLISFSDYIFLTTVLSTPQRNFEIAFKMFDLNGDGEVDMEEFEQVQSIIRSQTSMGMRHRDRPTTGNTLKSGLCSALTTYFFGADLKGKLTIKNFLEFQRKLQHDVLKLEFERHDPVDGRITERQFGGMLLAYSGVQSKKLTAMQRQLKKHFKEGKGLTFQEVENFFTFLKNINDVDTALSFYHMAGASLDKVTMQQVARTVAKVELSDHVCDVVFALFDCDGNGELSNKEFVSIMKQRLMRGLEKPKDMGFTRLMQAMWKCAQETAWDFALPKQ

搜索数据库:SwissProt (SP) 和 TrEMBL (TR)

  • SwissProt 是一个由专家审核的蛋白质序列和功能信息的数据库,是 UniProtKB 的一个子集,包含了最高质量和最完整的蛋白质记录。目标是提供一个准确、一致和可信赖的蛋白质知识资源,为生物学研究和应用提供支持。标识是sp,例如 sp|Q9BPX6|MICU1_HUMAN/96-476
  • TrEMBL 是 UniProtKB 的一个组成部分,是一个由计算机自动注释的蛋白质序列数据库,补充了 UniProtKB/Swiss-Prot 蛋白质知识库,包含 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。目的是提供一个及时更新的、包含所有已知蛋白质序列的数据集,为生物学研究和应用提供支持。例如 tr|C7DLN3|C7DLN3_9VIRU/1-172

TrEMBL 与 Reference Proteomes (参考蛋白质组) 相似;SwissProt 包括其中,即:

默认是 TrEMBL。

在 AlphaFold2 中,也有 2 个文件相对应,即 uniprot_trembl.fasta.gzuniprot_sprot.fasta.gz,再合并成 uniprot.fasta,两者可能包括相同序列。

搜索算法选择 jackhmmer 算法,数据库 (Database) 选择 SwissProt 数据库,其余选择默认。

输出的结果,默认是根据 E-value 进行排序,第 1 条就是最相似的序列。

参考:

相关推荐
杜子不疼.1 分钟前
《Python学习之文件操作:从入门到精通》
数据库·python·学习
TDengine (老段)24 分钟前
TDengine IDMP 高级功能(4. 元素引用)
大数据·数据库·人工智能·物联网·数据分析·时序数据库·tdengine
DashVector1 小时前
如何通过Java SDK分组检索Doc
java·数据库·面试
Olrookie1 小时前
XXL-JOB GLUE模式动态数据源实践:Spring AOP + MyBatis 解耦多库查询
java·数据库·spring boot
苏婳6661 小时前
【最新版】怎么下载mysqlclient并成功安装?
数据库·python·mysql
Tapdata3 小时前
《实时分析市场报告 2025》上线 | 从批处理到实时洞察,2025 年全球实时分析市场全景解读
数据库
海梨花3 小时前
【从零开始学习Redis】项目实战-黑马点评D2
java·数据库·redis·后端·缓存
代码的余温5 小时前
SQL性能优化全攻略
数据库·mysql·性能优化
手把手入门7 小时前
★CentOS:MySQL数据备份
数据库·mysql·adb
SelectDB8 小时前
5000+ 中大型企业首选的 Doris,在稳定性的提升上究竟花了多大的功夫?
大数据·数据库·apache