ThermoSeek:热稳定蛋白数据库

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。
相关推荐
火山引擎开发者社区11 小时前
火山AgentPlan/CodingPlan同步上线GLM-5.2
人工智能
冬奇Lab12 小时前
Skill 系列(05):Skill 工作流串联——4 种模式实测,并发加速 1.5x
人工智能·开源
冬奇Lab12 小时前
每日一个开源项目(第141篇):hiring-agent - HackerRank 开源了他们的简历评分系统,你的简历能得几分?
人工智能·面试·开源
甲维斯13 小时前
又升级咯!坦克大战2026,科技与复古并存!
前端·人工智能·游戏开发
姗姗来迟了15 小时前
用React Hook封装AI对话状态
人工智能
Goodbye15 小时前
从 Token 到 Embedding:LLM 核心基础深度解析
javascript·人工智能
阿瑞IT15 小时前
AI Agent 在甘特计划变更场景中的动态响应工程实践
人工智能
用户9385156350715 小时前
工具调用背后:LLM 如何突破“缸中大脑”,操控真实世界?
javascript·人工智能