ThermoSeek:热稳定蛋白数据库

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。
相关推荐
文心快码BaiduComate6 分钟前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南1 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia2 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮2 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬2 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia3 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区3 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两6 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪6 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain