ThermoSeek:热稳定蛋白数据库

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。
相关推荐
禁默38 分钟前
打通 AI 与信号处理的“任督二脉”:Ascend SIP Boost 加速库深度实战
人工智能·信号处理·cann
心疼你的一切1 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
AI绘画哇哒哒1 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
数据分析能量站1 小时前
Clawdbot(现名Moltbot)-现状分析
人工智能
那个村的李富贵1 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
二十雨辰1 小时前
[python]-AI大模型
开发语言·人工智能·python
陈天伟教授1 小时前
人工智能应用- 语言理解:04.大语言模型
人工智能·语言模型·自然语言处理
Luhui Dev1 小时前
AI 与数学的融合:技术路径、应用前沿与未来展望(2026 版)
人工智能
chian-ocean1 小时前
量化加速实战:基于 `ops-transformer` 的 INT8 Transformer 推理
人工智能·深度学习·transformer
那个村的李富贵1 小时前
从CANN到Canvas:AI绘画加速实战与源码解析
人工智能·ai作画·cann