ThermoSeek:热稳定蛋白数据库

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。

这篇论文提出了ThermoSeek,一个综合性的网络资源,用于分析来自嗜热和嗜冷物种的蛋白质序列和结构。具体来说,

  1. 数据收集:从美国国家生物技术信息中心(NCBI)的基因组数据库中收集了物种的分类ID,并根据"温度范围"标记为嗜热、超嗜热、嗜冷或冷适应。使用MMseqs2对蛋白质序列进行聚类和冗余消除,生成一个包含130,825个超嗜热蛋白、566,619个嗜热蛋白、486,139个嗜冷蛋白和19,793个冷适应蛋白的综合数据库。
  2. 序列比对:使用NCBI BLAST 2.13.0+和MMseqs2创建序列数据库,并通过"mmseqs easy-search"和"blastp"进行序列搜索。
  3. 结构搜索:利用Foldseek算法将蛋白质结构编码为20个离散值,表示二级结构特征和氨基酸之间的空间关系。使用MMseqs2进行结构搜索。
  4. 模体搜索:使用Fpocket v2.0识别超嗜热和嗜热蛋白质中的口袋,并将提取的蛋白质口袋编码为自定义的二进制格式。使用Kruskal算法构建最小生成树(MST),以优化搜索过程。
相关推荐
Wu Liuqi5 分钟前
【大模型学习4】大语言模型(LLM)详解
人工智能·学习·语言模型·大模型
SEOETC7 分钟前
AIGC|杭州AI优化企业新榜单与选择指南
人工智能·ai·aigc
sali-tec20 分钟前
C# 基于halcon的视觉工作流-章58-输出点云图
开发语言·人工智能·算法·计算机视觉·c#
小毅&Nora24 分钟前
【智能体】扣子平台 ① 构建智能体工作流:从提示词到JSON配置的全流程实践
人工智能
AI街潜水的八角1 小时前
深度学习十种食物分类系统1:数据集说明(含下载链接)
人工智能·深度学习·分类
敷衍zgf1 小时前
Ernie_health + ProtoNet + Supervised-Contrastive Learning实现小样本意图分类与槽位填充
人工智能·自然语言处理·数据挖掘
却道天凉_好个秋1 小时前
OpenCV(二十三):透视变换
人工智能·opencv·计算机视觉
诸葛务农1 小时前
光刻胶分类与特性:正性胶和负性胶以及SU-8厚胶和AZ 1500 系列光刻胶(下)
人工智能·光刻胶
逻极1 小时前
Kiro 安全最佳实践:守护代理式 IDE 的 “防火墙”
ide·人工智能·安全·ai
Danceful_YJ1 小时前
23.目标检测基础
人工智能·目标检测·计算机视觉