AlphaFold2 蛋白质结构预测 mmseqsDB目录解释 jackhmmer_split JackHMMER 搜索结果

AlphaFold2 蛋白质结构预测 目录结构解析

mmseqsDB/ --- MMseqs2 格式的序列数据库

数据库文件 对应数据库 说明
mgnify_db* MGnify EBI 的微生物组序列数据库,包含宏基因组序列
small_bfd_db* Small BFD BFD(Big Fantastic Database)的精简版,约包含 5800 万条序列
uniprot_cluster_annot_db* UniProt Clusters UniProt 聚类注释数据库
uniref90_db* UniRef90 UniRef90 蛋白质序列数据库,聚类相似度≥90%

每个 MMseqs2 数据库通常包含以下文件:

  • .dbtype --- 数据库类型标识
  • .index / .h.index --- 序列索引
  • .lookup --- 序列 ID 查找表
  • .source --- 来源信息
  • _h 文件 --- 头部信息(header)

这是 AlphaFold2 的 MSA 生成环境

这些数据库正是 AlphaFold2 (或 ColabFold)运行 MSA(多序列比对) 搜索时使用的标准数据库组合:

复制代码
┌─────────────────────────────────────────┐
│         AlphaFold2 MSA 搜索流程          │
├─────────────────────────────────────────┤
│  1. JackHMMER → UniRef90 + MGnify       │
│     (隐马尔可夫模型搜索,获取深度 MSA)   │
├─────────────────────────────────────────┤
│  2. HHblits → BFD / Small BFD           │
│     (HMM-HMM 比对,补充 MSA)            │
├─────────────────────────────────────────┤
│  3. MMseqs2(ColabFold 替代方案)         │
│     → UniRef30 + 环境序列数据库          │
└─────────────────────────────────────────┘

您的环境状态

复制代码
easyscience/
├── jackhmmer_split/     ← JackHMMER 搜索结果(按 chunk 分割)
└── mmseqsDB/            ← MMseqs2 格式的序列数据库
    ├── mgnify_db        ← MGnify 宏基因组数据库
    ├── small_bfd_db     ← Small BFD 数据库
    ├── uniprot_cluster_annot_db  ← UniProt 聚类注释
    └── uniref90_db      ← UniRef90 数据库

场景 说明
AlphaFold2 本地部署 运行蛋白质结构预测
ColabFold 使用 MMseqs2 替代 JackHMMER 加速 MSA 搜索
自定义蛋白质分析流程 基于这些数据库进行序列搜索和比对
批量结构预测 jackhmmer_split 暗示可能并行处理多个序列

这些是 AlphaFold2 数据库的 FASTA 原始文件分片,被分割成多个 chunk 以便并行处理。让我为您解析:


文件解析

文件名模式 数据库 分片数 说明
bfd-first_non_consensus_sequences.fasta-XXXXX-of-00064 BFD (Big Fantastic Database) 64 片 BFD 非共识序列,用于 HHblits MSA 搜索
mgy_clusters_2022_05.fa-XXXXX-of-00512 MGnify (2022年5月版) 512 片 EBI 宏基因组聚类序列
uniprot_cluster_annot_2021_04.fa-XXXXX-of-00256 UniProt 聚类注释 (2021年4月版) 256 片 UniProt 聚类后的注释序列

这是 AlphaFold2 的数据库下载/准备目录

复制代码
easyscience/
├── jackhmmer_split/          ← JackHMMER 搜索结果分片
├── mmseqsDB/                 ← MMseqs2 格式数据库(已转换)
└── [当前目录]                 ← FASTA 原始分片文件(未转换/下载中)
    ├── bfd-first_non_consensus_sequences.fasta-*    ← BFD 原始 FASTA
    ├── mgy_clusters_2022_05.fa-*                    ← MGnify 原始 FASTA
    └── uniprot_cluster_annot_2021_04.fa-*           ← UniProt 原始 FASTA

这些分片的用途

为什么分割?

  • 并行下载:Google Cloud Storage 上的 AlphaFold2 数据库以分片形式存储
  • 并行处理:可以用多线程/多节点同时处理不同分片
  • 断点续传:某个分片下载失败只需重试该分片

下一步通常是什么?

bash 复制代码
# 1. 合并分片为完整 FASTA
cat bfd-first_non_consensus_sequences.fasta-* > bfd-first_non_consensus_sequences.fasta

# 2. 用 HH-suite 的 ffindex_build 建立 HHblits 数据库
ffindex_build -s bfd.ffdata bfd.ffindex bfd-first_non_consensus_sequences.fasta

# 3. 或用 MMseqs2 转换为 mmseqsDB 格式(您 mmseqsDB/ 目录中已存在)
mmseqs createdb bfd-first_non_consensus_sequences.fasta mmseqsDB/bfd_db

您的环境状态判断

观察 推断
同时存在 mmseqsDB/(已转换)和 FASTA 分片(未转换) 可能正在数据库准备/更新过程中
分片编号不连续(如 MGnify 显示 257-277) 可能只列出了部分文件,或正在分批处理
jackhmmer_split/ 存在 已经运行过或准备运行 JackHMMER 搜索

还可以

|---|---|

| 确认数据库完整性 | 检查每个数据库的分片是否全部下载完毕 |

| 合并分片并建立 HHblits 数据库 | 使用 ffindex_buildhhblits 的建库工具 |

| 转换为 MMseqs2 格式 | 使用 mmseqs createdb + mmseqs createindex |

| 运行 AlphaFold2 | 确认所有数据库就绪后,配置 params/ 路径 |

| 清理空间 | 转换完成后可删除原始 FASTA 分片 |

相关推荐
Tiger Z7 天前
文献阅读 | Preprint | scMarkerAgent:基于大语言模型证据智能体的细胞标志物图谱
ai·生物信息·文献阅读·单细胞
高-老师4 个月前
python生物信息多组学大数据深度挖掘与论文整理技巧实践技术应用
生物信息
高-老师4 个月前
基于R语言生物信息学大数据分析与绘图实践技术应用
开发语言·数据分析·r语言·生物信息
青春不败 177-3266-05204 个月前
python语言生物信息多组学大数据深度挖掘与论文整理技巧
开发语言·python·生物信息·多组学·高通量测序
青春不败 177-3266-05204 个月前
基于R语言生物信息学大数据分析与绘图技术应用
数据分析·r语言·生物信息·生信·高通量
zhangfeng11334 个月前
mednexus.org/ 一个医学学术期刊传播平台 医学英文期刊传播平台中华医学会杂志社与威立(Wiley)合作打造
生物信息·医学
zd2005725 个月前
popEVE:人类疾病遗传学的全蛋白质组模型数据库
生物信息·基因变异
zhangfeng11335 个月前
百度免费大模型API深度解析 大厂llm大模型市场国产大模型API免费全平台对比指南,薅羊毛指南与实战建议 政策深度解析与
人工智能·百度·dubbo·生物信息
梦想的初衷~5 个月前
“科研创新与智能化转型“暨AI智能体(Agent)开发及与大语言模型的本地化部署、优化技术实践
人工智能·语言模型·自然语言处理·生物信息·材料科学