AlphaFold2 蛋白质结构预测 目录结构解析
mmseqsDB/ --- MMseqs2 格式的序列数据库
| 数据库文件 | 对应数据库 | 说明 |
|---|---|---|
mgnify_db* |
MGnify | EBI 的微生物组序列数据库,包含宏基因组序列 |
small_bfd_db* |
Small BFD | BFD(Big Fantastic Database)的精简版,约包含 5800 万条序列 |
uniprot_cluster_annot_db* |
UniProt Clusters | UniProt 聚类注释数据库 |
uniref90_db* |
UniRef90 | UniRef90 蛋白质序列数据库,聚类相似度≥90% |
每个 MMseqs2 数据库通常包含以下文件:
.dbtype--- 数据库类型标识.index/.h.index--- 序列索引.lookup--- 序列 ID 查找表.source--- 来源信息_h文件 --- 头部信息(header)
这是 AlphaFold2 的 MSA 生成环境
这些数据库正是 AlphaFold2 (或 ColabFold)运行 MSA(多序列比对) 搜索时使用的标准数据库组合:
┌─────────────────────────────────────────┐
│ AlphaFold2 MSA 搜索流程 │
├─────────────────────────────────────────┤
│ 1. JackHMMER → UniRef90 + MGnify │
│ (隐马尔可夫模型搜索,获取深度 MSA) │
├─────────────────────────────────────────┤
│ 2. HHblits → BFD / Small BFD │
│ (HMM-HMM 比对,补充 MSA) │
├─────────────────────────────────────────┤
│ 3. MMseqs2(ColabFold 替代方案) │
│ → UniRef30 + 环境序列数据库 │
└─────────────────────────────────────────┘
您的环境状态
easyscience/
├── jackhmmer_split/ ← JackHMMER 搜索结果(按 chunk 分割)
└── mmseqsDB/ ← MMseqs2 格式的序列数据库
├── mgnify_db ← MGnify 宏基因组数据库
├── small_bfd_db ← Small BFD 数据库
├── uniprot_cluster_annot_db ← UniProt 聚类注释
└── uniref90_db ← UniRef90 数据库
| 场景 | 说明 |
|---|---|
| AlphaFold2 本地部署 | 运行蛋白质结构预测 |
| ColabFold | 使用 MMseqs2 替代 JackHMMER 加速 MSA 搜索 |
| 自定义蛋白质分析流程 | 基于这些数据库进行序列搜索和比对 |
| 批量结构预测 | jackhmmer_split 暗示可能并行处理多个序列 |
这些是 AlphaFold2 数据库的 FASTA 原始文件分片,被分割成多个 chunk 以便并行处理。让我为您解析:
文件解析
| 文件名模式 | 数据库 | 分片数 | 说明 |
|---|---|---|---|
bfd-first_non_consensus_sequences.fasta-XXXXX-of-00064 |
BFD (Big Fantastic Database) | 64 片 | BFD 非共识序列,用于 HHblits MSA 搜索 |
mgy_clusters_2022_05.fa-XXXXX-of-00512 |
MGnify (2022年5月版) | 512 片 | EBI 宏基因组聚类序列 |
uniprot_cluster_annot_2021_04.fa-XXXXX-of-00256 |
UniProt 聚类注释 (2021年4月版) | 256 片 | UniProt 聚类后的注释序列 |
这是 AlphaFold2 的数据库下载/准备目录
easyscience/
├── jackhmmer_split/ ← JackHMMER 搜索结果分片
├── mmseqsDB/ ← MMseqs2 格式数据库(已转换)
└── [当前目录] ← FASTA 原始分片文件(未转换/下载中)
├── bfd-first_non_consensus_sequences.fasta-* ← BFD 原始 FASTA
├── mgy_clusters_2022_05.fa-* ← MGnify 原始 FASTA
└── uniprot_cluster_annot_2021_04.fa-* ← UniProt 原始 FASTA
这些分片的用途
为什么分割?
- 并行下载:Google Cloud Storage 上的 AlphaFold2 数据库以分片形式存储
- 并行处理:可以用多线程/多节点同时处理不同分片
- 断点续传:某个分片下载失败只需重试该分片
下一步通常是什么?
bash
# 1. 合并分片为完整 FASTA
cat bfd-first_non_consensus_sequences.fasta-* > bfd-first_non_consensus_sequences.fasta
# 2. 用 HH-suite 的 ffindex_build 建立 HHblits 数据库
ffindex_build -s bfd.ffdata bfd.ffindex bfd-first_non_consensus_sequences.fasta
# 3. 或用 MMseqs2 转换为 mmseqsDB 格式(您 mmseqsDB/ 目录中已存在)
mmseqs createdb bfd-first_non_consensus_sequences.fasta mmseqsDB/bfd_db
您的环境状态判断
| 观察 | 推断 |
|---|---|
同时存在 mmseqsDB/(已转换)和 FASTA 分片(未转换) |
可能正在数据库准备/更新过程中 |
| 分片编号不连续(如 MGnify 显示 257-277) | 可能只列出了部分文件,或正在分批处理 |
jackhmmer_split/ 存在 |
已经运行过或准备运行 JackHMMER 搜索 |
还可以
|---|---|
| 确认数据库完整性 | 检查每个数据库的分片是否全部下载完毕 |
| 合并分片并建立 HHblits 数据库 | 使用 ffindex_build 或 hhblits 的建库工具 |
| 转换为 MMseqs2 格式 | 使用 mmseqs createdb + mmseqs createindex |
| 运行 AlphaFold2 | 确认所有数据库就绪后,配置 params/ 路径 |
| 清理空间 | 转换完成后可删除原始 FASTA 分片 |