Biopython PDB模块的PDBParser和MMCIFParser介绍

Biopython 提供了 Bio.PDB 模块,用于解析、操作和分析 PDB 和 mmCIF 结构文件。核心的解析器包括:

  • PDBParser :解析 PDB(Protein Data Bank)格式的蛋白质结构文件。
  • MMCIFParser :解析 mmCIF(Macromolecular Crystallographic Information File)格式的蛋白质结构文件。

📌 1. PDBParser ------ 解析 PDB 格式

🔹 作用

  • PDBParser 用于读取 PDB 格式的蛋白质结构文件 ,并将其转换为 Biopython 的 Structure 对象,方便进一步分析。

🔹 代码示例

复制代码
from Bio.PDB import PDBParser

# 创建解析器
parser = PDBParser(QUIET=True)  # QUIET=True 关闭警告信息

# 解析 PDB 文件(假设 PDB 文件为 "example.pdb")
structure = parser.get_structure("example_protein", "example.pdb")

# 打印解析的结构信息
for model in structure:
    print("Model:", model.id)
    for chain in model:
        print("  Chain:", chain.id)
        for residue in chain:
            print("    Residue:", residue.resname, residue.id)

🔹 解析后数据结构

PDBParser 会生成一个 Structure(结构)对象,其中层级结构如下:

复制代码
Structure (最高层) → Model(模型)→ Chain(链)→ Residue(残基)→ Atom(原子)
  • Structure:代表整个蛋白质结构(可以包含多个模型)。
  • Model:NMR 结构可能有多个模型(X-ray 结构通常只有一个)。
  • Chain:代表蛋白质的不同链(A、B、C...)。
  • Residue:氨基酸或配体(如 "ALA", "GLY")。
  • Atom:单个原子(如 "N", "CA", "CB")。

🔹 访问特定信息

复制代码
# 获取第一条链的所有残基
chain_A = structure[0]['A']  # 选择第一个模型的 A 链

# 遍历 A 链的所有残基
for residue in chain_A:
    print(residue.resname, residue.id)  # 残基名称和 ID

# 获取某个原子的坐标
ca_atom = chain_A[100]["CA"]  # 选择第 100 个残基的 α-碳原子
print(ca_atom.coord)  # 输出坐标 (x, y, z)

📌 2. MMCIFParser ------ 解析 mmCIF 格式

🔹 作用

  • MMCIFParser 解析 mmCIF 格式,它是 PDB 格式的增强版本,支持更大蛋白质复合物(如超过 62 条链)。
  • 适用于 大规模结构数据(如 Cryo-EM 解析的蛋白质)。

🔹 代码示例

复制代码
from Bio.PDB import MMCIFParser

# 创建解析器
parser = MMCIFParser(QUIET=True)

# 解析 mmCIF 文件(假设文件名为 "example.cif")
structure = parser.get_structure("example_protein", "example.cif")

# 打印结构信息
for model in structure:
    print("Model:", model.id)
    for chain in model:
        print("  Chain:", chain.id)
        for residue in chain:
            print("    Residue:", residue.resname, residue.id)

🔹 解析后的数据结构

PDBParser 相同,MMCIFParser 也会解析为 Structure → Model → Chain → Residue → Atom 层级。

🔹 访问 mmCIF 额外信息

mmCIF 提供更多元数据,如实验方法、分辨率等,可以通过 structure.header 访问:

复制代码
print(structure.header)  # 输出 mmCIF 文件头部信息

📌 3. PDBParser vs MMCIFParser 对比

解析器 适用格式 支持链数 文件大小 额外信息
PDBParser PDB (.pdb) 最多 62 条链
MMCIFParser mmCIF (.cif) 无限制 包含实验数据等详细信息

🔹 选择指南

  • 如果蛋白质结构较小(≤62 条链) → 用 PDBParser
  • 如果蛋白质较大(>62 条链)或包含额外信息 → 用 MMCIFParser

📌 4. 总结

  • PDBParser 解析 PDB 格式,适用于一般蛋白质结构。
  • MMCIFParser 解析 mmCIF 格式 ,适用于大蛋白复合物
  • 解析后都是 Structure 对象 ,可访问模型、链、残基、原子等信息。
  • mmCIF 提供更详细的实验信息,但文件更大、结构更复杂。

如果处理的是 AlphaFold 预测的 PDB 文件,PDBParser 更合适

如果是 Cryo-EM 解析的大型蛋白质,建议用 MMCIFParser

相关推荐
Blossom.1186 分钟前
把AI“绣”进丝绸:生成式刺绣神经网络让古装自带摄像头
人工智能·pytorch·python·深度学习·神经网络·机器学习·fpga开发
星星也在雾里32 分钟前
【管理多版本Python环境】Anaconda安装及使用
python·anaconda
用户37215742613542 分钟前
使用 Python 将 CSV 文件转换为 PDF 的实践指南
python
大佬,救命!!!44 分钟前
算法实现迭代2_堆排序
数据结构·python·算法·学习笔记·堆排序
总有刁民想爱朕ha2 小时前
Python自动化从入门到实战(24)如何高效的备份mysql数据库,数据备份datadir目录直接复制可行吗?一篇给小白的完全指南
数据库·python·自动化·mysql数据库备份
孤客网络科技工作室2 小时前
Python - 100天从新手到大师:第五十七天获取网络资源及解析HTML页面
开发语言·python·html
帅大大的架构之路2 小时前
高级篇:Python脚本(101-150)
开发语言·python
liweiweili1262 小时前
Django中处理多数据库场景
数据库·python·django
reasonsummer3 小时前
【办公类-115-06】20250920职称资料上传04——docx复制、docx转PDF(课程表11个)
开发语言·windows·python·c#
E_ICEBLUE3 小时前
高效压缩 PDF 文件大小(3 大实用的 Python 库)
python·pdf