构建蛋白质复合体结构中所有链序列的同源性矩阵

为了生成蛋白质复合体结构中所有链之间的同源性矩阵,我们可以使用基于结构比对的工具(如 TM-align),逐对地比对所有链,并根据比对结果(通常是 TM-score)构建同源性矩阵。

具体步骤包括:

  1. 提取每条链的序列:从蛋白质复合体的 PDB 文件中提取每个链的序列,并保存成单独的文件。
  2. 使用 TM-align 进行比对:对每对链进行比对,计算它们的 TM-score。
  3. 构建同源性矩阵:将每对链的 TM-score 记录到矩阵中,形成链序列的同源性矩阵。

步骤 1:提取蛋白质复合体的所有链序列

可以使用 BioPython 提取每个链的序列并保存为单独的 .pdb 文件。

复制代码
from Bio import PDB

def extract_chain_sequences(pdb_file, output_dir):
    """
    从PDB文件中提取所有链的序列,并保存为独立的PDB文件。
    
    :param pdb_file: 蛋白质复合体PDB文件路径
    :param output_dir: 输出目录,用于保存各链的PDB文件
    """
    parser = PDB.PDBParser(QUIET=True)
    structure = parser.get_structure('complex', pdb_file)
    
    io = PDB.PDBIO()
    for model in structure:
        for chain in model:
            chain_id = chain.get_id()
            chain_pdb_file = f"{output_dir}/{chain_id}.pdb"
            io.set_structure(chain)
            io.save(chain_pdb_file)
            print(f"Saved chain {chain_id} to {chain_pdb_file}")

# 示例用法
pdb_file = 'complex.pdb'  # 你的复合体PDB文件
output_dir = 'chains_pdb'  # 输出目录
extract_chain_sequences(pdb_file, output_dir)

步骤 2:使用 TM-align 比对链

创建一个函数,使用 TM-align 比对每对链,并提取比对结果中的 TM-score。

复制代码
import subprocess
import os
import numpy as np

def run_tmalign(chain1_pdb, chain2_pdb):
    """
    使用 TM-align 对两个蛋白质链进行比对,返回 TM-score。
    
    :param chain1_pdb: 第一个链的PDB文件路径
    :param chain2_pdb: 第二个链的PDB文件路径
    :return: 两个链之间的 TM-score
    """
    tmalign_cmd = f"TM-align {chain1_pdb} {chain2_pdb}"
    result = subprocess.run(tmalign_cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True)
    output = result.stdout.decode('utf-8')
    
    for line in output.splitlines():
        if line.startswith("TM-score="):
            return float(line.split()[1])
    return 0.0

步骤 3:构建同源性矩阵

每个链之间的 TM-score 保存在对称矩阵的对应位置,构成同源性矩阵。该矩阵的每个元素表示两个链之间的结构相似性(TM-score),范围为 0 到 1,值越接近 1,表示相似性越高。

复制代码
def generate_homology_matrix(pdb_dir):
    """
    使用 TM-align 对复合体中所有链进行比对,生成同源性矩阵。
    
    :param pdb_dir: 存放链PDB文件的目录
    :return: 同源性矩阵
    """
    chain_files = [f for f in os.listdir(pdb_dir) if f.endswith('.pdb')]
    chain_ids = [f.split('.')[0] for f in chain_files]
    num_chains = len(chain_ids)
    
    homology_matrix = np.zeros((num_chains, num_chains))
    
    for i in range(num_chains):
        for j in range(i, num_chains):
            chain1_pdb = os.path.join(pdb_dir, chain_files[i])
            chain2_pdb = os.path.join(pdb_dir, chain_files[j])
            
            tm_score = run_tmalign(chain1_pdb, chain2_pdb)
            homology_matrix[i, j] = tm_score
            homology_matrix[j, i] = tm_score
    
    return chain_ids, homology_matrix

# 示例用法
pdb_dir = 'chains_pdb'  # 保存各链PDB文件的目录
chain_ids, homology_matrix = generate_homology_matrix(pdb_dir)

print("链ID列表:", chain_ids)
print("同源性矩阵:")
print(homology_matrix)

代码解读

  1. extract_chain_sequences 函数

    • 从给定的 PDB 文件中提取每个链,并将它们保存为单独的 PDB 文件。
    • 使用 BioPython 库进行 PDB 文件的解析和操作。
  2. run_tmalign 函数

    • 使用 TM-align 工具比对两个链的结构,输出比对结果,并从输出中提取 TM-score。
  3. generate_homology_matrix 函数

    • 遍历每对链,对其进行比对,构建同源性矩阵。
    • 矩阵是对称的,矩阵中的值表示 TM-score,体现链之间的结构相似性。

结果

homology_matrix 是蛋白质复合体中所有链的同源性矩阵,chain_ids 是与矩阵行和列对应的链的标识符。

相关推荐
Blossom.11812 小时前
从“能写”到“能干活”:大模型工具调用(Function-Calling)的工程化落地指南
数据库·人工智能·python·深度学习·机器学习·计算机视觉·oracle
蒋星熠12 小时前
破壁者指南:内网穿透技术的深度解构与实战方法
网络·数据库·redis·python·websocket·网络协议·udp
shizidushu12 小时前
使用 Pyinstaller 打包 PPOCRLabel
python·pyinstaller
Q_Q196328847513 小时前
python+springboot+uniapp微信小程序题库系统 在线答题 题目分类 错题本管理 学习记录查询系统
spring boot·python·django·uni-app·node.js·php
Rhys..13 小时前
.gitignore文件的作用及用法
python·github
IT学长编程13 小时前
计算机毕业设计 基于深度学习的酒店评论文本情感分析研究 Python毕业设计项目 Hadoop毕业设计选题 机器学习选题【附源码+文档报告+安装调试】
hadoop·python·深度学习·机器学习·数据分析·毕业设计·酒店评论文本情感分析
~-~%%14 小时前
Moe机制与pytorch实现
人工智能·pytorch·python
深耕AI14 小时前
【PyTorch训练】为什么要有 loss.backward() 和 optimizer.step()?
人工智能·pytorch·python
0_0梅伊阁诗人15 小时前
Django ORM 模型
开发语言·数据库·笔记·python·oracle·django
Genevieve_xiao15 小时前
【dl】python基础 深度学习中需要用到的python基础
python·深度学习