Amber分子动力学模拟5.1: 蛋白结构准备的一般流程和关键注意事项

在使用 Amber(特别是 AMBER force field + sander/pmemd/ambertools)进行分子动力学(MD)模拟前,蛋白结构的准备 是关键的第一步。Amber 本身不直接提供图形化建模工具,但通过其配套软件包 AmberTools (尤其是 tleappdb4amberantechamber 等)可系统化完成蛋白结构的清洗、补全、质子化、拓扑与坐标文件生成。

本文主要展示和讨论:

  1. 进行分子动力学模拟前蛋白结构准备的一般流程
  2. 蛋白结构的准备时加氢原子操作时,使用pdb4amber的reduce还是tleap?
  3. 蛋白结构中可质子化残基的合理处理

以下是以Amber24操作为例,介绍蛋白(apo,无配体)体系的标准输入文件准备流程。


✅ 一、初始结构准备要求(PDB 文件)

  • 来源:实验结构(X-ray,NMR,冷冻电镜Cryo-EM)、同源建模结果或者蛋白结构预测模型(Alphafold,ESMFold等)的结果。

对于来自不同实验类型的结构,参数意义不同。以下是对比:

特性 X-ray晶体学 Cryo-EM NMR
样品环境 晶体堆积(非生理) 玻璃态冰(近生理) 溶液(生理)
结构数量 单一模型 单一模型 系综(20-100个)
典型分辨率 1.0-3.0 Å(<2.0Å为优) 2.5-4.5 Å(<3.5Å为优) ~2-5Å(精度指标不同)
动态信息 无(B因子间接反映) 无(局部分辨率反映) 直接包含在系综中
大小限制 无限制 <100-200 kDa(传统) <50-100 kDa
时间尺度 静态 静态 ps-ms平均
温度 通常100K 液氮温度(~100K) 室温/生理温度
  • 基本质量要求:
    • 完整主链(无缺失残基/原子,尤其 N/Cα/C/O),即研究对象的主链,去处不相关链;
    • 残基命名符合标准 IUPAC/Amber 命名(如 ALA, LYS, ASP;非 HIS, HID, HIE, HIP 需后续正确质子化);
    • 无重复/冲突的原子序号或链标识;
    • 删除不需要或者不关注的链或分子,主要是蛋白结晶附带的与3D结构不相关的配体;
    • 建议去除结晶水、配体、辅因子(除非需保留);若需保留,须额外处理。

PDB结构的解读请参考博文:PDB: 结构生物学的"宪法级"格式,但90%使用者从未真正读懂它

蛋白结构预测模型结构的评价指标可参考博文:蛋白结构预测模型评价指标

  • ⚠️ 注意事项
  1. 来自实验结果的PDB结构检查,结构的分辨率 ≤ 2.0 Å(X-ray)、R-factor < 0.20(越低越好);Cryo-EM全局分辨率 ≤ 3.5 Å且活性位点/配体区域局部分辨率高;如果达不到要求,需要注意研究的活性位点或者结合位点相关的残基是否可靠;
  2. 若为 NMR 结构,选择第一个模型或平均结构;
  3. 蛋白结构预测模型的PDB结构,可选择置信度高(pLDDT>70,越高越好)的一个或者多个结构。

本文以布鲁顿酪氨酸激酶的激酶结构域3D结构为例,PDB ID: 7SI1。

复制代码
HET    MES  A1101      12                                                       
HET    SO4  A1102       5                                                       
HET    SO4  A1103       5                                                       
HETNAM     MES 2-(N-MORPHOLINO)-ETHANESULFONIC ACID                             
HETNAM     SO4 SULFATE ION                                                      
FORMUL   2  MES    C6 H13 N O4 S                                                
FORMUL   3  SO4    2(O4 S 2-)                                                   
FORMUL   5  HOH   *267(H2 O)

该结构中除了蛋白A链331个氨基酸以外,另外有2个硫酸分子,1个MES分子,267个水分子。

A链是我们关注的研究目标,所以去除A链以外的部分。

✅ 二、结构预处理

预处理必不可少。预处理目的:

  1. 提取关注的结构部分,删除A链以外的分子,只保留蛋白部分的结构;
  2. 补全实验获得结构中的缺失残基,比如loop等结构,可以使用多个其它程序,比如MOE(structure preparation),Schrodinger(protein preparation),OpenMM中的pdbfixer(基于模板或简单建模的简单修复),SWISS-MODEL或者Modeller(同源建模)等等;
  3. 重命名残基符合Amber读取要求,使用Amber自带的pdb4amber;处理质子化状态:确定可电离残基(His、Asp、Glu、Lys)的质子化状态(pH 7.4为标准);处理 组氨酸(HIS)命名,HID(δ位质子化)、HIE(ε位质子化)、HIP(双质子化)
  4. 对整个蛋白结构的加氢原子的灵魂拷问:使用pdb4amber还是tleap?(讨论见下文)
  5. 处理存在的非标准残基,后续将单独介绍,本例不涉及;
  6. 处理二硫键,确认并定义CYS-CYS连接,后续将单独介绍,本例不涉及;
  7. 处理金属离子,后续将单独介绍,本例不涉及。

本例操作:(不含二硫键,非标准残基和活性位点金属离子或金属离子辅因子)

Step 1: 删除A链以外的分子,只保留蛋白A链结构;使用第三方工具补全缺失的残基,保持蛋白链的完整;删除氢原子,让Amber自动添加。处理过程中去掉了未解析的4个末尾的残基,目前残基总数327;保存结果为7SI1_prep.pdb

Srep 2: 使用pdb4amber,-y 选项即 --nohyd,不保留氢原子,可以留给tleap处理;也可以使用 --reduce选项加氢原子

复制代码
pdb4amber -i 7SI1_prep.pdb -o 7SI1_clean.pdb --nohyd

pdb4amber的输出一般包括:

|-----------------|-------------------------|
| pdb4amber输出文件名 | 解释 |
| *.pdb | 残基重新编号的蛋白结构 |
| *_nonprot.pdb | 所有非蛋白组分(配体、离子、结晶水等) |
| *_sslink | 检测到的二硫键信息 |
| *_renum.txt | 残基编号映射记录 |

本例运行后生成4个文件,其中7SI1_clean.pdb,对残基重新编号,从1开始重新编号到327,将作为tleap的输入文件。

没有二硫键和其他非蛋白组分,所以二硫键和非蛋白组分文件为空。


✅ 三、使用 tleap 构建系统(核心步骤)

tleap 是 Amber 的拓扑构建器,负责:

  • 加载力场;
  • 加载蛋白结构并分配电荷/键级/二面角参数;
  • 溶剂化(TIP3P/TIP4P/EW 水模型);
  • 中和电荷(添加 Na⁺/Cl⁻ 离子);
  • 输出最终输入文件:prmtop(拓扑)+ inpcrd(坐标)。

创建名称为leap.in 脚本,内容如下(#号后面是注释,非必须):

复制代码
# 加载力场,原子半径参数
source leaprc.protein.ff19SB     # 推荐蛋白力场(替代旧 ff14SB)
source leaprc.water.tip3p        # 水模型
set default PBradii mbondi2      # 显式设置默认 PBradii 为 mbondi2(推荐)

# 加载蛋白(自动识别残基、加氢、分配质子化态)
mol = loadpdb 7SI1_clean.pdb

# 溶剂化:立方盒,边界距离 10 Å
solvateBox mol TIP3PBOX 10.0

# 中和体系电荷
addions mol Na+ 0
addions mol Cl- 0

# 保存
saveamberparm mol 7SI1_solv.prmtop 7SI1_solv.inpcrd
savepdb mol 7SI1_solv.pdb

# 计算体系电荷
charge mol
quit

运行:

复制代码
tleap -f leap.in

运行后输出:

  • 7SI1_solv.prmtop:Amber 拓扑文件(含质量、电荷、键合关系、二面角等);
  • 7SI1_solv.inpcrd:初始坐标(含水、离子);
  • 7SI1_solv.pdb:可用于可视化验证。

⚠️ 重要注意事项

项目 说明
质子化态 tleap 默认按 pH 7.4 判断(如 ASP→ASH?否,仍为 ASP 去质子化;LYS→LYS 质子化)。His 残基需特别关注------tleap 会尝试智能判断,但建议用 check mollist mol 查看,并结合 pKa 计算(如 propka)人工校验。
力场选择 蛋白首选 ff19SB(增强 backbone χ₁/χ₂ 和 sidechain 构象采样),避免使用过时的 ff99SB
水模型匹配 ff19SBTIP3P 经联合验证,作为优选;若用 TIP4P-EW,需加载 leaprc.water.tip4pew 并确认兼容性。
周期性边界 solvateBox 生成正交盒子;如需截角八面体(octahedral),用 solvateOct(节省粒子数)。

✅ 四、残基质子化状态与特殊处理

  • 在某些情况下,残基质子化状态对MD有重要影响。
  • 在 pH 7.4(生理 pH) 条件下,蛋白质中可离子化氨基酸残基的质子化状态主要由其 pKa 值 与环境 pH 的相对关系决定。
  • 💡 注意 :AMBER 不会自动判断微环境 pKa !你需要手动指定非标准质子化状态(如将 ASP 改为 ASH 表示质子化)。
  • 以下是具有多种质子化状态的氨基酸在AMBER 力场中的默认处理(pH 7.4):

| 残基 | AMBER 默认命名 | 质子化状态 | 说明 |
| Asp | ASP | 去质子化(--COO⁻) | 带 --1 电荷 |
| Glu | GLU | 去质子化(--COO⁻) | 带 --1 电荷 |
| His | HID | Nδ1 质子化 | 最常见默认;也可用 HIE(Nε2 质子化)或 HIP(双质子化) |
| Cys | CYS | 质子化(--SH) | 中性;若形成二硫键 → CYX |
| Tyr | TYR | 质子化(--OH) | 中性 |
| Lys | LYS | 质子化(--NH₃⁺) | 帶 +1 电荷 |

Arg ARG 质子化 帶 +1 电荷
  • 以下是标准 20 种氨基酸中可离子化残基在 pH 7.4 时的典型质子化状态:
残基 侧链pKa pH 7.4时的状态 Amber残基名 电荷
Asp (D) ~3.9 去质子化 (-) ASP -1
Glu (E) ~4.3 去质子化 (-) GLU -1
Lys (K) ~10.5 质子化 (+) LYS +1
Arg (R) ~12.5 质子化 (+) ARG +1
His (H) ~6.0 部分质子化 HID/HIE/HIP 0/+1
Cys (C) ~8.3 主要为中性 CYS 0
Tyr (Y) ~10.1 质子化 (中性) TYR 0
N-terminus ~8.0 质子化 (+) - +1
C-terminus ~3.8 去质子化 (-) - -1
  • 但在真实蛋白结构中,局部环境可使 pKa 偏移 ±3 个单位以上:
微环境影响 pKa 变化 示例
疏水口袋 ↑ pKa(更难去质子化) ASP 在疏水区可能保持质子化(--COOH)
正电荷附近 ↑ pKa(稳定去质子化形式) GLU 靠近 ARG → 更易去质子化
负电荷附近 ↓ pKa(更难去质子化) ASP 靠近另一个 ASP → pKa 升高,可能质子化
金属离子配位 ↓ pKa(促进去质子化) CYS-Zn²⁺ → CYS 去质子化(--S⁻)
氢键网络 可升可降 HIS 在氢键供体/受体间,pKa 可调至 7--8
  • 组氨酸(His)- 特殊情况:

在Amber中,组氨酸由于pKa接近生理状态的pH(7.4),因此有3中不同的质子化状态,单质子化的HIE(为主)和HID,双质子化的HIP:

复制代码
pKa ≈ 6.0,接近生理pH,存在三种状态:

HID(δ位质子化)    HIE(ε位质子化)    HIP(双质子化)
     |                   |                   |
   ND1-H               NE2-H              ND1-H + NE2-H
   (中性)             (中性)             (+1电荷)
   
pH 7.4时的分布:
- ~80-90% 为 HID 或 HIE(单质子化,中性),ε位N碱性强,HIE为主
- ~10-20% 为 HIP(双质子化,带电)
- 具体比例取决于微环境
  • 半胱氨酸(Cys)- 特殊情况
环境 pH 7.4状态 Amber处理
游离Cys 主要为 CYS(-SH,中性) 标准模板
二硫键Cys CYX(氧化态,中性) 需手动指定或自动检测
金属配位Cys 可能去质子化(CYS⁻) 需自定义参数
活性位点Cys(如半胱氨酸蛋白酶) 去质子化(硫醇盐) 需特殊处理

二硫键定义示例:

如果含有二硫键,可以在tleap中使用bond关键字指定,pdb4amber有时不能正确处理。

复制代码
# tleap中指定二硫键
bond mol.32.SG mol.35.SG  # Cys32-Cys35
# 或自动检测(pdb4amber生成sslink文件)
  • 酪氨酸(Tyr)- 特殊酶活性位点

    标准状态:质子化(中性,-OH)
    特殊案例:

    • 酪氨酸激酶活性位点:可能去质子化参与磷酸转移
    • 光合作用中心:特殊氢键环境降低pKa
    • 需用PROPKA等工具预测异常pKa
  • 如何确定你的体系中残基的真实质子化状态?

方法 1:使用 pKa 预测工具(推荐)

PROPKA(集成在 PDB2PQR、ChimeraX 中)

复制代码
propka3 7SI1_clean.pdb

输出名称为7SI1_clean.pka的文件,里面有每个残基的预测 pKa 和建议质子化状态。

方法 2:手动分析(适用于已知机制)

查文献:该蛋白活性位点残基的质子化状态是否已知?

看结构:ASP/GLU 是否在疏水区?HIS 是否与 ASP/Glu 形成氢键?

方法 3:在 AMBER 中测试

分别用不同质子化状态运行短 MD,看哪个更稳定。

  • 是否需手动干预?
残基 溶液中(标准) 蛋白中(可能) AMBER 默认 是否需手动干预?
ASP 去质子化 (--) 可能质子化(若疏水) ASP (--) ✅ 若在活性位点/疏水区
GLU 去质子化 (--) 可能质子化 GLU (--) ✅ 同上
HIS 部分质子化 HID / HIE / HIP HID 强烈建议检查
CYS 质子化 (0) 可能去质子化(若配位金属) CYS (0) ✅ 若结合 Zn²⁺/Fe²⁺
LYS 质子化 (+) 几乎总是质子化 LYS (+) ❌ 通常不用改
ARG 质子化 (+) 几乎总是质子化 ARG (+) ❌ 通常不用改

总之,需要根据研究目的,确定蛋白质必要的质子化状态。重点关注组氨酸、半胱氨酸和酸性氨基酸的质子化状态,是否与研究目标一致。

✅ 五、蛋白结构加氢处理讨论

在 AMBER 工作流中,可以使用pdb4amber的reduce选项调用reduce模块加氢,也可以留给 tleap使用Amber力场参数加氢,是一个常见但关键的选择。两者在加氢策略、质子化状态、适用场景上有本质区别。

场景 推荐方式
常规蛋白模拟(无特殊 pH/催化残基) 留给 tleap 加氢(更简单、标准)
需要精确控制组氨酸/酸碱残基质子化状态(如酶活性位点) 用外部工具(如 reduce / MCPB.py / H++)预加氢,pdb4amber 仅清洗
pdb4amber 自身不推荐用于加氢! ❌ 它没有智能质子化能力

两者的本质区别:

特性 pdb4amber --reduce tleap 自动加氢
加氢时机 预处理阶段(PDB→PDB) 拓扑生成阶段(PDB→拓扑)
质子化判断 基于Reduce算法(环境感知) 基于残基模板(标准pH 7.0)
His处理方式 自动判断HID/HIE/HIP 默认全为HIS(需手动指定)
灵活性 高,可人工干预 低,依赖模板
可重复性 中等(依赖Reduce版本) 高(固定模板)
可视化验证 ✅ 加氢后可检查 ❌ 直接进模拟

两种加氢的详细描述:

1. pdb4amber 预处理加氢

pdb4amber 是AmberTools中专门用于准备PDB文件的工具,它可以在进入tleap前对结构进行"清理"和预处理。pdb4amber 的设计初衷是"清洗 PDB 格式",不是"加氢工具" 。它的 --reduce 选项只是调用外部 reduce 程序,并非内置功能。

特点:

  • 修复结构问题:自动修复残基命名、原子命名、缺失重原子等(例如将HIS转换为HID/HIE/HIP)。
  • 选择性加氢 :可根据pH值(通过--reduce选项)添加氢原子,并优化氢原子的取向(尤其是His、Asn、Gln的翻转问题)。
  • 去除非标准内容:删除水分子、异质原子(如配体、结晶剂),生成"干净"的蛋白结构。
  • 输出标准化PDB:生成符合Amber命名规范的PDB文件(如原子名称、残基顺序)。

典型命令:

复制代码
pdb4amber -i input.pdb -o cleaned.pdb --reduce  # 加氢并优化氢键网络

优点:

  • 更可控:可先检查修复后的结构,再进入tleap。
  • 处理复杂情况:适合晶体结构中存在命名错误、质子化状态不确定的情况。
  • 减少tleap报错:避免tleap因原子命名问题而失败。

2. tleap 自动加氢

tleap 是Amber的建模工具,在加载力场和生成拓扑文件时,可以自动添加缺失的氢原子。

特点:

  • 力场依赖:加氢基于所选力场(如ff19SB)的模板,氢原子类型与力场匹配。
  • 简单直接:一条命令自动完成加氢、添加溶剂、离子等步骤。
  • 默认质子化状态 :默认添加标准质子化状态(如Lys带正电、Glu带负电),但不自动优化His/Asn/Gln的取向

典型命令(在tleap内):

复制代码
source leaprc.protein.ff14SB  # 加载力场
mol = loadpdb input.pdb       # 加载PDB,自动加氢

优点:

  • 流程简单:适合结构规范、无需特殊处理的体系。
  • 集成化:加氢与后续步骤(溶剂化、中和)一气呵成。

关键区别对比

方面 pdb4amber + reduce tleap 自动加氢
氢原子取向优化 ✅ 通过Reduce算法优化(如His翻转、羟基取向) ❌ 仅按模板添加,不优化
修复结构错误 ✅ 自动修复残基/原子命名、缺失重原子 ❌ 遇到错误可能直接报错
质子化状态控制 ✅ 可通过pH值预测,并手动调整 ⚠️ 仅默认状态,需手动修改残基名称(如HIE/HID)
流程复杂度 多一步预处理,但更稳健 一步到位,但可能隐藏结构问题
适用场景 晶体结构分辨率低、有命名问题、需精确质子化状态 结构规范、无需特殊处理的体系

3. 推荐工作流程

结合两者优势的最佳实践:

  1. 初始检查

    复制代码
    pdb4amber -i 7SI1_prep.pdb -o 7SI1_clean_noH.pdb --nohyd  # 检查问题但不加氢
  2. 修复并加氢(如需优化氢键):

    复制代码
    pdb4amber -i 7SI1_clean_noH.pdb -o 7SI1_clean.pdb --reduce   # 加氢并优化
  3. 手动调整(如有必要):

    • 检查clean_H.pdb中His、Asn、Gln的取向,用Chimera/VMD确认。
    • 修改残基名称(如HIP/HID/HIE)以匹配质子化状态。
  4. 进入tleap

    复制代码
    source leaprc.protein.ff19SB
    mol = loadpdb 7SI1_clean_H.pdb  # 此时tleap不会重复加氢(因PDB中已含氢)
    solvateBox mol TIP3PBOX 10.0
    addions mol Na+ 0
    saveamberparm mol 7SI1_solv.prmtop 7SI1_solv.inpcrd

⚠️ 注意事项

  • 氢原子重复问题 :若PDB已含氢,tleap默认不再添加,但会检查是否与力场匹配。
  • His质子化 :晶体结构中的His通常为中性(HID/HIE),但需根据pH决定是否质子化(HIP)。pdb4amber的--reduce可根据pH预测,而tleap需手动指定残基名。
  • 氢原子命名:Amber力场对氢原子名称有严格规定(如HG1、HH22),pdb4amber可转换至正确命名。

小结建议

  • 优先使用pdb4amber --reduce:尤其对晶体结构,可避免后续因氢原子问题导致的能量异常。
  • 直接使用tleap:仅当PDB文件来源可靠(如经MD预处理)、无需优化氢键时。
  • 始终可视化检查:无论用哪种方法,用VMD/Chimera检查加氢后的结构是否合理(特别是带电残基和氢键网络)。

✅ 六、验证与质检

  • 使用parmed 检查:

    parmed 7SI1_solv.prmtop << EOF
    printDetails :HIE
    EOF

  • 使用PyMol等查看溶液体系:

    pymol 7SI1_solv.pdb

可以看到,溶液边界将蛋白部分完美包裹。需要确保蛋白不跨越周期性边界,通过solvateBox边界调节,一般10-12Å足够,太高会导致体系太大,运行效率降低。

✅ 七、体系准备与MD

后续工作按照蛋白溶液体系模拟即可。

可以参考系列博文:

Amber分子动力学模拟2: 蛋白水溶液体系的模拟

大体流程如下分阶段准备体系:

  1. 仅约束溶质,优化溶剂(500-1000步)

  2. 全系统最小化(无约束)

  3. 逐步升温(NVT系综,100K → 300K)

  4. 密度平衡(NPT系综,调整盒子尺寸)

  5. 生产模拟(NPT或NVE)

本文介绍​​​​Amber用于分子动力学模拟输入文件的准备:蛋白结构准备,一般流程和关键注意事项。

相关推荐
Blockbuater_drug12 天前
Amber 分子动力学模拟4: Amber文件格式解读,转换
md·格式转换·分子动力学模拟文件格式·amber·轨迹文件·坐标文件·拓扑文件
码农不会写诗1 年前
23. Lammps命令学习-8之read_dump
md·reaxff·分子动力学模拟