Amber分子动力学模拟5.1: 蛋白结构准备的一般流程和关键注意事项

在使用 Amber（特别是 AMBER force field + sander/pmemd/ambertools）进行分子动力学（MD）模拟前，蛋白结构的准备 是关键的第一步。Amber 本身不直接提供图形化建模工具，但通过其配套软件包 AmberTools （尤其是 tleap、pdb4amber、antechamber 等）可系统化完成蛋白结构的清洗、补全、质子化、拓扑与坐标文件生成。

本文主要展示和讨论：

进行分子动力学模拟前蛋白结构准备的一般流程
蛋白结构的准备时加氢原子操作时，使用pdb4amber的reduce还是tleap？
蛋白结构中可质子化残基的合理处理

以下是以Amber24操作为例，介绍蛋白（apo，无配体）体系的标准输入文件准备流程。

✅ 一、初始结构准备要求（PDB 文件）

来源：实验结构（X-ray，NMR，冷冻电镜Cryo-EM）、同源建模结果或者蛋白结构预测模型（Alphafold,ESMFold等）的结果。

对于来自不同实验类型的结构，参数意义不同。以下是对比：

特性	X-ray晶体学	Cryo-EM	NMR
样品环境	晶体堆积（非生理）	玻璃态冰（近生理）	溶液（生理）
结构数量	单一模型	单一模型	系综（20-100个）
典型分辨率	1.0-3.0 Å（<2.0Å为优）	2.5-4.5 Å（<3.5Å为优）	~2-5Å（精度指标不同）
动态信息	无（B因子间接反映）	无（局部分辨率反映）	直接包含在系综中
大小限制	无限制	<100-200 kDa（传统）	<50-100 kDa
时间尺度	静态	静态	ps-ms平均
温度	通常100K	液氮温度（~100K）	室温/生理温度

基本质量要求：
- 完整主链（无缺失残基/原子，尤其 N/Cα/C/O），即研究对象的主链，去处不相关链；
- 残基命名符合标准 IUPAC/Amber 命名（如 ALA, LYS, ASP；非 HIS, HID, HIE, HIP 需后续正确质子化）；
- 无重复/冲突的原子序号或链标识；
- 删除不需要或者不关注的链或分子，主要是蛋白结晶附带的与3D结构不相关的配体；
- 建议去除结晶水、配体、辅因子（除非需保留）；若需保留，须额外处理。

PDB结构的解读请参考博文：PDB: 结构生物学的"宪法级"格式，但90%使用者从未真正读懂它

蛋白结构预测模型结构的评价指标可参考博文：蛋白结构预测模型评价指标

⚠️ 注意事项

来自实验结果的PDB结构检查，结构的分辨率 ≤ 2.0 Å（X-ray）、R-factor < 0.20（越低越好）；Cryo-EM全局分辨率 ≤ 3.5 Å且活性位点/配体区域局部分辨率高；如果达不到要求，需要注意研究的活性位点或者结合位点相关的残基是否可靠；
若为 NMR 结构，选择第一个模型或平均结构；
蛋白结构预测模型的PDB结构，可选择置信度高（pLDDT>70，越高越好）的一个或者多个结构。

本文以布鲁顿酪氨酸激酶的激酶结构域3D结构为例，PDB ID: 7SI1。

复制代码

HET    MES  A1101      12                                                       
HET    SO4  A1102       5                                                       
HET    SO4  A1103       5                                                       
HETNAM     MES 2-(N-MORPHOLINO)-ETHANESULFONIC ACID                             
HETNAM     SO4 SULFATE ION                                                      
FORMUL   2  MES    C6 H13 N O4 S                                                
FORMUL   3  SO4    2(O4 S 2-)                                                   
FORMUL   5  HOH   *267(H2 O)

该结构中除了蛋白A链331个氨基酸以外，另外有2个硫酸分子，1个MES分子，267个水分子。

A链是我们关注的研究目标，所以去除A链以外的部分。

✅ 二、结构预处理

预处理必不可少。预处理目的：

提取关注的结构部分，删除A链以外的分子，只保留蛋白部分的结构；
补全实验获得结构中的缺失残基，比如loop等结构，可以使用多个其它程序，比如MOE(structure preparation)，Schrodinger（protein preparation），OpenMM中的pdbfixer（基于模板或简单建模的简单修复），SWISS-MODEL或者Modeller（同源建模）等等；
重命名残基符合Amber读取要求，使用Amber自带的pdb4amber；处理质子化状态：确定可电离残基（His、Asp、Glu、Lys）的质子化状态（pH 7.4为标准）；处理组氨酸（HIS）命名，HID（δ位质子化）、HIE（ε位质子化）、HIP（双质子化）
对整个蛋白结构的加氢原子的灵魂拷问：使用pdb4amber还是tleap？（讨论见下文）
处理存在的非标准残基，后续将单独介绍，本例不涉及；
处理二硫键，确认并定义CYS-CYS连接，后续将单独介绍，本例不涉及；
处理金属离子，后续将单独介绍，本例不涉及。

本例操作：（不含二硫键，非标准残基和活性位点金属离子或金属离子辅因子）

Step 1： 删除A链以外的分子，只保留蛋白A链结构；使用第三方工具补全缺失的残基，保持蛋白链的完整；删除氢原子，让Amber自动添加。处理过程中去掉了未解析的4个末尾的残基，目前残基总数327；保存结果为7SI1_prep.pdb

Srep 2： 使用pdb4amber，-y 选项即 --nohyd，不保留氢原子，可以留给tleap处理；也可以使用 --reduce选项加氢原子

复制代码

pdb4amber -i 7SI1_prep.pdb -o 7SI1_clean.pdb --nohyd

pdb4amber的输出一般包括：

|-----------------|-------------------------|
| pdb4amber输出文件名 | 解释 |
| *.pdb | 残基重新编号的蛋白结构 |
| *_nonprot.pdb | 所有非蛋白组分（配体、离子、结晶水等） |
| *_sslink | 检测到的二硫键信息 |
| *_renum.txt | 残基编号映射记录 |

本例运行后生成4个文件，其中7SI1_clean.pdb，对残基重新编号，从1开始重新编号到327，将作为tleap的输入文件。

没有二硫键和其他非蛋白组分，所以二硫键和非蛋白组分文件为空。

✅ 三、使用 `tleap` 构建系统（核心步骤）

tleap 是 Amber 的拓扑构建器，负责：

加载力场；
加载蛋白结构并分配电荷/键级/二面角参数；
溶剂化（TIP3P/TIP4P/EW 水模型）；
中和电荷（添加 Na⁺/Cl⁻ 离子）；
输出最终输入文件：prmtop（拓扑）+ inpcrd（坐标）。

创建名称为leap.in 脚本，内容如下（#号后面是注释，非必须）：

复制代码

# 加载力场，原子半径参数
source leaprc.protein.ff19SB     # 推荐蛋白力场（替代旧 ff14SB）
source leaprc.water.tip3p        # 水模型
set default PBradii mbondi2      # 显式设置默认 PBradii 为 mbondi2（推荐）

# 加载蛋白（自动识别残基、加氢、分配质子化态）
mol = loadpdb 7SI1_clean.pdb

# 溶剂化：立方盒，边界距离 10 Å
solvateBox mol TIP3PBOX 10.0

# 中和体系电荷
addions mol Na+ 0
addions mol Cl- 0

# 保存
saveamberparm mol 7SI1_solv.prmtop 7SI1_solv.inpcrd
savepdb mol 7SI1_solv.pdb

# 计算体系电荷
charge mol
quit

运行：

复制代码

tleap -f leap.in

运行后输出：

7SI1_solv.prmtop：Amber 拓扑文件（含质量、电荷、键合关系、二面角等）；
7SI1_solv.inpcrd：初始坐标（含水、离子）；
7SI1_solv.pdb：可用于可视化验证。

⚠️ 重要注意事项

项目	说明
质子化态	`tleap` 默认按 pH 7.4 判断（如 ASP→`ASH`？否，仍为 `ASP` 去质子化；LYS→`LYS` 质子化）。His 残基需特别关注------`tleap` 会尝试智能判断，但建议用 `check mol` 或 `list mol` 查看，并结合 pKa 计算（如 `propka`）人工校验。
力场选择	蛋白首选 `ff19SB`（增强 backbone χ₁/χ₂ 和 sidechain 构象采样），避免使用过时的 `ff99SB`。
水模型匹配	`ff19SB` 与 `TIP3P` 经联合验证，作为优选；若用 `TIP4P-EW`，需加载 `leaprc.water.tip4pew` 并确认兼容性。
周期性边界	`solvateBox` 生成正交盒子；如需截角八面体（octahedral），用 `solvateOct`（节省粒子数）。

✅ 四、残基质子化状态与特殊处理

在某些情况下，残基质子化状态对MD有重要影响。
在 pH 7.4（生理 pH）条件下，蛋白质中可离子化氨基酸残基的质子化状态主要由其 pKa 值与环境 pH 的相对关系决定。
💡 注意：AMBER 不会自动判断微环境 pKa ！你需要手动指定非标准质子化状态（如将 ASP 改为 ASH 表示质子化）。
以下是具有多种质子化状态的氨基酸在AMBER 力场中的默认处理（pH 7.4）：

| 残基 | AMBER 默认命名 | 质子化状态 | 说明 |
| Asp | ASP | 去质子化（--COO⁻） | 带 --1 电荷 |
| Glu | GLU | 去质子化（--COO⁻） | 带 --1 电荷 |
| His | HID | Nδ1 质子化 | 最常见默认；也可用 HIE（Nε2 质子化）或 HIP（双质子化） |
| Cys | CYS | 质子化（--SH） | 中性；若形成二硫键 → CYX |
| Tyr | TYR | 质子化（--OH） | 中性 |
| Lys | LYS | 质子化（--NH₃⁺） | 帶 +1 电荷 |

Arg	ARG	质子化	帶 +1 电荷

以下是标准 20 种氨基酸中可离子化残基在 pH 7.4 时的典型质子化状态:

残基	侧链pKa	pH 7.4时的状态	Amber残基名	电荷
Asp (D)	~3.9	去质子化 (-)	`ASP`	-1
Glu (E)	~4.3	去质子化 (-)	`GLU`	-1
Lys (K)	~10.5	质子化 (+)	`LYS`	+1
Arg (R)	~12.5	质子化 (+)	`ARG`	+1
His (H)	~6.0	部分质子化	`HID`/`HIE`/`HIP`	0/+1
Cys (C)	~8.3	主要为中性	`CYS`	0
Tyr (Y)	~10.1	质子化 (中性)	`TYR`	0
N-terminus	~8.0	质子化 (+)	-	+1
C-terminus	~3.8	去质子化 (-)	-	-1

但在真实蛋白结构中，局部环境可使 pKa 偏移 ±3 个单位以上:

微环境影响	pKa 变化	示例
疏水口袋	↑ pKa（更难去质子化）	ASP 在疏水区可能保持质子化（--COOH）
正电荷附近	↑ pKa（稳定去质子化形式）	GLU 靠近 ARG → 更易去质子化
负电荷附近	↓ pKa（更难去质子化）	ASP 靠近另一个 ASP → pKa 升高，可能质子化
金属离子配位	↓ pKa（促进去质子化）	CYS-Zn²⁺ → CYS 去质子化（--S⁻）
氢键网络	可升可降	HIS 在氢键供体/受体间，pKa 可调至 7--8

组氨酸（His）- 特殊情况：

在Amber中，组氨酸由于pKa接近生理状态的pH（7.4），因此有3中不同的质子化状态，单质子化的HIE（为主）和HID，双质子化的HIP：

复制代码

pKa ≈ 6.0，接近生理pH，存在三种状态：

HID（δ位质子化）    HIE（ε位质子化）    HIP（双质子化）
     |                   |                   |
   ND1-H               NE2-H              ND1-H + NE2-H
   （中性）             （中性）             （+1电荷）
   
pH 7.4时的分布：
- ~80-90% 为 HID 或 HIE（单质子化，中性），ε位N碱性强，HIE为主
- ~10-20% 为 HIP（双质子化，带电）
- 具体比例取决于微环境

半胱氨酸（Cys）- 特殊情况

环境	pH 7.4状态	Amber处理
游离Cys	主要为 `CYS`（-SH，中性）	标准模板
二硫键Cys	`CYX`（氧化态，中性）	需手动指定或自动检测
金属配位Cys	可能去质子化（CYS⁻）	需自定义参数
活性位点Cys（如半胱氨酸蛋白酶）	去质子化（硫醇盐）	需特殊处理

二硫键定义示例：

如果含有二硫键，可以在tleap中使用bond关键字指定，pdb4amber有时不能正确处理。

复制代码

# tleap中指定二硫键
bond mol.32.SG mol.35.SG  # Cys32-Cys35
# 或自动检测（pdb4amber生成sslink文件）

酪氨酸（Tyr）- 特殊酶活性位点

标准状态：质子化（中性，-OH）
特殊案例：
- 酪氨酸激酶活性位点：可能去质子化参与磷酸转移
- 光合作用中心：特殊氢键环境降低pKa
- 需用PROPKA等工具预测异常pKa
如何确定你的体系中残基的真实质子化状态？

方法 1：使用 pKa 预测工具（推荐）

PROPKA（集成在 PDB2PQR、ChimeraX 中）

复制代码

propka3 7SI1_clean.pdb

输出名称为7SI1_clean.pka的文件，里面有每个残基的预测 pKa 和建议质子化状态。

方法 2：手动分析（适用于已知机制）

查文献：该蛋白活性位点残基的质子化状态是否已知？

看结构：ASP/GLU 是否在疏水区？HIS 是否与 ASP/Glu 形成氢键？

方法 3：在 AMBER 中测试

分别用不同质子化状态运行短 MD，看哪个更稳定。

是否需手动干预？

残基	溶液中（标准）	蛋白中（可能）	AMBER 默认	是否需手动干预？
ASP	去质子化 (--)	可能质子化（若疏水）	ASP (--)	✅ 若在活性位点/疏水区
GLU	去质子化 (--)	可能质子化	GLU (--)	✅ 同上
HIS	部分质子化	HID / HIE / HIP	HID	✅ 强烈建议检查
CYS	质子化 (0)	可能去质子化（若配位金属）	CYS (0)	✅ 若结合 Zn²⁺/Fe²⁺
LYS	质子化 (+)	几乎总是质子化	LYS (+)	❌ 通常不用改
ARG	质子化 (+)	几乎总是质子化	ARG (+)	❌ 通常不用改

总之，需要根据研究目的，确定蛋白质必要的质子化状态。重点关注组氨酸、半胱氨酸和酸性氨基酸的质子化状态，是否与研究目标一致。

✅ 五、蛋白结构加氢处理讨论

在 AMBER 工作流中，可以使用pdb4amber的reduce选项调用reduce模块加氢，也可以留给 tleap使用Amber力场参数加氢，是一个常见但关键的选择。两者在加氢策略、质子化状态、适用场景上有本质区别。

场景	推荐方式
常规蛋白模拟（无特殊 pH/催化残基）	✅ 留给 `tleap` 加氢（更简单、标准）
需要精确控制组氨酸/酸碱残基质子化状态（如酶活性位点）	✅ 用外部工具（如 `reduce` / `MCPB.py` / `H++`）预加氢，`pdb4amber` 仅清洗
`pdb4amber` 自身不推荐用于加氢！	❌ 它没有智能质子化能力

两者的本质区别：

特性	`pdb4amber --reduce`	`tleap` 自动加氢
加氢时机	预处理阶段（PDB→PDB）	拓扑生成阶段（PDB→拓扑）
质子化判断	基于Reduce算法（环境感知）	基于残基模板（标准pH 7.0）
His处理方式	自动判断HID/HIE/HIP	默认全为HIS（需手动指定）
灵活性	高，可人工干预	低，依赖模板
可重复性	中等（依赖Reduce版本）	高（固定模板）
可视化验证	✅ 加氢后可检查	❌ 直接进模拟

两种加氢的详细描述：

1. pdb4amber 预处理加氢

pdb4amber 是AmberTools中专门用于准备PDB文件的工具，它可以在进入tleap前对结构进行"清理"和预处理。pdb4amber 的设计初衷是"清洗 PDB 格式"，不是"加氢工具" 。它的 --reduce 选项只是调用外部 reduce 程序，并非内置功能。

特点：

修复结构问题：自动修复残基命名、原子命名、缺失重原子等（例如将HIS转换为HID/HIE/HIP）。
选择性加氢 ：可根据pH值（通过--reduce选项）添加氢原子，并优化氢原子的取向（尤其是His、Asn、Gln的翻转问题）。
去除非标准内容：删除水分子、异质原子（如配体、结晶剂），生成"干净"的蛋白结构。
输出标准化PDB：生成符合Amber命名规范的PDB文件（如原子名称、残基顺序）。

典型命令：

复制代码

pdb4amber -i input.pdb -o cleaned.pdb --reduce  # 加氢并优化氢键网络

优点：

更可控：可先检查修复后的结构，再进入tleap。
处理复杂情况：适合晶体结构中存在命名错误、质子化状态不确定的情况。
减少tleap报错：避免tleap因原子命名问题而失败。

2. tleap 自动加氢

tleap 是Amber的建模工具，在加载力场和生成拓扑文件时，可以自动添加缺失的氢原子。

特点：

力场依赖：加氢基于所选力场（如ff19SB）的模板，氢原子类型与力场匹配。
简单直接：一条命令自动完成加氢、添加溶剂、离子等步骤。
默认质子化状态 ：默认添加标准质子化状态（如Lys带正电、Glu带负电），但不自动优化His/Asn/Gln的取向。

典型命令（在tleap内）：

复制代码

source leaprc.protein.ff14SB  # 加载力场
mol = loadpdb input.pdb       # 加载PDB，自动加氢

优点：

流程简单：适合结构规范、无需特殊处理的体系。
集成化：加氢与后续步骤（溶剂化、中和）一气呵成。

关键区别对比

方面	pdb4amber + reduce	tleap 自动加氢
氢原子取向优化	✅ 通过Reduce算法优化（如His翻转、羟基取向）	❌ 仅按模板添加，不优化
修复结构错误	✅ 自动修复残基/原子命名、缺失重原子	❌ 遇到错误可能直接报错
质子化状态控制	✅ 可通过pH值预测，并手动调整	⚠️ 仅默认状态，需手动修改残基名称（如HIE/HID）
流程复杂度	多一步预处理，但更稳健	一步到位，但可能隐藏结构问题
适用场景	晶体结构分辨率低、有命名问题、需精确质子化状态	结构规范、无需特殊处理的体系

3. 推荐工作流程

结合两者优势的最佳实践：

初始检查：

复制代码

pdb4amber -i 7SI1_prep.pdb -o 7SI1_clean_noH.pdb --nohyd  # 检查问题但不加氢

修复并加氢（如需优化氢键）：

复制代码

pdb4amber -i 7SI1_clean_noH.pdb -o 7SI1_clean.pdb --reduce   # 加氢并优化

手动调整（如有必要）：
- 检查clean_H.pdb中His、Asn、Gln的取向，用Chimera/VMD确认。
- 修改残基名称（如HIP/HID/HIE）以匹配质子化状态。

进入tleap：

复制代码

source leaprc.protein.ff19SB
mol = loadpdb 7SI1_clean_H.pdb  # 此时tleap不会重复加氢（因PDB中已含氢）
solvateBox mol TIP3PBOX 10.0
addions mol Na+ 0
saveamberparm mol 7SI1_solv.prmtop 7SI1_solv.inpcrd

⚠️ 注意事项

氢原子重复问题 ：若PDB已含氢，tleap默认不再添加，但会检查是否与力场匹配。
His质子化 ：晶体结构中的His通常为中性（HID/HIE），但需根据pH决定是否质子化（HIP）。pdb4amber的--reduce可根据pH预测，而tleap需手动指定残基名。
氢原子命名：Amber力场对氢原子名称有严格规定（如HG1、HH22），pdb4amber可转换至正确命名。

小结建议

优先使用pdb4amber --reduce：尤其对晶体结构，可避免后续因氢原子问题导致的能量异常。
直接使用tleap：仅当PDB文件来源可靠（如经MD预处理）、无需优化氢键时。
始终可视化检查：无论用哪种方法，用VMD/Chimera检查加氢后的结构是否合理（特别是带电残基和氢键网络）。

✅ 六、验证与质检

使用parmed 检查：

parmed 7SI1_solv.prmtop << EOF
printDetails :HIE
EOF
使用PyMol等查看溶液体系：

pymol 7SI1_solv.pdb

可以看到，溶液边界将蛋白部分完美包裹。需要确保蛋白不跨越周期性边界，通过solvateBox边界调节，一般10-12Å足够，太高会导致体系太大，运行效率降低。

✅ 七、体系准备与MD

后续工作按照蛋白溶液体系模拟即可。

可以参考系列博文：

Amber分子动力学模拟2: 蛋白水溶液体系的模拟

大体流程如下分阶段准备体系：

仅约束溶质，优化溶剂（500-1000步）
全系统最小化（无约束）
逐步升温（NVT系综，100K → 300K）
密度平衡（NPT系综，调整盒子尺寸）
生产模拟（NPT或NVE）

Amber分子动力学模拟5.1: 蛋白结构准备的一般流程和关键注意事项

✅ 一、初始结构准备要求（PDB 文件）

✅ 二、结构预处理

✅ 三、使用 tleap 构建系统（核心步骤）

✅ 四、残基质子化状态与特殊处理

✅ 五、蛋白结构加氢处理讨论

✅ 六、验证与质检

✅ 七、体系准备与MD

✅ 三、使用 `tleap` 构建系统（核心步骤）