传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法,本质上是将化学和生物问题转化为**自然语言处理(NLP)**问题。虽然这种方法在处理大规模数据集时效率极高,且不需要昂贵的 3D 结构数据,但它存在严重的内在缺陷。
以下是该方法的详细缺陷分析,分为药物表示、蛋白质表示、交互建模三个维度:
1. 药物表示的缺陷(SMILES 序列)
SMILES 将三维的分子结构"压扁"成一维的字符串,这导致了大量关键信息的丢失:
- 空间构象丢失(Loss of 3D Geometry): 药物分子在与蛋白质结合时,其活性取决于特定的三维构象(Conformation)。SMILES 无法表达分子的空间形状、键角和扭转角。
- 立体化学表达不足: 虽然 SMILES 可以通过
/、\或@表示顺反异构和手性,但模型(尤其是简单的 CNN 或 RNN)很难从这些字符中学习到手性中心对生物活性产生的剧烈影响(例如,一种异构体是药物,另一种可能是毒药)。 - 拓扑结构碎片化: 在 SMILES 中,在空间上相邻的两个原子在字符串中可能相隔很远(例如环状结构需要用数字标记闭环)。这增加了模型学习分子拓扑结构的难度。
2. 蛋白质表示的缺陷(氨基酸序列)
蛋白质的功能由其三维折叠结构决定,单纯依赖一级序列(Primary Sequence)存在严重局限:
- 忽略三维折叠(Folding Ignored): 蛋白质的活性中心(Active Site)通常由在序列上相隔很远的氨基酸在空间上聚集而成。仅靠序列建模,模型很难捕捉到这种"远距离依赖"的空间接触。
- 缺乏动态特性: 蛋白质不是静态的字符串,而是在溶液中不断波动的动态实体。序列模型无法描述蛋白质的柔性(Flexibility)以及在药物结合时发生的"诱导契合"(Induced Fit)现象。
- 忽略翻译后修饰(PTMs): 许多蛋白质在合成后会经过磷酸化、糖基化等修饰,这些修饰极大地影响其与药物的结合,但这些信息在标准的氨基酸序列中完全缺失。
3. 交互建模的缺陷(Interaction Modeling)
当模型将两个序列分别编码后进行拼接或计算相似度时,它实际上是在做"模式匹配"而非"物理模拟":
- 缺乏物理化学机制: 真正的 DTI 依赖于氢键、疏水相互作用、范德华力、静电吸引等物理力。基于序列的方法将其简化为向量空间的距离,完全忽略了这些决定结合能的物理化学本质。
- 缺乏可解释性(Black Box): 这种方法可以告诉你"这个药可能结合这个蛋白",但无法告诉你"药物的哪个原子与蛋白的哪个残基发生了作用"。这对于药物化学家进行**先导化合物优化(Lead Optimization)**几乎没有指导意义。
- 泛化能力差(Poor Generalization): 模型容易陷入"过拟合"于训练集中的特定序列模式。如果测试集中的药物或蛋白属于全新的化学骨架或蛋白质家族(Out-of-distribution),模型往往失效,因为它学习的是统计相关性而非生物物理规律。
总结与演进方向
| 维度 | 传统序列方法 (SMILES →\rightarrow→ AA) | 缺陷核心 | 现代改进方向 |
|---|---|---|---|
| 药物 | 一维字符串 | 丢失 3D 构象与拓扑 | →\rightarrow→ 分子图 (GNN) / 3D 药效团 |
| 蛋白 | 一维序列 | 丢失折叠结构与活性位点 | →\rightarrow→ AlphaFold2 结构 / 蛋白图 |
| 交互 | 向量拼接/注意力机制 | 缺乏物理化学机制 | →\rightarrow→ 蛋白质-配体复合物对接 (Docking) / 几何深度学习 |
结论: 传统 DTI 方法虽然在**快速筛选(Virtual Screening)**阶段有其价值,但由于其将"空间物理问题"简化为"字符串匹配问题",导致其在精度、可解释性和泛化能力上存在天然的瓶颈。