传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法的缺陷

传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法,本质上是将化学和生物问题转化为**自然语言处理(NLP)**问题。虽然这种方法在处理大规模数据集时效率极高,且不需要昂贵的 3D 结构数据,但它存在严重的内在缺陷。

以下是该方法的详细缺陷分析,分为药物表示、蛋白质表示、交互建模三个维度:

1. 药物表示的缺陷(SMILES 序列)

SMILES 将三维的分子结构"压扁"成一维的字符串,这导致了大量关键信息的丢失:

  • 空间构象丢失(Loss of 3D Geometry): 药物分子在与蛋白质结合时,其活性取决于特定的三维构象(Conformation)。SMILES 无法表达分子的空间形状、键角和扭转角。
  • 立体化学表达不足: 虽然 SMILES 可以通过 /\@ 表示顺反异构和手性,但模型(尤其是简单的 CNN 或 RNN)很难从这些字符中学习到手性中心对生物活性产生的剧烈影响(例如,一种异构体是药物,另一种可能是毒药)。
  • 拓扑结构碎片化: 在 SMILES 中,在空间上相邻的两个原子在字符串中可能相隔很远(例如环状结构需要用数字标记闭环)。这增加了模型学习分子拓扑结构的难度。

2. 蛋白质表示的缺陷(氨基酸序列)

蛋白质的功能由其三维折叠结构决定,单纯依赖一级序列(Primary Sequence)存在严重局限:

  • 忽略三维折叠(Folding Ignored): 蛋白质的活性中心(Active Site)通常由在序列上相隔很远的氨基酸在空间上聚集而成。仅靠序列建模,模型很难捕捉到这种"远距离依赖"的空间接触。
  • 缺乏动态特性: 蛋白质不是静态的字符串,而是在溶液中不断波动的动态实体。序列模型无法描述蛋白质的柔性(Flexibility)以及在药物结合时发生的"诱导契合"(Induced Fit)现象。
  • 忽略翻译后修饰(PTMs): 许多蛋白质在合成后会经过磷酸化、糖基化等修饰,这些修饰极大地影响其与药物的结合,但这些信息在标准的氨基酸序列中完全缺失。

3. 交互建模的缺陷(Interaction Modeling)

当模型将两个序列分别编码后进行拼接或计算相似度时,它实际上是在做"模式匹配"而非"物理模拟":

  • 缺乏物理化学机制: 真正的 DTI 依赖于氢键、疏水相互作用、范德华力、静电吸引等物理力。基于序列的方法将其简化为向量空间的距离,完全忽略了这些决定结合能的物理化学本质。
  • 缺乏可解释性(Black Box): 这种方法可以告诉你"这个药可能结合这个蛋白",但无法告诉你"药物的哪个原子与蛋白的哪个残基发生了作用"。这对于药物化学家进行**先导化合物优化(Lead Optimization)**几乎没有指导意义。
  • 泛化能力差(Poor Generalization): 模型容易陷入"过拟合"于训练集中的特定序列模式。如果测试集中的药物或蛋白属于全新的化学骨架或蛋白质家族(Out-of-distribution),模型往往失效,因为它学习的是统计相关性而非生物物理规律。

总结与演进方向

维度 传统序列方法 (SMILES →\rightarrow→ AA) 缺陷核心 现代改进方向
药物 一维字符串 丢失 3D 构象与拓扑 →\rightarrow→ 分子图 (GNN) / 3D 药效团
蛋白 一维序列 丢失折叠结构与活性位点 →\rightarrow→ AlphaFold2 结构 / 蛋白图
交互 向量拼接/注意力机制 缺乏物理化学机制 →\rightarrow→ 蛋白质-配体复合物对接 (Docking) / 几何深度学习

结论: 传统 DTI 方法虽然在**快速筛选(Virtual Screening)**阶段有其价值,但由于其将"空间物理问题"简化为"字符串匹配问题",导致其在精度、可解释性和泛化能力上存在天然的瓶颈。

相关推荐
牛奶13 分钟前
AI时代裁员后:清零是君子豹变
人工智能·程序员
武子康16 分钟前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
程序员cxuan2 小时前
Codex 会把磁盘给烧了?完整复盘来了!
人工智能·后端·程序员
甲维斯2 小时前
字节版“Codex”初体验,Seed 2.1pro所有人免费用!
人工智能·ai编程·豆包marscode
半个落月3 小时前
从 Tokenization 到 Embedding:用 Node.js 搞懂大模型为什么先“分词”再“向量化”
人工智能·node.js
vanuan3 小时前
MCP协议实战(Java版):用Spring Boot让AI直接查你的数据库
人工智能
雪隐3 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
Coffeeee4 小时前
帮你快速理解AI Agent之我想招个Android实习生
android·人工智能·agent
新新技术迷4 小时前
AI聊天自动跟随滚动,附回到底部按钮
人工智能
先锋部队4 小时前
用Web Worker解析AI返回的大文本不卡UI
人工智能