传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI（Drug-Target Interaction）预测方法的缺陷

传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI（Drug-Target Interaction）预测方法，本质上是将化学和生物问题转化为**自然语言处理（NLP）**问题。虽然这种方法在处理大规模数据集时效率极高，且不需要昂贵的 3D 结构数据，但它存在严重的内在缺陷。

以下是该方法的详细缺陷分析，分为药物表示、蛋白质表示、交互建模三个维度：

SMILES 将三维的分子结构"压扁"成一维的字符串，这导致了大量关键信息的丢失：

空间构象丢失（Loss of 3D Geometry）： 药物分子在与蛋白质结合时，其活性取决于特定的三维构象（Conformation）。SMILES 无法表达分子的空间形状、键角和扭转角。
立体化学表达不足： 虽然 SMILES 可以通过 /、\ 或 @ 表示顺反异构和手性，但模型（尤其是简单的 CNN 或 RNN）很难从这些字符中学习到手性中心对生物活性产生的剧烈影响（例如，一种异构体是药物，另一种可能是毒药）。
拓扑结构碎片化： 在 SMILES 中，在空间上相邻的两个原子在字符串中可能相隔很远（例如环状结构需要用数字标记闭环）。这增加了模型学习分子拓扑结构的难度。

蛋白质的功能由其三维折叠结构决定，单纯依赖一级序列（Primary Sequence）存在严重局限：

忽略三维折叠（Folding Ignored）： 蛋白质的活性中心（Active Site）通常由在序列上相隔很远的氨基酸在空间上聚集而成。仅靠序列建模，模型很难捕捉到这种"远距离依赖"的空间接触。
缺乏动态特性： 蛋白质不是静态的字符串，而是在溶液中不断波动的动态实体。序列模型无法描述蛋白质的柔性（Flexibility）以及在药物结合时发生的"诱导契合"（Induced Fit）现象。
忽略翻译后修饰（PTMs）： 许多蛋白质在合成后会经过磷酸化、糖基化等修饰，这些修饰极大地影响其与药物的结合，但这些信息在标准的氨基酸序列中完全缺失。

当模型将两个序列分别编码后进行拼接或计算相似度时，它实际上是在做"模式匹配"而非"物理模拟"：

缺乏物理化学机制： 真正的 DTI 依赖于氢键、疏水相互作用、范德华力、静电吸引等物理力。基于序列的方法将其简化为向量空间的距离，完全忽略了这些决定结合能的物理化学本质。
缺乏可解释性（Black Box）： 这种方法可以告诉你"这个药可能结合这个蛋白"，但无法告诉你"药物的哪个原子与蛋白的哪个残基发生了作用"。这对于药物化学家进行**先导化合物优化（Lead Optimization）**几乎没有指导意义。
泛化能力差（Poor Generalization）： 模型容易陷入"过拟合"于训练集中的特定序列模式。如果测试集中的药物或蛋白属于全新的化学骨架或蛋白质家族（Out-of-distribution），模型往往失效，因为它学习的是统计相关性而非生物物理规律。

维度	传统序列方法 (SMILES →\rightarrow→ AA)	缺陷核心	现代改进方向
药物	一维字符串	丢失 3D 构象与拓扑	→\rightarrow→ 分子图 (GNN) / 3D 药效团
蛋白	一维序列	丢失折叠结构与活性位点	→\rightarrow→ AlphaFold2 结构 / 蛋白图
交互	向量拼接/注意力机制	缺乏物理化学机制	→\rightarrow→ 蛋白质-配体复合物对接 (Docking) / 几何深度学习

结论： 传统 DTI 方法虽然在**快速筛选（Virtual Screening）**阶段有其价值，但由于其将"空间物理问题"简化为"字符串匹配问题"，导致其在精度、可解释性和泛化能力上存在天然的瓶颈。