登Nature子刊！华中师范大学提出DigFrag，用AI精准分割分子片段，并生成44个药物/农药分子

过去几十年，基于片段的药物发现 (FBDD) 通过识别与靶标蛋白有微弱相互作用的小分子片段，并优化这些片段的结构信息，可以开发出活性更高的先导化合物，在新药研发中发挥了重要作用。

尽管 FBDD 在药物发现和开发领域扮演着关键角色，但构建和筛选有效的分子片段库一直是该领域的主要挑战。传统的 FBDD 方法依赖于经验直觉，限制了它们发展多样化结构的能力。幸运的是，AI 的出现为这一挑战提供了变革性的解决方案。

近期，华中师范大学杨光富教授和王凡副教授团队等开发了一种名为 DigFrag 的数字化分段方法。 该方法通过在分子图 (molecular graph) 上进行局部聚焦，突出关键的子结构 (substructures)，并将这些子结构分割成片段。实验结果表明，DigFrag 分割的片段展现出更高的结构多样性，并且基于这些片段生成的化合物更符合预期的化学特性。这表明，采用 AI 方法生成的数据可能更适合于 AI 模型的训练和应用。

该研究以「DigFrag as a digital fragmentation method used for artificial intelligence-based drug design」为题，已发表在国际学术期刊 nature communications chemistry。

研究亮点：

研究发现，基于 DigFrag 分割的片段与 AI 模型结合时，能够有效地生成具有期望性质的分子
该研究通过精确筛选，最终确定了 24 个药物分子和 20 个农药分子
团队开发了一个用户友好的平台 MolFrag，整合了多种片段化技术，可支持更广泛的分子分析和设计工作

论文地址：
https://doi.org/10.1038/s42004-024-01346-5

数据集：自建数据库 PADFrag，收录近 3,000 种药物数据

该研究所使用的建模数据集主要来源于自建的数据库 PADFrag。具体来看，PADFrag 数据库主要收录了 DrugBank 数据库中 FDA 批准的药物目录，包含 1,652 种药物，以及 Alan Wood 列出的商业杀虫剂，共计 1,259 种。

为探索药物发现的生物活性片段空间而构建的数据库 PADFrag
https://pubs.acs.org/doi/10.1021/acs.jcim.8b00285

为了确保数据的一致性和可靠性，研究团队排除了那些结构不标准的化合物。随后，按照 8:1:1 的比例，将整个数据集划分为训练集、验证集和测试集，以便于模型的训练、评估和测试。

DigFrag：工作流程 3 步走，可获得结构多样性更高的片段

DigFrag 是一种创新的数字化分段方法，它利用图注意力机制 (graph attention mechanism) 来识别和分割药物/农药类片段，核心优势在于其能够从机器智能的角度出发，而不是单纯依赖人类专业知识，从而获得结构多样性更高的片段。

此外，该研究整合了 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段，并将其集成到 DeepFMPO 模型框架中，进而生成药物分子，并评估它们在不同指标上的表现。

最后，基于多种分子片段化技术，研究人员开发了一个用户友好的平台 MolFrag，以支持分子的分割工作。

具体来看，该研究的工作流程分为 3 个部分：

第一，基于 AI 的片段化方法： 该研究基于图神经网络 (Graph Neural Network, GNN) 架构，采用 DigFrag 方法对分子进行片段化处理。

基于 AI 的片段化方法

如上图 A 所示，研究人员将分子图 (molecular graph) 定义为 G=(V, E)，其中 V 代表节点，对应于分子中的原子，而 E 代表连接边，对应于原子之间的化学键。这一过程中，基于图注意力机制的特征提取网络 (feature matrix)，原始分子图首先被输入到一系列注意力层 (attention layers) 中，目的是为每个原子获得单独的嵌入表示。这些原子嵌入随后被聚合，形成一个统一的向量，也被称之为超级节点 (super node)。最终，通过进一步的注意力层处理，得到了整个片段 (fragments) 的嵌入表示。

第二，Actor-Critic 模型框架：如下图 B 所示，为了进一步阐明数字化分段对基于片段的深度生成模型的影响，研究人员整合 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段，使用一个开源的基于片段的强化学习的二维分子生成工具 DeepFMPO 架构进行研究。

*DeepFMPO 是一种 Actor-Critic 强化学习模型，通过替换化合物中的片段来获得所需的化合物。

Actor-Critic 模型框架

第三，建立在线平台： 尽管已有多种分子片段化方法，但缺乏易于操作的在线服务器。因此，如上图 C 所示，该研究基于各种碎片化技术，开发了一个用户友好的平台 MolFrag。平台无缝结合了 BRICS、RECAP、MacFrag 和 DigFrag 四种分子片段化方法，可确保不同专业水平的研究人员都能使用。

MolFrag 平台地址：

https://dpai.ccnu.edu.cn/MolFrag/

在线平台

研究结果：DigFrag 分割的分子片段多样性更高

DigFrag 分割的片段可旋转键数量较多

研究首先训练模型以精确分割药物和农药片段。接着，研究人员通过五折交叉验证，深入比较了 DigFrag 与传统 (RECAP、BRICS) 及最新 (MacFrag) 方法所得片段的模型准确率、曲线下面积 (AUC) 和马修斯相关系数 (MCC) 这 3 个关键性能指标。如下表所示，在药物片段的性质分布上，DigFrag 分割的片段与 BRICS 分割的片段更为相似。

BRICS、RECAP、MacFrag 和 DigFrag 方法分割药物片段的性质

如下表所示，尽管 DigFrag 分割的药物片段分子量 (Molecular Weight) 和氢键受体数量 (Number of H-Bond Acceptors) 上与 BRICS 分割的片段相似，但其可旋转键数量 (Number of Rotatable Bonds) 较多，可能与其独特的环状结构断裂方式有关。在农药片段方面，DigFrag 分割的片段平均分子量较低。

BRICS、RECAP、MacFrag 和 DigFrag 方法分割农药片段的性质

DigFrag 分割的片段具有更高的结构多样性

在对 DigFrag 方法与传统方法 (RECAP 和 BRICS) 以及最新方法 (MacFrag) 进行比较时，该研究的重点在于评估分割片段的结构多样性。结果显示，DigFrag 在药物、农药片段中分割的片段与其他 3 种方法的重复率较低，分别为 9.97%-21.37% 和 8.94%-15.20%，表明其能生成独特片段。而 MacFrag 覆盖了 BRICS 和 RECAP 的大部分片段，暗示其并非完全创新，而是传统方法的延伸。

不同方法获得的药物/农药片段之间的重复数量

研究人员还用 t-SNE 算法可视化了化学空间分布。如下图所示，DigFrag 在片段聚类比率上表现突出，尤其在相似性阈值 (similarity thresholds) 处于 0.4 和 0.6 的时候，可显示出更高的结构多样性。

不同相似性阈值下药物片段和农药片段的聚类比率注：聚类比率是可直观地反映片段集中的整体结构多样性

基于 DigFrag 的模型可产生更高质量的分子

在 MOSES 基准测试平台上，该研究对比了不同生成模型的性能。如下图两张表的数据显示，基于 DigFrag 的模型在 Filters 得分上达到 0.828，显示出更高的安全性，这可能归因于深度学习在片段化过程中对毒性和稳定性的综合考量。

四种深度生成模型对药物和农药分子的性能评估

如下图所示，在农药分子方面，基于 DigFrag 的模型生成的分子片段在 SMILES 有效性、新颖性、骨架多样性和 structure alerts 方面表现卓越。此外，DigFrag 模型生成的药物和农药分子片段在定量估算 (QED) 和合成可及性 (SA) 的平均值分析中优于其他模型。

四种深度生成模型分割的代表性分子片段的质量

此外，DigFrag 分割的分子片段在分子量、QED 和 SA 属性分布上与 MOSES 数据集的相似性最高。这些结果表明，基于 DigFrag 模型能产生更高质量的分子，同时强调了 AI 模型在分子设计中对 AI 来源数据的偏好，凸显了 AI 技术在该领域的应用优势。

精选 44 个高效低能的药物和农药分子

最后，经过精确筛选，该研究确定了 24 个药物分子和 20 个农药分子，它们均符合 QED 值大于 0.75、SA 值小于 3，以及结合自由能低于多潘立酮 (-10.7 Kcal/mol) 和美索三嗪 (-8.4 Kcal/mol) 的标准。

该研究进一步分析了这些分子与靶标的相互作用。如下图所示，研究发现药物分子能有效结合 DRD2 活性口袋 (active pocket)，并与关键氨基酸残基形成氢键。

通过 AutoDock 分析生成的药物分子与 DRD2 的结合模式

不仅如此，如下图所示，农药分子通过与 HPPD 的氨基酸残基形成氢键稳定结合。与阳性药物相比，生成的化合物也展现了不同的结合模式 (bindingmode)，暗示可能存在不同的药理作用机制，这为未来的研究提供了新的方向。

利用 AutoDock 分析农药分子与 HPPD 的结合模式

AI 在药性研究中的应用重塑游戏规则

现阶段，AI 在药性研究中的应用正变得日益深入。通过深度学习网络， AI 模型能够分析复杂的生物数据和化学结构，从而预测药物分子的活性和选择性。

本文研究提到的杨光富教授和王凡副教授团队，今年初还联合开发了一个预测类农药性的多模态深度学习架构模型 Pesti-DGI-Net，可通过整合分子描述符、分子图像以及分子图这 3 种分子表征形式对化合物的类农药性进行预测。结果表明，Pesti-DGI-Net 在多个指标上均表现出优越的性能。
论文链接：

https://doi.org/10.1016/j.compag.2024.108660

除此之外，AI 近来在药性研究领域的研究成果颇丰。前不久，中国科学院上海营养与健康研究所构建了一个双视图深度学习模型 JointSyn 来预测药物组合的协同效应。结果表明，JointSyn 在各种基准的预测准确性和稳健性方面均优于现有的最先进方法。
论文链接：

https://doi.org/10.1093/bioinformatics/btae604

除了在药性预测方面的应用，AI 技术还在药物设计优化、毒理学和安全性评估、临床试验设计以及患者选择等多个领域取得了显著研究成果。可以预见，AI 在药性研究中的应用正在重塑药物开发的游戏规则，随着技术的不断进步，或将通过提高预测的准确性、优化药物设计、降低开发成本和时间，为患者带来更安全、更有效的治疗方案。