登Nature子刊!华中师范大学提出DigFrag,用AI精准分割分子片段,并生成44个药物/农药分子

过去几十年,基于片段的药物发现 (FBDD) 通过识别与靶标蛋白有微弱相互作用的小分子片段,并优化这些片段的结构信息,可以开发出活性更高的先导化合物,在新药研发中发挥了重要作用。

尽管 FBDD 在药物发现和开发领域扮演着关键角色,但构建和筛选有效的分子片段库一直是该领域的主要挑战。传统的 FBDD 方法依赖于经验直觉,限制了它们发展多样化结构的能力。幸运的是,AI 的出现为这一挑战提供了变革性的解决方案。

近期,华中师范大学杨光富教授和王凡副教授团队等开发了一种名为 DigFrag 的数字化分段方法。 该方法通过在分子图 (molecular graph) 上进行局部聚焦,突出关键的子结构 (substructures),并将这些子结构分割成片段。实验结果表明,DigFrag 分割的片段展现出更高的结构多样性,并且基于这些片段生成的化合物更符合预期的化学特性。这表明,采用 AI 方法生成的数据可能更适合于 AI 模型的训练和应用。

该研究以「DigFrag as a digital fragmentation method used for artificial intelligence-based drug design」为题,已发表在国际学术期刊 nature communications chemistry。

研究亮点:

  • 研究发现,基于 DigFrag 分割的片段与 AI 模型结合时,能够有效地生成具有期望性质的分子

  • 该研究通过精确筛选,最终确定了 24 个药物分子和 20 个农药分子

  • 团队开发了一个用户友好的平台 MolFrag,整合了多种片段化技术,可支持更广泛的分子分析和设计工作

论文地址:
https://doi.org/10.1038/s42004-024-01346-5

数据集:自建数据库 PADFrag,收录近 3,000 种药物数据

该研究所使用的建模数据集主要来源于自建的数据库 PADFrag。具体来看,PADFrag 数据库主要收录了 DrugBank 数据库中 FDA 批准的药物目录,包含 1,652 种药物,以及 Alan Wood 列出的商业杀虫剂,共计 1,259 种。

为探索药物发现的生物活性片段空间而构建的数据库 PADFrag
https://pubs.acs.org/doi/10.1021/acs.jcim.8b00285

为了确保数据的一致性和可靠性,研究团队排除了那些结构不标准的化合物。随后,按照 8:1:1 的比例,将整个数据集划分为训练集、验证集和测试集,以便于模型的训练、评估和测试。

DigFrag:工作流程 3 步走,可获得结构多样性更高的片段

DigFrag 是一种创新的数字化分段方法,它利用图注意力机制 (graph attention mechanism) 来识别和分割药物/农药类片段,核心优势在于其能够从机器智能的角度出发,而不是单纯依赖人类专业知识,从而获得结构多样性更高的片段。

此外,该研究整合了 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段,并将其集成到 DeepFMPO 模型框架中,进而生成药物分子,并评估它们在不同指标上的表现。

最后,基于多种分子片段化技术,研究人员开发了一个用户友好的平台 MolFrag,以支持分子的分割工作。

具体来看,该研究的工作流程分为 3 个部分:

第一,基于 AI 的片段化方法: 该研究基于图神经网络 (Graph Neural Network, GNN) 架构,采用 DigFrag 方法对分子进行片段化处理。

基于 AI 的片段化方法

如上图 A 所示,研究人员将分子图 (molecular graph) 定义为 G=(V, E),其中 V 代表节点,对应于分子中的原子,而 E 代表连接边,对应于原子之间的化学键。这一过程中,基于图注意力机制的特征提取网络 (feature matrix),原始分子图首先被输入到一系列注意力层 (attention layers) 中,目的是为每个原子获得单独的嵌入表示。这些原子嵌入随后被聚合,形成一个统一的向量,也被称之为超级节点 (super node)。最终,通过进一步的注意力层处理,得到了整个片段 (fragments) 的嵌入表示。

第二,Actor-Critic 模型框架:如下图 B 所示,为了进一步阐明数字化分段对基于片段的深度生成模型的影响,研究人员整合 BRICS、RECAP、MacFrag 和 DigFrag 四种方法分割的片段,使用一个开源的基于片段的强化学习的二维分子生成工具 DeepFMPO 架构进行研究。

*DeepFMPO 是一种 Actor-Critic 强化学习模型,通过替换化合物中的片段来获得所需的化合物。

Actor-Critic 模型框架

第三,建立在线平台: 尽管已有多种分子片段化方法,但缺乏易于操作的在线服务器。因此,如上图 C 所示,该研究基于各种碎片化技术,开发了一个用户友好的平台 MolFrag。平台无缝结合了 BRICS、RECAP、MacFrag 和 DigFrag 四种分子片段化方法,可确保不同专业水平的研究人员都能使用。

MolFrag 平台地址:

https://dpai.ccnu.edu.cn/MolFrag/

在线平台

研究结果:DigFrag 分割的分子片段多样性更高

DigFrag 分割的片段可旋转键数量较多

研究首先训练模型以精确分割药物和农药片段。接着,研究人员通过五折交叉验证,深入比较了 DigFrag 与传统 (RECAP、BRICS) 及最新 (MacFrag) 方法所得片段的模型准确率、曲线下面积 (AUC) 和马修斯相关系数 (MCC) 这 3 个关键性能指标。如下表所示,在药物片段的性质分布上,DigFrag 分割的片段与 BRICS 分割的片段更为相似。

BRICS、RECAP、MacFrag 和 DigFrag 方法分割药物片段的性质

如下表所示,尽管 DigFrag 分割的药物片段分子量 (Molecular Weight) 和氢键受体数量 (Number of H-Bond Acceptors) 上与 BRICS 分割的片段相似,但其可旋转键数量 (Number of Rotatable Bonds) 较多,可能与其独特的环状结构断裂方式有关。在农药片段方面,DigFrag 分割的片段平均分子量较低。

BRICS、RECAP、MacFrag 和 DigFrag 方法分割农药片段的性质

DigFrag 分割的片段具有更高的结构多样性

在对 DigFrag 方法与传统方法 (RECAP 和 BRICS) 以及最新方法 (MacFrag) 进行比较时,该研究的重点在于评估分割片段的结构多样性。结果显示,DigFrag 在药物、农药片段中分割的片段与其他 3 种方法的重复率较低,分别为 9.97%-21.37% 和 8.94%-15.20%,表明其能生成独特片段。而 MacFrag 覆盖了 BRICS 和 RECAP 的大部分片段,暗示其并非完全创新,而是传统方法的延伸。

不同方法获得的药物/农药片段之间的重复数量

研究人员还用 t-SNE 算法可视化了化学空间分布。如下图所示,DigFrag 在片段聚类比率上表现突出,尤其在相似性阈值 (similarity thresholds) 处于 0.4 和 0.6 的时候,可显示出更高的结构多样性。

不同相似性阈值下药物片段和农药片段的聚类比率 注:聚类比率是可直观地反映片段集中的整体结构多样性

基于 DigFrag 的模型可产生更高质量的分子

在 MOSES 基准测试平台上,该研究对比了不同生成模型的性能。如下图两张表的数据显示,基于 DigFrag 的模型在 Filters 得分上达到 0.828,显示出更高的安全性,这可能归因于深度学习在片段化过程中对毒性和稳定性的综合考量。

四种深度生成模型对药物和农药分子的性能评估

如下图所示,在农药分子方面,基于 DigFrag 的模型生成的分子片段在 SMILES 有效性、新颖性、骨架多样性和 structure alerts 方面表现卓越。此外,DigFrag 模型生成的药物和农药分子片段在定量估算 (QED) 和合成可及性 (SA) 的平均值分析中优于其他模型。

四种深度生成模型分割的代表性分子片段的质量

此外,DigFrag 分割的分子片段在分子量、QED 和 SA 属性分布上与 MOSES 数据集的相似性最高。这些结果表明,基于 DigFrag 模型能产生更高质量的分子,同时强调了 AI 模型在分子设计中对 AI 来源数据的偏好,凸显了 AI 技术在该领域的应用优势。

精选 44 个高效低能的药物和农药分子

最后,经过精确筛选,该研究确定了 24 个药物分子和 20 个农药分子,它们均符合 QED 值大于 0.75、SA 值小于 3,以及结合自由能低于多潘立酮 (-10.7 Kcal/mol) 和美索三嗪 (-8.4 Kcal/mol) 的标准。

该研究进一步分析了这些分子与靶标的相互作用。如下图所示,研究发现药物分子能有效结合 DRD2 活性口袋 (active pocket),并与关键氨基酸残基形成氢键。

通过 AutoDock 分析生成的药物分子与 DRD2 的结合模式

不仅如此,如下图所示,农药分子通过与 HPPD 的氨基酸残基形成氢键稳定结合。与阳性药物相比,生成的化合物也展现了不同的结合模式 (bindingmode),暗示可能存在不同的药理作用机制,这为未来的研究提供了新的方向。

利用 AutoDock 分析农药分子与 HPPD 的结合模式

AI 在药性研究中的应用重塑游戏规则

现阶段,AI 在药性研究中的应用正变得日益深入。通过深度学习网络, AI 模型能够分析复杂的生物数据和化学结构,从而预测药物分子的活性和选择性。

本文研究提到的杨光富教授和王凡副教授团队,今年初还联合开发了一个预测类农药性的多模态深度学习架构模型 Pesti-DGI-Net,可通过整合分子描述符、分子图像以及分子图这 3 种分子表征形式对化合物的类农药性进行预测。结果表明,Pesti-DGI-Net 在多个指标上均表现出优越的性能。
论文链接:

https://doi.org/10.1016/j.compag.2024.108660

除此之外,AI 近来在药性研究领域的研究成果颇丰。前不久,中国科学院上海营养与健康研究所构建了一个双视图深度学习模型 JointSyn 来预测药物组合的协同效应。结果表明,JointSyn 在各种基准的预测准确性和稳健性方面均优于现有的最先进方法。
论文链接:

https://doi.org/10.1093/bioinformatics/btae604

除了在药性预测方面的应用,AI 技术还在药物设计优化、毒理学和安全性评估、临床试验设计以及患者选择等多个领域取得了显著研究成果。可以预见,AI 在药性研究中的应用正在重塑药物开发的游戏规则,随着技术的不断进步,或将通过提高预测的准确性、优化药物设计、降低开发成本和时间,为患者带来更安全、更有效的治疗方案。

相关推荐
NAGNIP5 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab6 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab6 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP10 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年10 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼10 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS10 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区11 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈11 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang12 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx