华东理工李洪林课题组开发 Macformer,加速大环类药物发现

大环类化合物是指由 12 个以上原子组成的小分子或肽。相较于其他小分子化合物,大环类化合物在结构和性能上有着诸多优势,也因此被视为各类靶点的潜在治疗药物。

基于药物化学合成的大环类似物是大环类药物的一个主要来源。然而,由于合成方法匮乏、合成难度高、参考资料少,大环类药物的开发鲜有人问津。

为此,华东理工大学的李洪林课题组基于 Transformer 开发了 Macformer。Macformer 成功将无环药物菲卓替尼大环化,得到了药效更强的新化合物,为药物开发提供了新方法。

作者 | 雪菜

编辑 | 三羊

大环类药物的前世今生

大环类化合物 (Macrocycles) 是指由 12 个以上原子组成的小分子或肽 。这类化合物有着高分子量和大量氢键供体,有着更强的亲和力、选择性和药理学特性。大环类药物已经被视为各类靶点的潜在治疗药物,如激酶 (Kinases)、蛋白酶 (Proteases) 和 G 蛋白偶联受体 (G-Protein-Coupled Receptors)。

**大环类药物格尔德霉素(左)和阿奇霉素(右)**

除天然的大环类药物外,基于药物化学合成的类似物也是大环类药物的一个主要来源。将已知的无环 (Acyclic) 药物大环化,就可以直接有效地得到新的大环药物 ,并实现所需要的药理学性能。然而,由于合成方法的匮乏和合成难度高,大环类药物在药物设计中仍很少被人关注。

目前线性分子的大环化主要依赖经验推断。而且,即使文献会呈现出最终的合成结果,但药物的合成和推断过程却总是语焉不详。不透明、不标准的合成过程,提高了行业的门槛,阻碍了大环类药物的开发。

深度学习虽然在药物开发的不同阶段中展现了巨大的潜能,但是神经网络的训练需要大量数据。考虑到临床批准的大环类药物不足 90 个,因此尚没有研究利用深度学习算法进行药物的大环化。

为此,华东理工大学的李洪林课题组基于 Transformer 开发了 Macformer,以实现线性分子的大环化。他们将同一化合物用不同简化分子线性输入规范 (SMILES) 表示,实现了数据的扩充。

随后,以美国食品药品监督管理局 (FDA) 通过的 JAK2 抑制剂菲卓替尼 (Fedratinib) 为例,利用 Macformer 将其大环化,得到了新的大环化合物。这一化合物有着更好的选择性和药代特性,因此所需剂量较菲卓替尼更低。这一成果已发表于 「Nature Communication」。

**这一成果已发表于 「Nature Communication」**

获取论文:

www.nature.com/articles/s4...

关注公众号,后台回复「大环药物」获取完整论文 PDF

实验过程

数据集:数据扩充的 ChEMBL 数据集

首先,研究人员从 ChEMBL 数据库收集了 18,357 个有生物活性的大环化合物,并进行了筛选。随后,遍历大环化合物的任意两个化学键,将其连接子拆分,找到对应的无环化合物。最终共得到 237,728 对大环-无环化合物,作为本研究的数据集

**Macformer 拆解大环化合物的过程**

任一化合物均有特定的 SMILES 表达式。然而,最近的研究显示,使用化学上相同但句法不同的一组随机 SMILES 表达式进行模型训练,可以显著提高深度学习模型的性能。研究人员将扩充 2、5、10 倍的数据与原始数据进行了对比,所有数据在 50,000 step 之后均有较好的收敛效果。

数据扩充流程

模型架构

Transformer 的编解码

Macformer 基于 Transformer 架构实现。输入化合物和目标化合物的 SMILES 序列都被嵌入到可训练的矩阵中,并通过正余弦函数进行位置编码。

输入化合物的嵌入矩阵被馈送到编码器中生成潜在表示 (Latent Representation) ,以初始化编码过程。每个编码器层由一个多头注意力层和位置前馈网络组成。

Macformer 的最终目标是通过交叉熵损失函数,最小化预测序列和对应目标序列之间的差距,输出预测的大环化合物

**Macformer 的架构**

对比研究:ChEMBL 数据集

研究人员将 Macformer 和非深度学习模型 MacLS 进行了对比。在输入无环化合物之后,二者均能输出一个大环的类似物。因此,大环化合物的化学有效性、新颖性和唯一性将作为模型性能的评价标准

和原始数据集对比,扩充 2 倍的数据集全面提升了模型的性能,尤其是在回收率 (96.09% vs. 54.85%)、有效性 (80.34% vs. 66.74%) 和连接子新颖性 (58.91% vs. 40.56%) 上,而数据集的进一步扩充没有继续提高模型的性能。

**Macformer 和 MacLS 基于 ChEMBL 的性能对比**

MacLS_self 使用非循环的 SMILES 从头开始生成构象,而 MacLS_extra 会从目标大环化合物的低能量 3D 结构中提取构象。

MacLS_self 的有效性仅有 17.05%,而 MacLS_extra 的化合物新颖性和唯一性超越了 Macformer。但是,MacLS 只能从训练集中搜索连接子,因此连接子的新颖性为 0。而且,MacLS 回收大环化合物的比率也很低,不足 5%。

对比研究:ZINC 数据集

进一步的,两个模型在外部数据集 ZINC 上进行了对比。扩充 5 倍的数据集训练的 Macformer 模型有着 80% 以上的回收率、84% 以上的有效性和 99% 以上的新颖性。上述结果说明数据扩充后的 Macformer 有着优秀的泛化能力。

**Macformer 和 MacLS 基于 ZINC 的性能对比**

由于 MacLS 没有 Macformer 的学习能力,其在不同数据集的结果基本类似。

化学分布:Macformer 与输入更相似

如果不考虑连接子的新颖性,Macformer 和 MacLS 都有生成新的大环化合物的能力。因此,研究人员对比了二者生成的化合物在化学空间的分布。

首先,通过谷本系数 (Tanimoto coefficient) 对比了化合物之间的相似性。由于无环化合物和大环化合物结构上的相似性,模型生成的绝大多数化合物谷本系数均在 0.7 以上。然而,Macformer 生成化合物与原始化合物的结构相似性较 MacLS_extra 更高。

**模型的谷本系数对比 (a) 和 UMAP 图 (b)**

这一结果比较反常,因为 Macformer 能够推断出训练集中不存在的连接子,而 MacLS 不具备这一能力。为此,研究人员利用统一流形逼近与投影算法 (UMAP) 进行了数据降维。结果显示,Macformer 生成的新连接子均分布在 ChEMBL 训练集附近

实验验证

药物开发:菲卓替尼的大环化*

近年来,大环类化合物作为潜在的激酶抑制剂饱受关注。为验证模型的预测性能,研究人员利用 Macformer 设计了 JAK2 的抑制剂。JAK2 属于 JAK 家族激酶,是治疗骨髓增生性肿瘤和类风湿性关节炎的重要靶点。

模型的输入为菲卓替尼,这是一种用于治疗骨髓纤维化的小分子药物。菲卓替尼对 JAK2 的选择性优于其他 JAK 激酶,但对于其他激酶的选择性较差,导致其他副作用。

大环化的连接点设置为两个末端苯环,并去除可能不利于与 Asp994 靶点接触的叔丁基黄酰胺。为了增加预测的大环药物的多样性,将每个源 SMILES 序列扩充 10 倍。最终,Macformer 输出了10,700 个结果,包括 281 个新的大环类药物

**菲卓替尼的大环化过程**

在评估了大环类药物和靶点的结合情况,及合成可行性后,研究人员最终选择了 3 种化合物进行合成评估测试。其中,化合物 1 的连接子尚未报道于大环药物的设计或是 JAK2 抑制剂的开发中

而在 MacLS 设计的 300 个大环药物中,没有发现这 3 个化合物,这再一次证明了深度学习算法在新药设计的潜力。

体外评估:酶和细胞水平的活性

随后,评估这 3 种化合物对 JAK2 的活性,其半抑制浓度 (IC50) 分别为 0.07、0.364 和 0.006  μM。对最有效的 1 和 3 进行 100 μM 的特异性评估,分别只有 10 和 17 种野生型激酶受到抑制,而菲卓替尼对 34 种野生型激酶有影响,说明化合物 1 和 3 的选择性更好。

**化合物 1、3 和菲卓替尼对 468 种激酶的选择性测试**

同时,还对化合物 1-3 对 JAK2 依赖的细胞的抗增殖性能进行了评价。结果显示,化合物 1 和 3 可以 JAK2 依赖细胞的增殖,且剂量较菲卓替尼更低

体内评估:药代动力学测试

最后,研究了化合物 1、3 和菲卓替尼静脉注射 (iv, 5 mg/kg) 和口服 (po, 5 mg/kg) 的药代动力学 (PK, pharmacokinetic)。

除生物利用度 (9.4% vs. 11.7%) 外,化合物 3 全面优于菲卓替尼。同时,化合物 1 在口服特性上也有优势,如全身暴露 (106.00 vs. 50.19 h*ng/mL) 和生物利用度 (14.1% vs. 11.7%)。上述结果说明,大环化有利于提升菲卓替尼类药物的代谢稳定性

**化合物 1、3 和菲卓替尼的药代动力学参数**

活体测试:化合物 3 对炎症的抑制

据报道,JAK2 的过表达会导致炎症性肠病 (IBD),也就意味着抑制 JAK2 的活动可能有助于炎症性肠病的治疗。研究人员在小鼠模型上进行了大环类药物的测试实验,以评估其在 IBD 治疗中的作用。

根据药代动力学的测试结果,菲卓替尼的给药剂量是化合物 3 的两倍。结果显示,化合物 3 和菲卓替尼都缓解了 IDB 引起的体重减轻,且实验组的疾病活动指数从第 8 天起显著降低。

最后用 HE 染色分析炎症的严重程度。对照组出现了显著的炎症反应,包括炎症细胞浸润、杯状细胞丢失等,而实验中炎症反应较轻,结肠结构完整。

**不同组别的结肠 HE 染色结果**

自左至右分别为:空白组;对照组;药物 SASP 治疗:化合物 3 治疗;菲卓替尼治疗

上述结果说明,Macformer 推断得到的大环化合物在药代动力学和选择性上优于传统药物,且可以用更低的剂量实现疾病治疗。

高药效、难合成,大环的喜与悲

截止 2020 年,美国食品药品监督管理局 (FDA) 共批准了 67 种大环类药物,占所有批准药物的 4% 。其中,有 59 种是天然的大环类药物,非天然的仅 8 种。2008 年,FDA 批准了首款非天然的大环类药物,普乐沙福 (Plerixafor),用于肿瘤治疗。

大环类药物的主要适用症为传染病,占比 44.4%,其后分别为肿瘤 (20.8%) 和抗真菌 (8.3%) 。近年来,大环类药物在抗肿瘤方向的使用激增。2007 年之前仅有 4 种,而其后批准了 11 种。

**FDA 批准的大环类药物的适用症**

大环类药物能够在半刚性、预组织的结构中提供多样的功能和复杂的化学结构,这可以增加大环类药物与传统小分子难以结合的靶点的亲和力和选择性,进而提升药效。而且,某些大环类药物能够调整构象,使其适应外部环境。这一能力提高了其水溶性和细胞渗透性。

然而,大环类药物的合成却很复杂 。大环结构在增强与特定靶点结合能力的同时,也导致了环张力 (Ring Strain)、空间相互作用和非共价的跨环相互作用,使得分子结构和性质的预测变得更加困难

AI 在药物开发中的应用越来越广泛。然而,有限的数据量往往会限制 AI 的性能。本研究中,研究人员使用随机的 SMILES 表达式进行了数据扩充,在保障数据集丰富度的同时,提升了 Macformer 的预测性能。

未来,随着人们对药物结构和性质的理解不断深入,AI 在新药研发过程中会有更高的参与度,为人们的健康保驾护航。

参考链接:

[1]www.cambridgemedchemconsulting.com/resources/h...

[2]pubs.acs.org/doi/10.1021...

相关推荐
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨3 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041083 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌4 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭4 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246665 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫5 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班5 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型