创新药物发现:基于机器学习的虚拟筛选发现新型CYP19A1抑制剂

在乳腺癌等激素依赖性疾病的治疗中,CYP19A1(芳香化酶) 作为雌激素合成的关键酶,一直是药物研发的重要靶点。尽管已有三代芳香化酶抑制剂广泛应用于临床,但其血脑屏障穿透性强引发的神经系统副作用及耐药性问题仍待解决。近期发表于《Journal of Chemical Information and Modeling》的研究《Integrated Virtual Screening Approach Identifies New CYP19A1 Inhibitors》,通过整合机器学习与结构建模技术,成功发现了一系列结构新颖、活性显著的CYP19A1抑制剂,为下一代抑制剂开发提供了新思路。

一、CYP19A1:雌激素合成的"总开关"

CYP19A1是细胞色素P450家族成员,负责将雄激素(如睾酮)转化为雌激素(如雌二醇)。在雌激素受体阳性(ER+)乳腺癌中,其过度表达会促进肿瘤生长。目前临床使用的芳香化酶抑制剂主要分为两类:

  • 非甾体类(如阿那曲唑、来曲唑)

  • 甾体类(如依西美坦)

图1. 已报道的CYP19A1抑制剂

然而,长期使用会导致骨关节疼痛、认知功能障碍等副作用,部分患者还会出现先天或获得性耐药。因此,开发选择性更高、副作用更小的新型抑制剂迫在眉睫。

二、传统筛选方法的局限性与机器学习的崛起

传统上,CYP19A1抑制剂的发现主要依赖于高通量筛选(HTS),但这种方法耗时长、成本高,且假阳性率较高。随着计算机科学和人工智能技术的飞速发展,基于机器学习的虚拟筛选方法逐渐崭露头角。这种方法通过训练模型学习已知活性化合物的特征,能够快速、准确地从海量化合物库中预测出潜在抑制剂,大大提高了筛选效率。

本研究中,科研团队采用了一种创新的虚拟筛选策略,结合了机器学习模型和结构优化技术,成功发现了多种新型CYP19A1抑制剂。

三、机器学习与结构建模驱动的CYP19A1抑制剂虚拟筛选

1. 机器学习模型构建:从数据到预测

研究团队从ChEMBL和PubChem BioAssay两大数据库中提取CYP19A1抑制活性数据,构建了两个独立的数据集:

  • ChEMBL数据集:活性化合物756个,非活性化合物609个

  • PubChem数据集:活性化合物196个,非活性化合物2152个

图2. 来自ChEMBL(青色)和PubChem Bioassay数据库(粉色)的(a)活性和(b)非活性数据集

通过随机森林(Random Forest)算法,结合ECFP4分子指纹(2048位)与RDKit二维描述符(208个理化描述符),按照交叉验证(CV)、超参数优化和模型验证的步骤,构建了四个分类模型。模型在训练中采用基于相似性的数据划分与SMOTE过采样技术,以提升对新颖结构的预测能力。

图3. ROC曲线比较,(a)基于ChEMBL的模型在ChEMBL测试集上进行评估;(b)基于PubChem的模型在PubChem测试集上进行评估;(c)基于chembl的最终模型在PubChem数据集上进行评估;(d)基于pubchem的最终模型在ChEMBL数据集上进行评估

表1. 机器学习模型的性能

结果显示,基于ChEMBL的模型在BEDROC评分(一种用于评估虚拟筛选方法在排名列表中对活性化合物进行排名的有效性的度量)上表现优异(最高达1.00),显示出极强的早期富集能力,非常适用于虚拟筛选。

2. 虚拟筛选流程:从460万到10个候选分子

图4. 虚拟筛选工作流程示意图

研究团队从MolPort商业化合物库(www.molport.com)中获取约460万个分子,经过以下层层过滤:

  • 数据清洗和规范化(剩余4,310,620个分子)

  • Lipinski五规则筛选和CYP抑制剂亚结构(咪唑、三唑、吡啶)过滤(剩余1,433,904个分子)

  • 机器学习预测,利用四个RF分类模型进行评估,每个模型选取Top10,000且概率>0.7的分子(剩余20,444个分子)

  • 相似性去重,去除与已知活性化合物相似度<0.7的分子(剩余20,317个分子)

  • PAINS过滤,去除假阳性结构(剩余11,527个分子)

  • 亚结构过滤,避免CYP抑制部分的空间位阻(剩余6,182个分子)

  • 聚类与目视检查(剩余1,503个分子)

  • 分子对接与结合模式分析(剩余10个分子)

表2. 虚拟筛选得到的芳香化酶候选抑制剂

最终从460万个分子中筛选出10个最具潜力的候选化合物,进入实验验证阶段。

四、实验验证:新型抑制剂活性显著

通过酵母异源表达系统构建的CYP19A1活性检测平台,研究人员对10个候选分子进行了抑制活性测试:

图5. CYP19A1候选抑制剂的体外检测。(a)基于人CYP19A1异源表达的酶促测定图。(b)在抑制剂浓度为10 μM(左图)和1 μM(右图)时,10个候选化合物和参考化合物来曲唑对人CYP19A1的抑制作用。(c) 8、9、9a、9b的IC50曲线

结果显示,在10μM浓度下,化合物1、2、4、7、8和9对CYP19A1活性有显著抑制作用,并在1 μM下进一步测试。在此浓度下,只有8和9显著抑制CYP19A1活性。之后测定化合物8、9以及化合物9的两个类似物(来源于Enamine数据库)的IC50值,发现化合物9(含香豆素与咪唑结构)的IC₅₀值达到271 nM,且结构新颖。

五、分子动力学模拟揭示结合机制

为进一步探究化合物9的作用机制,研究团队对其两种异构体(R)-9与(S)-9进行了100 ns分子动力学模拟:

图6. (a, b)(R)-9和(S)-9与CYP19A1的结合模式图。(c, d)动态药效团相互作用,显示了MD模拟期间(R)-9和(S)-9与CYP19A1活性位点结合的空间范围

可以看出,两种异构体均能稳定结合在CYP19A1活性口袋中,周围疏水残基(如Ile133、Trp224、Thr310)与化合物9形成稳定疏水网络。通过动态药效团分析,研究人员还发现了化合物(R)-9存在两种可能的结合模式,区别在于香豆素结构的构象。通过分子动力学模拟,研究人员揭示了化合物9与CYP19A1的结合模式和稳定性机制。

六、研究价值与展望

本研究构建的"机器学习初筛+结构建模精筛+实验验证"一体化筛选流程,具有以下创新价值:

  • 方法学创新:将多源数据训练的机器学习模型与结构建模结合,提升筛选效率与准确性;

  • 分子实体突破:化合物9作为潜在的新型CYP19A1抑制剂,结构独特,为规避耐药性提供可能;

  • 平台通用性:该筛选策略可推广至其他P450酶或难成药靶点的抑制剂发现。

对于致力于计算机辅助药物设计、疾病治疗策略探索及相关领域研究的科研人员而言,本文不仅提供了方法学上的重要参考价值,还展现了在分子实体开发方面的巨大潜力。其采用的"集成虚拟筛选-实验验证-机制解析"这一闭环研究范式,为现代药物发现领域树立了一个具有实操性和借鉴意义的典范案例。

参考文献

Liu, Sijie, et al. "Integrated Virtual Screening Approach Identifies New CYP19A1 Inhibitors." Journal of Chemical Information and Modeling 65.7 (2025): 3529-3543.

原文链接https://pubs.acs.org/doi/full/10.1021/acs.jcim.5c00204

普美瑞生物科技通过前沿的计算模拟技术与生物实验深度融合,提供全面的一站式生物医药科研服务,覆盖基础研究、转化医学、分子筛选与优化、蛋白设计等,助力您的科研项目高效推进,突破创新。针对AI虚拟筛选药物方面,我们在算法开发、模型应用以及实验验证方面形成了完备的研发闭环,确保为您提供高效、精准的解决方案。

服务优势:

集成化AI驱动药物发现服务:提供AI虚拟筛选、分子对接、分子动力学模拟、结构优化、化合物合成与实验验证的一站式解决方案。

模型算法优势:我们所研发的配体结合预测算法工具在国际比赛中屡获殊荣,在模型构建方面拥有丰富的经验。

超算驱动的计算支持体系:部署GPU加速的高性能计算集群,可并行处理百万级分子对接与微秒级MD模拟任务,确保短时间内完成常规筛选流程。

跨学科专业团队:汇聚了一支拥有多学科背景的顶尖专家团队,涵盖应用数学、计算机技术、分子与细胞生物学、药物化学等领域。

数据安全:严格执行标准化的数据隐私管理规范,对项目信息进行全流程安全管控与保密。

普美瑞AI药物筛选平台旨在通过"AI虚拟筛选+实验验证+机制解析"一体化服务,快速识别针对特定靶点的潜在药物候选分子,从而大幅提升药物研发的效率和成功率。进一步了解服务价格或技术详情等信息,可直接联系普美瑞平台info@pumeirui.com

相关推荐
All The Way North-1 小时前
一文系统性理清PyTorch多分类任务交叉熵损失:从 Softmax 到 CrossEntropyLoss
人工智能·pytorch·深度学习·机器学习·交叉熵损失·多分类损失
Lau_way1 小时前
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection
人工智能·深度学习
zhaodiandiandian1 小时前
生成式 AI:从技术狂欢到产业重构的价值革命
人工智能·重构
云雾J视界1 小时前
敏捷实践组合破解芯片低功耗困局:迭代开发中如何精准控制功耗指标
人工智能·低功耗·敏捷实践·tdd·持续集成·软硬件协同·iot芯片
围炉聊科技1 小时前
手机端侧智能助手:从被动工具到主动助手的进化之路
人工智能·智能手机
亚马逊云开发者1 小时前
深度探索:EKS MCP Server 与 Amazon Q Developer CLI 集成实践
人工智能
一水鉴天1 小时前
整体设计 定稿 之19 拼语言表述体系之2(codebuddy)
大数据·前端·人工智能·架构
weixin_457340211 小时前
旋转OBB数据集标注查看器
图像处理·人工智能·python·yolo·目标检测·数据集·旋转
玖日大大1 小时前
NLP—— 让机器读懂人类语言的艺术与科学
人工智能·自然语言处理