AIDD-人工智能药物设计-利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

JCIM|利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

01

引言

本篇文献讨论了利用自动化机器学习(AutoML)方法进行ADMET(吸收、分布、代谢、排泄、毒性)特性预测的研究。由于药物研发的高昂成本与高失败率,通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperoptsklearn(HSL)工具开发了用于预测11种ADMET特性的模型,展示了其在外部数据集上的优越表现。

02

*研究背景与意义*

ADMET特性是药物研发中影响候选药物成功与否的重要因素之一。传统的ADMET测试方法如Caco2渗透性实验、血脑屏障(BBB)渗透性测定、CYP酶抑制实验等,均存在耗时长、成本高的问题。而近年来,计算机辅助的ADMET建模工具由于高通量和低成本的特点,受到了越来越多的关注。

**自动化机器学习(AutoML)**的出现为ADMET建模提供了新的机遇。通过自动选择模型算法与优化超参数,AutoML显著提高了建模的效率与预测的准确性。现有的AutoML方法中,Hyperoptsklearn是一个基于Scikitlearn的工具,能自动搜索最佳算法与超参数组合,适用于监督学习任务中的分类与回归。

目前大多数ADMET预测模型都是通过人工选择算法并调参来完成的,这种方式耗时费力且难以扩展。而AutoML的引入极大地简化了这一过程,不仅能够自动选择最佳模型,还能针对不同的ADMET属性生成定制化的预测工具。研究人员希望通过这种方法,能够在多个ADMET属性预测任务中取得更好的表现。

图1: ADMET预测流程示意图

03

*研究方法与技术亮点*

3.1 数据集构建与预处理

从ChEMBL、Metrabase数据库与相关文献中收集化合物的结构与生物活性数据。数据集包含了Caco2渗透性、Pgp底物识别、BBB渗透性、CYP酶抑制(包括CYP1A2、CYP2C9、CYP2D6、CYP3A4等)、HLM(人类肝微粒体)与RLM(大鼠肝微粒体)稳定性,以及hERG抑制等共11种ADMET特性。

对收集的数据集进行标准化处理,包括化合物的SMILES字符串格式化、去重、去噪声、以及利用RDKit工具包计算分子描述符。

对数据进行标准化 (Standardization)与归一化(Normalization),确保不同来源的数据能够统一用于模型训练与验证。

图2: 数据集汇总

3.2 AutoML建模与优化

本研究采用了Hyperoptsklearn(HSL)框架进行AutoML建模。HSL是一个开源工具,能够自动选择算法并进行超参数优化,适用于分类与回归任务。

在模型优化过程中,HSL采用了贝叶斯优化(Bayesian Optimization)方法,能够高效地搜索高维参数空间,从而提高模型的预测性能。

HSL框架支持多种机器学习算法,包括:

分类算法:随机森林(Random Forest)、支持向量机(SVM)、逻辑回归(Logistic Regression)、极端梯度提升(XGBoost)等。

回归算法:线性回归(Linear Regression)、随机森林回归、支持向量回归(SVR)、XGBoost回归等。

在模型训练过程中,研究者设计了三种不同的搜索空间组合,分别对应于不同的超参数调优策略:

  • 搜索空间1:最大函数评估次数为200,单次超时时间为120秒。
  • 搜索空间2:最大函数评估次数为150,单次超时时间为120秒。
  • 搜索空间3:最大函数评估次数为150,单次超时时间为90秒。

3.3 模型验证与性能评估

研究者采用**五折交叉验证(5fold CrossValidation)**来评估模型的性能,并使用多种指标进行比较,包括:

  • 准确率(Accuracy)
  • 敏感性(Sensitivity)
  • 特异性(Specificity)
  • Matthews相关系数(MCC)
  • ROC曲线下面积(AUC)

在多个外部数据集(包括Therapeutics Data Commons平台的标准数据集)上进行验证,确保模型的泛化能力。

与现有的ADMET建模工具(如ADMETlab 3.0、SwissADME)进行对比,分析AutoML方法的优越性与不足之处。

04

*研究结果与讨论*

4.1 模型性能对比

在所有ADMET特性预测中,HSL生成的模型在内部测试集上的AUC值均大于0.8,表现出优异的预测性能。

对于Pgp底物、BBB渗透性、CYP1A2抑制等特性,HSL模型的表现明显优于现有工具。

在外部数据集的验证中,HSL模型也表现出较高的稳定性与准确性。

4.2 AutoML方法的优势

  • 自动化算法选择与调参显著提高了模型的生成效率
  • HSL能够在不同ADMET属性预测任务中表现出色,展示了其通用性与扩展性

4.3 挑战与改进方向

  • 增加更多的训练数据与特征表示。
  • 优化超参数搜索算法以提高计算效率。
  • 结合深度学习方法进一步提高预测精度。

05

*总结与展望*

本研究提出的基于Hyperoptsklearn的自动化机器学习方法,为ADMET特性预测提供了一个高效而准确的工具。未来的研究可以在更大规模的数据集与更多类型的ADMET特性上应用这一方法,并与深度学习方法结合,以进一步提高预测性能与泛化能力。

Reference:

Han, H., Shaker, B., Lee, J. H., Choi, S., Yoon, S., Singh, M., ... & Choi, S. (2025). Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.4c02122

相关推荐
前端搬砖仔噜啦噜啦嘞3 分钟前
trae如何对接MCP(对接微信自动化MCP),编辑器里面也可以进行微信聊天啦
人工智能
MUTA️5 分钟前
《MAE: Masked Autoencoders Are Scalable Vision Learners》论文精读笔记
人工智能·笔记·深度学习·transformer
Ronin-Lotus8 分钟前
深度学习篇---昇腾NPU&CANN 工具包
人工智能·深度学习·npu·昇腾 cann
wenzhangli712 分钟前
AI+低代码双引擎驱动:重构智能业务系统的产品逻辑
人工智能·低代码·重构
倔强青铜三24 分钟前
苦练Python第5天:字符串从入门到格式化
人工智能·python·面试
PNP机器人26 分钟前
普林斯顿大学DPPO机器人学习突破:Diffusion Policy Policy Optimization 全新优化扩散策略
人工智能·深度学习·学习·机器人·仿真平台·franka fr3
Gyoku Mint34 分钟前
深度学习×第7卷:参数初始化与网络搭建——她第一次挑好初始的重量
人工智能·pytorch·rnn·深度学习·神经网络·算法·机器学习
mit6.82444 分钟前
[Vroom] 位置与矩阵 | 路由集成 | 抽象,解耦与通信
c++·人工智能·算法
Brian Xia1 小时前
深度学习入门教程(三)- 线性代数教程
人工智能·深度学习·线性代数
lishaoan771 小时前
用TensorFlow进行逻辑回归(一)
人工智能·tensorflow·逻辑回归·分类器