AIDD-人工智能药物设计-利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

JCIM|利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

01

引言

本篇文献讨论了利用自动化机器学习(AutoML)方法进行ADMET(吸收、分布、代谢、排泄、毒性)特性预测的研究。由于药物研发的高昂成本与高失败率,通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperoptsklearn(HSL)工具开发了用于预测11种ADMET特性的模型,展示了其在外部数据集上的优越表现。

02

*研究背景与意义*

ADMET特性是药物研发中影响候选药物成功与否的重要因素之一。传统的ADMET测试方法如Caco2渗透性实验、血脑屏障(BBB)渗透性测定、CYP酶抑制实验等,均存在耗时长、成本高的问题。而近年来,计算机辅助的ADMET建模工具由于高通量和低成本的特点,受到了越来越多的关注。

**自动化机器学习(AutoML)**的出现为ADMET建模提供了新的机遇。通过自动选择模型算法与优化超参数,AutoML显著提高了建模的效率与预测的准确性。现有的AutoML方法中,Hyperoptsklearn是一个基于Scikitlearn的工具,能自动搜索最佳算法与超参数组合,适用于监督学习任务中的分类与回归。

目前大多数ADMET预测模型都是通过人工选择算法并调参来完成的,这种方式耗时费力且难以扩展。而AutoML的引入极大地简化了这一过程,不仅能够自动选择最佳模型,还能针对不同的ADMET属性生成定制化的预测工具。研究人员希望通过这种方法,能够在多个ADMET属性预测任务中取得更好的表现。

图1: ADMET预测流程示意图

03

*研究方法与技术亮点*

3.1 数据集构建与预处理

从ChEMBL、Metrabase数据库与相关文献中收集化合物的结构与生物活性数据。数据集包含了Caco2渗透性、Pgp底物识别、BBB渗透性、CYP酶抑制(包括CYP1A2、CYP2C9、CYP2D6、CYP3A4等)、HLM(人类肝微粒体)与RLM(大鼠肝微粒体)稳定性,以及hERG抑制等共11种ADMET特性。

对收集的数据集进行标准化处理,包括化合物的SMILES字符串格式化、去重、去噪声、以及利用RDKit工具包计算分子描述符。

对数据进行标准化 (Standardization)与归一化(Normalization),确保不同来源的数据能够统一用于模型训练与验证。

图2: 数据集汇总

3.2 AutoML建模与优化

本研究采用了Hyperoptsklearn(HSL)框架进行AutoML建模。HSL是一个开源工具,能够自动选择算法并进行超参数优化,适用于分类与回归任务。

在模型优化过程中,HSL采用了贝叶斯优化(Bayesian Optimization)方法,能够高效地搜索高维参数空间,从而提高模型的预测性能。

HSL框架支持多种机器学习算法,包括:

分类算法:随机森林(Random Forest)、支持向量机(SVM)、逻辑回归(Logistic Regression)、极端梯度提升(XGBoost)等。

回归算法:线性回归(Linear Regression)、随机森林回归、支持向量回归(SVR)、XGBoost回归等。

在模型训练过程中,研究者设计了三种不同的搜索空间组合,分别对应于不同的超参数调优策略:

  • 搜索空间1:最大函数评估次数为200,单次超时时间为120秒。
  • 搜索空间2:最大函数评估次数为150,单次超时时间为120秒。
  • 搜索空间3:最大函数评估次数为150,单次超时时间为90秒。

3.3 模型验证与性能评估

研究者采用**五折交叉验证(5fold CrossValidation)**来评估模型的性能,并使用多种指标进行比较,包括:

  • 准确率(Accuracy)
  • 敏感性(Sensitivity)
  • 特异性(Specificity)
  • Matthews相关系数(MCC)
  • ROC曲线下面积(AUC)

在多个外部数据集(包括Therapeutics Data Commons平台的标准数据集)上进行验证,确保模型的泛化能力。

与现有的ADMET建模工具(如ADMETlab 3.0、SwissADME)进行对比,分析AutoML方法的优越性与不足之处。

04

*研究结果与讨论*

4.1 模型性能对比

在所有ADMET特性预测中,HSL生成的模型在内部测试集上的AUC值均大于0.8,表现出优异的预测性能。

对于Pgp底物、BBB渗透性、CYP1A2抑制等特性,HSL模型的表现明显优于现有工具。

在外部数据集的验证中,HSL模型也表现出较高的稳定性与准确性。

4.2 AutoML方法的优势

  • 自动化算法选择与调参显著提高了模型的生成效率
  • HSL能够在不同ADMET属性预测任务中表现出色,展示了其通用性与扩展性

4.3 挑战与改进方向

  • 增加更多的训练数据与特征表示。
  • 优化超参数搜索算法以提高计算效率。
  • 结合深度学习方法进一步提高预测精度。

05

*总结与展望*

本研究提出的基于Hyperoptsklearn的自动化机器学习方法,为ADMET特性预测提供了一个高效而准确的工具。未来的研究可以在更大规模的数据集与更多类型的ADMET特性上应用这一方法,并与深度学习方法结合,以进一步提高预测性能与泛化能力。

Reference:

Han, H., Shaker, B., Lee, J. H., Choi, S., Yoon, S., Singh, M., ... & Choi, S. (2025). Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.4c02122

相关推荐
满怀10151 分钟前
【生成式AI文本生成实战】从GPT原理到企业级应用开发
人工智能·gpt
微刻时光3 分钟前
影刀处理 Excel:智能工具带来的高效变革
人工智能·python·低代码·自动化·excel·rpa·影刀rpa
小技工丨1 小时前
LLaMA-Factory:环境准备
机器学习·大模型·llama·llama-factory
聚客AI2 小时前
ChatGPT到Claude全适配:跨模型Prompt高级设计规范与迁移技巧
人工智能·机器学习·语言模型·自然语言处理·langchain·transformer·llama
chao_7892 小时前
电商平台自动化
测试工具·自动化
小羊Linux客栈2 小时前
自动化:批量文件重命名
运维·人工智能·python·自动化·游戏程序
IT成长日记4 小时前
【Ansible基础】Ansible设计理念与无代理架构深度解析
架构·自动化·ansible·无代理
Mr数据杨7 小时前
【Dv3Admin】插件 dv3admin_chatgpt 集成大语言模型智能模块
人工智能·语言模型·chatgpt
zm-v-159304339867 小时前
AI 赋能 Copula 建模:大语言模型驱动的相关性分析革新
人工智能·语言模型·自然语言处理
phoenix@Capricornus8 小时前
反向传播算法——矩阵形式递推公式——ReLU传递函数
算法·机器学习·矩阵