AIDD-人工智能药物设计-利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

JCIM|利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

01

引言

本篇文献讨论了利用自动化机器学习(AutoML)方法进行ADMET(吸收、分布、代谢、排泄、毒性)特性预测的研究。由于药物研发的高昂成本与高失败率,通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperoptsklearn(HSL)工具开发了用于预测11种ADMET特性的模型,展示了其在外部数据集上的优越表现。

02

*研究背景与意义*

ADMET特性是药物研发中影响候选药物成功与否的重要因素之一。传统的ADMET测试方法如Caco2渗透性实验、血脑屏障(BBB)渗透性测定、CYP酶抑制实验等,均存在耗时长、成本高的问题。而近年来,计算机辅助的ADMET建模工具由于高通量和低成本的特点,受到了越来越多的关注。

**自动化机器学习(AutoML)**的出现为ADMET建模提供了新的机遇。通过自动选择模型算法与优化超参数,AutoML显著提高了建模的效率与预测的准确性。现有的AutoML方法中,Hyperoptsklearn是一个基于Scikitlearn的工具,能自动搜索最佳算法与超参数组合,适用于监督学习任务中的分类与回归。

目前大多数ADMET预测模型都是通过人工选择算法并调参来完成的,这种方式耗时费力且难以扩展。而AutoML的引入极大地简化了这一过程,不仅能够自动选择最佳模型,还能针对不同的ADMET属性生成定制化的预测工具。研究人员希望通过这种方法,能够在多个ADMET属性预测任务中取得更好的表现。

图1: ADMET预测流程示意图

03

*研究方法与技术亮点*

3.1 数据集构建与预处理

从ChEMBL、Metrabase数据库与相关文献中收集化合物的结构与生物活性数据。数据集包含了Caco2渗透性、Pgp底物识别、BBB渗透性、CYP酶抑制(包括CYP1A2、CYP2C9、CYP2D6、CYP3A4等)、HLM(人类肝微粒体)与RLM(大鼠肝微粒体)稳定性,以及hERG抑制等共11种ADMET特性。

对收集的数据集进行标准化处理,包括化合物的SMILES字符串格式化、去重、去噪声、以及利用RDKit工具包计算分子描述符。

对数据进行标准化 (Standardization)与归一化(Normalization),确保不同来源的数据能够统一用于模型训练与验证。

图2: 数据集汇总

3.2 AutoML建模与优化

本研究采用了Hyperoptsklearn(HSL)框架进行AutoML建模。HSL是一个开源工具,能够自动选择算法并进行超参数优化,适用于分类与回归任务。

在模型优化过程中,HSL采用了贝叶斯优化(Bayesian Optimization)方法,能够高效地搜索高维参数空间,从而提高模型的预测性能。

HSL框架支持多种机器学习算法,包括:

分类算法:随机森林(Random Forest)、支持向量机(SVM)、逻辑回归(Logistic Regression)、极端梯度提升(XGBoost)等。

回归算法:线性回归(Linear Regression)、随机森林回归、支持向量回归(SVR)、XGBoost回归等。

在模型训练过程中,研究者设计了三种不同的搜索空间组合,分别对应于不同的超参数调优策略:

  • 搜索空间1:最大函数评估次数为200,单次超时时间为120秒。
  • 搜索空间2:最大函数评估次数为150,单次超时时间为120秒。
  • 搜索空间3:最大函数评估次数为150,单次超时时间为90秒。

3.3 模型验证与性能评估

研究者采用**五折交叉验证(5fold CrossValidation)**来评估模型的性能,并使用多种指标进行比较,包括:

  • 准确率(Accuracy)
  • 敏感性(Sensitivity)
  • 特异性(Specificity)
  • Matthews相关系数(MCC)
  • ROC曲线下面积(AUC)

在多个外部数据集(包括Therapeutics Data Commons平台的标准数据集)上进行验证,确保模型的泛化能力。

与现有的ADMET建模工具(如ADMETlab 3.0、SwissADME)进行对比,分析AutoML方法的优越性与不足之处。

04

*研究结果与讨论*

4.1 模型性能对比

在所有ADMET特性预测中,HSL生成的模型在内部测试集上的AUC值均大于0.8,表现出优异的预测性能。

对于Pgp底物、BBB渗透性、CYP1A2抑制等特性,HSL模型的表现明显优于现有工具。

在外部数据集的验证中,HSL模型也表现出较高的稳定性与准确性。

4.2 AutoML方法的优势

  • 自动化算法选择与调参显著提高了模型的生成效率
  • HSL能够在不同ADMET属性预测任务中表现出色,展示了其通用性与扩展性

4.3 挑战与改进方向

  • 增加更多的训练数据与特征表示。
  • 优化超参数搜索算法以提高计算效率。
  • 结合深度学习方法进一步提高预测精度。

05

*总结与展望*

本研究提出的基于Hyperoptsklearn的自动化机器学习方法,为ADMET特性预测提供了一个高效而准确的工具。未来的研究可以在更大规模的数据集与更多类型的ADMET特性上应用这一方法,并与深度学习方法结合,以进一步提高预测性能与泛化能力。

Reference:

Han, H., Shaker, B., Lee, J. H., Choi, S., Yoon, S., Singh, M., ... & Choi, S. (2025). Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.4c02122

相关推荐
opentrending2 小时前
Github 热点项目 awesome-mcp-servers MCP 服务器合集,3分钟实现AI模型自由操控万物!
服务器·人工智能·github
lisw053 小时前
DeepSeek原生稀疏注意力(Native Sparse Attention, NSA)算法介绍
人工智能·深度学习·算法
whaosoft-1433 小时前
51c深度学习~合集4
人工智能
逢生博客3 小时前
阿里 FunASR 开源中文语音识别大模型应用示例(准确率比faster-whisper高)
人工智能·python·语音识别·funasr
哲讯智能科技4 小时前
智慧能源新篇章:SAP如何赋能光伏行业数字化转型
大数据·人工智能
云卓SKYDROID4 小时前
无人机DSP处理器工作要点!
人工智能·无人机·科普·云卓科技
gang_unerry4 小时前
量子退火与机器学习(2):少量实验即可找到新材料,黑盒优化➕量子退火
人工智能·机器学习·量子计算·量子退火
訾博ZiBo4 小时前
AI日报 - 2025年4月2日
人工智能
说私域4 小时前
消费品行业创新创业中品类创新与数字化工具的融合:以开源 AI 智能客服、AI 智能名片及 S2B2C 商城小程序为例
人工智能·小程序·开源
说私域5 小时前
开源AI大模型赋能的S2B2C商业生态重构研究——基于智能名片系统的体验认知与KOC背书机制
人工智能·小程序·重构·开源