AIDD-人工智能药物设计-利用自动化机器学习（AutoML）方法促进计算机模拟的ADMET特性预测

JCIM｜利用自动化机器学习（AutoML）方法促进计算机模拟的ADMET特性预测

引言

本篇文献讨论了利用自动化机器学习（AutoML）方法进行ADMET（吸收、分布、代谢、排泄、毒性）特性预测的研究。由于药物研发的高昂成本与高失败率，通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperoptsklearn（HSL）工具开发了用于预测11种ADMET特性的模型，展示了其在外部数据集上的优越表现。

*研究背景与意义*

ADMET特性是药物研发中影响候选药物成功与否的重要因素之一。传统的ADMET测试方法如Caco2渗透性实验、血脑屏障（BBB）渗透性测定、CYP酶抑制实验等，均存在耗时长、成本高的问题。而近年来，计算机辅助的ADMET建模工具由于高通量和低成本的特点，受到了越来越多的关注。

**自动化机器学习（AutoML）**的出现为ADMET建模提供了新的机遇。通过自动选择模型算法与优化超参数，AutoML显著提高了建模的效率与预测的准确性。现有的AutoML方法中，Hyperoptsklearn是一个基于Scikitlearn的工具，能自动搜索最佳算法与超参数组合，适用于监督学习任务中的分类与回归。

目前大多数ADMET预测模型都是通过人工选择算法并调参来完成的，这种方式耗时费力且难以扩展。而AutoML的引入极大地简化了这一过程，不仅能够自动选择最佳模型，还能针对不同的ADMET属性生成定制化的预测工具。研究人员希望通过这种方法，能够在多个ADMET属性预测任务中取得更好的表现。

图1: ADMET预测流程示意图

*研究方法与技术亮点*

3.1 数据集构建与预处理

从ChEMBL、Metrabase数据库与相关文献中收集化合物的结构与生物活性数据。数据集包含了Caco2渗透性、Pgp底物识别、BBB渗透性、CYP酶抑制（包括CYP1A2、CYP2C9、CYP2D6、CYP3A4等）、HLM（人类肝微粒体）与RLM（大鼠肝微粒体）稳定性，以及hERG抑制等共11种ADMET特性。

对收集的数据集进行标准化处理，包括化合物的SMILES字符串格式化、去重、去噪声、以及利用RDKit工具包计算分子描述符。

对数据进行标准化 （Standardization）与归一化（Normalization），确保不同来源的数据能够统一用于模型训练与验证。

图2: 数据集汇总

3.2 AutoML建模与优化

本研究采用了Hyperoptsklearn（HSL）框架进行AutoML建模。HSL是一个开源工具，能够自动选择算法并进行超参数优化，适用于分类与回归任务。

在模型优化过程中，HSL采用了贝叶斯优化（Bayesian Optimization）方法，能够高效地搜索高维参数空间，从而提高模型的预测性能。

HSL框架支持多种机器学习算法，包括：

分类算法：随机森林（Random Forest）、支持向量机（SVM）、逻辑回归（Logistic Regression）、极端梯度提升（XGBoost）等。

回归算法：线性回归（Linear Regression）、随机森林回归、支持向量回归（SVR）、XGBoost回归等。

在模型训练过程中，研究者设计了三种不同的搜索空间组合，分别对应于不同的超参数调优策略：

搜索空间1：最大函数评估次数为200，单次超时时间为120秒。
搜索空间2：最大函数评估次数为150，单次超时时间为120秒。
搜索空间3：最大函数评估次数为150，单次超时时间为90秒。

3.3 模型验证与性能评估

研究者采用**五折交叉验证（5fold CrossValidation）**来评估模型的性能，并使用多种指标进行比较，包括：

准确率（Accuracy）
敏感性（Sensitivity）
特异性（Specificity）
Matthews相关系数（MCC）
ROC曲线下面积（AUC）

在多个外部数据集（包括Therapeutics Data Commons平台的标准数据集）上进行验证，确保模型的泛化能力。

与现有的ADMET建模工具（如ADMETlab 3.0、SwissADME）进行对比，分析AutoML方法的优越性与不足之处。

*研究结果与讨论*

4.1 模型性能对比

在所有ADMET特性预测中，HSL生成的模型在内部测试集上的AUC值均大于0.8，表现出优异的预测性能。

对于Pgp底物、BBB渗透性、CYP1A2抑制等特性，HSL模型的表现明显优于现有工具。

在外部数据集的验证中，HSL模型也表现出较高的稳定性与准确性。

4.2 AutoML方法的优势

自动化算法选择与调参显著提高了模型的生成效率。
HSL能够在不同ADMET属性预测任务中表现出色，展示了其通用性与扩展性。

4.3 挑战与改进方向

增加更多的训练数据与特征表示。
优化超参数搜索算法以提高计算效率。
结合深度学习方法进一步提高预测精度。

*总结与展望*

本研究提出的基于Hyperoptsklearn的自动化机器学习方法，为ADMET特性预测提供了一个高效而准确的工具。未来的研究可以在更大规模的数据集与更多类型的ADMET特性上应用这一方法，并与深度学习方法结合，以进一步提高预测性能与泛化能力。

Reference：

Han, H., Shaker, B., Lee, J. H., Choi, S., Yoon, S., Singh, M., ... & Choi, S. (2025). Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.4c02122