AIDD - 从机器学习到深度学习：蛋白质-配体对接评分函数的进展

从机器学习到深度学习：蛋白质-配体对接评分函数的进展

分子对接在药物发现中十分重要，但其准确性高度依赖于评分函数(SFs)的可靠性，这篇文章就为我们总结近年来评分函数的发展。随着机器学习(ML)技术的快速发展，基于ML的评分函数在蛋白质-配体结合亲和力预测和虚拟筛选的应用也逐渐增加，并且大多数基于机器学习的评分函数都表现出了优于经典评分函数的性能。近年来，对数据要求更高的深度学习(DL)方法的出现，进一步推动了人们对更精确评分函数的探索。在此，作者总结了近几年传统机器学习评分函数的进展，并对最近开发的基于深度学习的评分函数进行了介绍。我们相信，机器学习评分函数的持续改进必将指导早期药物设计并加快新药的发现进程。

图1：评分函数的概述

经典评分函数

评分函数(SFs)在结构上可以分为三大类：基于力场的评分函数、基于经验的评分函数和基于知识的评分函数 。基于力场的评分函数 主要由范德华力、静电和氢键等非键合相互作用项的加权和构成，各项权重默认为1，已被应用于DOCK、GOLD等多个对接程序中，但由于简化或忽略了溶剂化和熵贡献等复杂项，可能在准确预测蛋白-配体结合亲和力方面存在局限。基于经验的评分函数 是最常见的类型，它在力场基础上增加了配体可旋转键数量、溶剂可及表面积等特征项，并通过与实验数据拟合确定各项权重，代表性软件包括Autodock Vina和GlideScore等。基于知识的评分函数则采用不同思路，通过分析大量蛋白-配体复合物结构来计算原子对接触等特征的出现频率，典型实现包括PMF和DrugScore。这三类经典评分函数都基于线性关系假设，但由于实际情况可能是非线性的，因此发展出了基于随机森林、支持向量机和神经网络等机器学习方法的新型评分函数。评分函数还可根据适用范围分为通用型和靶点特异型，随着机器学习技术的发展，针对特定靶点优化的评分函数也越来越受到重视。

基于机器学习的评分函数

基于机器学习的评分函数 主要应用了四类传统机器学习算法：随机森林(RF)、支持向量机(SVM)、人工神经网络(ANN)和梯度提升决策树(GBDT)。

随机森林是最早用于评分函数开发的机器学习方法。其中最具代表性的是RF-Score系列，它通过计算蛋白质-配体原子对的出现频次作为特征，在PDBbind数据集上表现出优异的打分能力。RF-Score经过三个版本的发展，不断优化特征表示和模型选择策略，性能也逐步提升。再者，B2BScore、RI-Score等基于RF的评分函数也在不同应用场景中表现出色。一些研究还尝试将RF与经典经验评分函数(如Vina、X-Score等)结合，通过RF替代原有的线性拟合方法来提升性能。

支持向量机在靶点特异性评分函数的开发中应用广泛。如SVR-KB和SVR-EP分别基于知识库配对势能和物理化学特征进行结合亲和力预测；SVM-SP和SVR-KBD则专注于特定靶点的虚拟筛选。另外，PESD-SVM、Pharm-IF等方法还引入了分子形状、药效团等新型特征表征。现在，SVM算法已经成功应用于实际的药物发现。

人工神经网络的代表性工作是NNScore系列。NNScore首次将神经网络应用于评分函数开发，通过知识库配对势能等特征区分强弱结合物。NNScore 2.0进一步整合了更多结合特征，支持定量预测结合亲和力。此外，CScore利用模糊成员函数处理原子对特征，DDFA则整合了多个对接程序的特征用于虚拟筛选。

梯度提升决策树是近年来备受关注的算法。XGB-Score在RF-Score的基础上使用XGBoost替代RF，取得了更好的性能。BT-Score系列则基于约2700个多角度描述符，在结合亲和力预测、构象预测和虚拟筛选等任务上均表现出色。T-Bind、TopBP等工作还创新性地引入了持续同调学方法提取拓扑特征，为蛋白质-配体相互作用的表征提供了新思路。

总而言之，机器学习方法在评分函数开发中展现出强大潜力，不同算法各具特色并在特定应用场景中发挥优势。未来研究的重点在于开发更有效的特征表示方法，以及如何提升模型在新颖靶点上的泛化能力。

基于深度学习的评分函数

图 2 传统机器学习评分函数 (SFs) 和深度学习评分函数的典型开发流程

深度学习（DL）技术近年来在药物筛选和虚拟筛选中取得了显著成就，尤其是在评分函数（SF）的构建中。最早的深度学习应用之一是Wallach等人提出的AtomNet，这一方法通过**卷积神经网络（CNN）**来预测配体与靶标结合位点的亲和力。AtomNet使用了1Å的3D网格，结合简单的结构特征来表示配体与靶标之间的相互作用，通过四层3D卷积层和两个全连接层提取特征，最终使用逻辑回归分类层输出活性分类。AtomNet在虚拟筛选数据集DUD-E上的表现显著优于传统方法（如Smina），展示了DL技术在此类任务中的潜力。

基于CNN的评分函数在随后的研究中不断得到改进。Pereira等人开发的DeepVS在特征提取上引入了原子和氨基酸的嵌入技术，利用不同的原子特征（如部分电荷、原子对距离、氨基酸类型等）来提升对蛋白质-配体复合物的描述能力。DeepVS的创新在于自动提取重要的结构信息，并在虚拟筛选评估中超过了传统的对接程序（如AutoDock Vina）。

其他研究也探索了不同的特征表示和模型结构来优化虚拟筛选的评分效果。例如，Ragoza等人提出了一种3D网格化的密度分布表示方法，用连续的高斯和二次函数组合描述原子类型信息，并利用五层3D卷积层和池化层交替组成模型，实现了对配体的精确预测。Imrie等人则进一步提出了DenseFS，将原始的浅层CNN替换为更深的DenseNet结构，并结合迁移学习构建了特定蛋白家族模型，大幅提升了DUD-E数据集上的AUC和AUPR表现。

另外，Gonczarek等人开发了基于CNN改进的拓展连接指纹，直接从简单原子特征中构建复合物指纹，用于预测结合亲和力。此方法在DUD-E和MUV数据集上的评估显示出优于传统方法的表现，尽管在某些数据集上的效果有限。Gomes等人则提出了"原子卷积"和"径向池化"操作，用于提取邻接矩阵中的距离信息，为评分函数提供更丰富的结构信息。

DL模型还采用了多任务学习（MTL）和迁移学习（TL）技术。Imrie等人利用TL降低了DenseNet模型的训练成本，构建了蛋白家族特定模型，提高了DUD-E和ChEMBL基准上的表现。MTL方法如Ashtawy和Mahapatra提出的MT-Net，则通过共享层学习不同任务的通用特征，实现了对亲和力、姿势和活性水平的联合预测。这些模型虽然未完全超越单任务模型，但表现已优于传统评分函数，展现了DL模型在多任务学习中的潜力。

另一方面，研究者也在探索将CNN与拓扑学结合 。Cang和Wei提出的TopologyNet将拓扑指纹转换为一维多通道图像表示，通过卷积层提取高层特征，显示了CNN在处理拓扑学信息上的优势。这些基于深度学习的评分函数不断推进了药物虚拟筛选和结合亲和力预测的精度，也为未来的药物发现提供了新的工具和方法。

总结

传统方法中，RF和GBDT的表现优于SVM等方法，而在DL方面，CNN和DenseNet等模型也展示了显著效果。尽管DL方法在一定程度上超过了传统方法，但SF性能更多依赖于构建过程中的关键步骤和特征表示改进。未来，随着高质量数据的公开和计算技术进步，DL在SF开发中的应用将逐步取代传统方法，并助力药物发现的发展。

参考文献：Shen C, Ding J, Wang Z, et al. From machine learning to deep learning: Advances in scoring functions for protein--ligand docking $J$ . Wiley Interdisciplinary Reviews: Computational Molecular Science, 2020, 10(1): e1429.