深度学习在药物研发方面的进展

在现代计算机辅助小分子药物发现和开发中，机器学习方法，特别是传统的学习方法，被广泛用于构建预测模型，例如定量构效关系（Quantitative Structure-activity Relationship, QSAR）模型。近年来，新的深度学习算法已被应用于药物发现和开发，为药物科学的计算决策打开了一扇新的大门。基于药物研发的深度学习模型的成功得益于深度学习算法在计算机视觉（Computer Vision, CV）和自然语言处理（Natural Language Processing, NLP）等领域的快速发展、高性能算力的进步以及生物医药数据库中信息的爆炸式增长。

以下将在近些年的相关论文发表情况、药物研发数据、基于深度学习的药物研发应用和总结展望几个方面展开。

1. 相关论文发表情况

在谷歌学术搜索关键词"deep learning" "drug design"，截至目前（2024/01/30）得到约 1,930,000 条结果。

有意思的是，深度学习在药物研发领域发表论文的数量竟然呈现出大小年现象。也许是巧合，也许是偶然，近十年来的深度学习大事件都发生在偶数年份。距离我们最近的GPT3.5是在2022年发布上线的，而震撼整个生物医药领域的AlphaFold分别在2018年、2020年不断创新和挑战传统的蛋白折叠等问题。可以大胆预见的是，在2024年度，深度学习会继续在生物医药领域大放异彩。

2. 药物研发数据

深度学习的成功与否在很大程度上取决于训练数据的质量、数量和代表性。良好的训练数据可以帮助模型更好地学习任务，提高性能并增强泛化能力，ImageNet的现世足以证明这一点。在药物研发领域的数据也不例外的会极大影响深度学习模型的质量。

2.1 小分子数据库

ChEMBL：是一个具有药物样特性的生物活性分子数据库。ChEMBL 33版本中有2,399,743 多个不同结构的化合物, 20,334,684 个生物学活性数据点, 覆盖15,398 多个生物学靶标, 收集了近9万篇文献。
- Guacamol：GuacaMol 是分子生成的基准的测试数据集，是 ChEMBL 24 中提取的分子子集。
ZINC：包含超过 2.3 亿种可对接的 3D 格式的可购买化合物。
- MOSES：是一个从 ZINC 数据库中提炼出来的基准数据集，用于评估生成分子的质量和多样性。
Drugbank：包含上市、临床在研等药物信息。
DUD-E：DUD-E 旨在通过提供诱饵建立基准来评估分子对接程序，包含了22,886 种化合物及其 102 个靶标的亲和力。
ChemSpider：包含超过 6400 万个化学结构的数据库。
DrugCentral：包含相关药物活性、化学特性、作用方式等信息的数据库。
Tox21：包含代表化合物的 12,060 个训练样本和 647 个测试样本。
ADReCS：毒理学信息数据库，包含 137,619 个药物与ADR。
GDB Databases ：是迄今为止最大的公开可用小有机分子数据库。
- GDB-11：基于11 种原子生成的2640万种结构（1.109 亿立体异构体）虚拟化合物
- GDB13：基于13 种原子生成的977468314个虚拟化合物
- GDB-17 ：基于17种原子生成的 1660 亿个虚拟化合物
MoleculeNet：MoleculeNet 包含在DeepChem中，包括超过 700,000 种化合物，具有不同特征的各种机器学习模型的性能分数报告。
QM9 (Quantum Machines 9)：包含计算机生成的小分子量子化学性质的数据集。

2.2 大分子数据库

RCSB PDB：数据库拥有接近21万个生物大分子晶体结构, 包含酶、G蛋白偶联受体和离子通道等, 其中蛋白和小分子的复合物结构可供深度学习对小分子和蛋白的分子识别模式进行训练。
- PDBbind：从PDB数据库中收集和整合出所有"蛋白-小分子"复合物的实验测量的结合亲和力数据。V2020版本提供了23,496个复合物的结合亲和力数据。
- CASF：为从PDBbind数据库中摘选的包含 285 个具有高质量晶体结构和可靠结合常数的"蛋白质-小分子"复合物，常用于测试分子对接打分方程的精度。
AlphaFold DB：AlphaFold DB 提供对超过 2 亿个蛋白质结构预测的开放访问，以加速科学研究。
ESM Metagenomic Atlas： v2023_02版本预测的蛋白质结构数量增加到 7.72 亿个。

2.3 其他数据库

Cell Image Library：提供上万的化合物处理细胞后不同图像和形态学数据, 以供寻找新的药物作用新机制。

2.4 数据存在的问题

已有的可供学习的新药数据有限, 目前只有4000个左右被FDA批准的新药。
由于各大制药公司对内部数据的产权保护, 公司之间以及与学术界的资源和数据共享仍然有限。
来源于公开发表的文献和专利的数据质量参差不齐, 存在一定的错误信息和较大的误差, 可能会误导深度学习。

3. 基于深度学习的药物研发应用

3.1 理化性质预测：Molecular property prediction

Chemprop：通过消息传递神经网络（Message Passing Neural Networks，MPNN）进行分子特性预测。
D-MPNN：基于注意力机制的图神经网络的分子性质预测模型。
TorchMD-NET：基于等变变压器 (ET) 架构，在 MD17、ANI-1 和许多 QM9上的准确性和计算效率均较高。

3.2 分子对接/结合构象预测：Binding pose generation/molecular docking

DiffDock：一种针对配体构象的非欧几里得(non-Euclidean)的扩散生成模型
MetalProGNet：用于金属蛋白-配体相互作用预测的基于结构的深度图模型
RTMScore：基于残基原子距离似然势和图变换器的蛋白质配体评分函数
IGN：用于蛋白质-配体相互作用预测的深度图表示学习框架
AlphaFold：最新版本也可以预测小分子的构象，只是暂时还没发布
DeepDTA：是一个卷积神经网络，基于蛋白质和配体的序列预测蛋白质-配体亲和力的方法
GraphDTA：基于图神经网络和常规CNN的DTA预测模型
LiGANN：是一种基于对抗生成网络的从头药物设计模型

3.3 从头设计：De novo design

蛋白折叠：
- AlphaFold
- ESMFold
- RoseTTAFold
- OpenFold
- Uni-Fold
- FastFold
蛋白设计：
- Chroma：蛋白质设计领域的应用模型，可以根据对称性、形状、蛋白质类别甚至文本输入等不同特性来可编程生成蛋白质。

3.4 分子生成：Molecular generation

LibINVENT：基于反应的分子设计，能够根据一个母核结构来组合生成新的化合物库，同时可以筛选过滤生成分子的理化特性
REINVENT：用于从头设计、支架跳跃、R 基团替换、接头设计和分子优化
MolGPT：使用 Transformer-Decoder 模型进行分子生成

4. 深度学习的局限性和未来展望

由于神经网络架构的复杂化，时间复杂度迅速增加，则需要更强的硬件设施和更优的算法来保证深度学习的可行性和高效性。尽管深度学习方法在实践中通常具有出色的性能，但深度学习建模中超参数的调整通常很棘手，很难知道有多少隐藏层和节点足以建立最佳模拟，而无需特定深度学习建模的冗余。

虽然深度学习中的无监督学习策略令人鼓舞，但仍然远远落后。尤其是在药物发现中，大多数数据都是非标记数据和非结构化数据，使用深度学习方法探索和开发新颖的无监督学习方法，以及从这些数据中挖掘有用的信息仍然很困难。尽管深度学习方法已成功应用于许多领域，但对于小分子药物发现中以化学信息为中心的建模来说，算法的适应性仍然是一个问题。

深度学习系统被认为是"黑匣子"系统，进行逻辑推理的能力有限，这些因素限制了深度学习在临床数据分析等许多领域的应用和认可。除此之外，与训练AlphaFold等深度学习模型的大数据量相比，用于深度学习建模的化学信息学数据库的规模还远远落后，用于构建特定模型的实际可用数据仍然有限。

参考文献

1\]. Lenselink EB, Ten Dijke N, Bongers B, Papadatos G, van Vlijmen HWT, Kowalczyk W, IJzerman AP, van Westen GJP. [Beyond the hype: deep neural networks outperform established methods using a ChEMBL bioactivity benchmark set.](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5555960/) J Cheminform. 2017 Aug 14;9(1):45. \[2\]. Jing, Y., Bian, Y., Hu, Z. et al. [Deep Learning for Drug Design: an Artificial Intelligence Paradigm for Drug Discovery in the Big Data Era](https://link.springer.com/article/10.1208/s12248-018-0210-0). AAPS J 20, 58 (2018).