论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》

基于深度学习模型的药物-靶标结合亲和力预测

这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。

文章目录

基于深度学习模型的药物-靶标结合亲和力预测
前言
一、蛋白质接触图谱
二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响
- 1.对这段话的解释
- 2.关于Alphafold3
三、随机配体与随机配体节点属性（配体一般指药物）
- 1.什么是随机配体与配体节点属性
四、关于深度学习模型对特征的自动学习过程
- 1.是怎么进行自动学习的
- 2.特征学习过程
- [2.深度神经网络模型对相互作用的预测DNN DML的学习。](#2.深度神经网络模型对相互作用的预测DNN DML的学习。)
总结

前言

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、蛋白质接触图谱

蛋白质接触图谱是一种用于表示蛋白质三维结构的工具。它使用一个二元二维矩阵来表示所有可能的氨基酸残基对之间的距离¹⁴。

在这个矩阵中，如果两个氨基酸在空间中的距离小于一定的阈值（通常是8Å），那么我们就认为这两个氨基酸是接触的，矩阵中对应的元素值为1；否则，我们认为这两个氨基酸不接触，矩阵中对应的元素值为0²。

蛋白质接触图谱的主要意义在于，它提供了一种直观的方式来理解蛋白质的三维结构，特别是蛋白质内部各个氨基酸之间的相互作用。这对于理解蛋白质的功能，以及进行药物设计等任务具有重要的意义²。

Source: Conversation with Copilot, 28/05/2024

(1) Biopython | 计算蛋白质的接触图(contact map) - CSDN博客. https://blog.csdn.net/u012325865/article/details/121118617.

(2) Biopython | 计算蛋白质的接触图(contact map) - 华为云社区. https://bbs.huaweicloud.com/blogs/308589.

(3) 蛋白质结构预测---残基接触的基础知识---接触概念（三）_残基的ca-CSDN博客. https://blog.csdn.net/qq_36112387/article/details/117029591.

(4) 【9.4.1】蛋白-配体相互作用指纹图谱（PLIF） - Sam' Note. https://bing.com/search?q=蛋白质接触图谱是什么.

(5) undefined. https://files.rcsb.org/download/.

蛋白质接触图谱是一种二元二维矩阵，用于表示蛋白质三维结构中所有可能的氨基酸残基对之间的距离。以下是一个简化的例子：

假设我们有一个由四个氨基酸残基组成的蛋白质，我们可以将其表示为一个4x4的矩阵。在这个矩阵中，如果两个氨基酸在空间中的距离小于一定的阈值（通常是8Å），那么我们就认为这两个氨基酸是接触的，矩阵中对应的元素值为1；否则，我们认为这两个氨基酸不接触，矩阵中对应的元素值为0。

例如，假设第一个和第二个氨基酸接触，第三个和第四个氨基酸接触，其他的氨基酸对不接触，那么我们可以得到以下的接触图谱：

复制代码

在这个例子中，矩阵的第一行和第二列的元素值为1，表示第一个和第二个氨基酸接触；矩阵的第三行和第四列的元素值为1，表示第三个和第四个氨基酸接触¹。

这只是一个简化的例子，实际的蛋白质接触图谱会更复杂，因为蛋白质通常由数百到数千个氨基酸残基组成，而且它们在空间中的排列方式也会非常复杂¹。希望这个例子能帮助你理解蛋白质接触图谱的基本概念！如果你有任何其他问题或需要进一步的解释，请随时告诉我！

Source: Conversation with Copilot, 28/05/2024

(1) Biopython | 计算蛋白质的接触图(contact map) - CSDN博客. https://blog.csdn.net/u012325865/article/details/121118617.

(2) The Human Protein Atlas. https://www.proteinatlas.org/.

(3) 蛋白质间接触的深度图学习,Bioinformatics - X-MOL. https://www.x-mol.com/paper/1495660998561189888/t?recommendPaper=1376496881286754304.

(4) undefined. https://files.rcsb.org/download/.

(5) undefined. https://github.com/zw2x/glinter.

二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响

基于蛋白质接触图谱的蛋白质编码方法并不能提高深度学习模型的性能。此外，通过各种预测方法计算的不同蛋白质接触图谱，如AlphaFold2 $73$ 、Pconsc4 $74$ 和ESM-1b $75$ ，无论其准确性如何，对DTA预测都没有太大影响。同样，蛋白质和药物编码的组合方法不会显着影响深度学习模型的性能。在随机配体和随机配体节点属性之间的配体编码中观察到显着差异，表明学习任务对配体数据的依赖性要大得多。

1.对这段话的解释

这段文字主要讨论了几种蛋白质编码方法和药物编码方法对深度学习模型性能的影响。以下是主要观点的总结：

基于蛋白质接触图谱的蛋白质编码方法并不能提高深度学习模型的性能。这意味着，尽管蛋白质接触图谱包含了蛋白质的三维结构信息，但这些信息并没有帮助提高模型的预测性能。
无论使用哪种预测方法（如AlphaFold2、Pconsc4和ESM-1b）计算的蛋白质接触图谱，其准确性如何，对药物靶点亲和力（DTA）预测都没有太大影响。这可能表明，DTA预测更多地依赖于其他类型的信息，而不仅仅是蛋白质的结构信息。
蛋白质和药物编码的组合方法不会显着影响深度学习模型的性能。这可能说明，编码方法的选择并不是影响模型性能的关键因素。
在随机配体和随机配体节点属性之间的配体编码中观察到显着差异，表明学习任务对配体数据的依赖性要大得多。这可能意味着，对于这类任务，配体的特性和属性可能比蛋白质的信息更为重要。

这些发现可能对深度学习在药物发现中的应用有重要的指导意义。希望这个总结对你有所帮助！如果你有任何其他问题或需要进一步的解释，请随时告诉我！

2.关于Alphafold3

结合最新的Aphafold3呢？为什么蛋白质接触图谱，其准确性如何，对药物靶点亲和力（DTA）预测都没有太大影响。

关于AlphaFold3，据报道⁵⁶⁷⁸，它在预测蛋白质结构和相互作用方面取得了显著的进步。AlphaFold3可以预测蛋白质、DNA、RNA、配体等生物分子的结构和相互作用，这对于理解生物世界和药物发现具有重要的意义。对于蛋白质与其他分子类型的相互作用，AlphaFold3的预测精度至少比现有的预测方法提高了50%，对于一些重要的相互作用类别，预测精度甚至翻了一番。

然而，即使是AlphaFold3这样的先进工具，也并不能保证在所有情况下都能提高药物靶点亲和力（DTA）预测的性能。这可能是因为DTA预测的复杂性远超过了蛋白质结构的预测。DTA预测不仅需要考虑蛋白质的三维结构，还需要考虑药物分子的结构、药物和蛋白质之间的相互作用方式、药物分子和蛋白质在生物体内的动态行为等多种因素¹²³⁴。

因此，尽管蛋白质接触图谱的准确性对于理解蛋白质的三维结构非常重要，但它可能并不是影响DTA预测性能的关键因素。这也解释了为什么即使使用了不同的蛋白质接触图谱预测方法，如AlphaFold2、Pconsc4和ESM-1b，其准确性如何，对DTA预测的影响都不大。希望这个解释对你有所帮助！如果你有任何其他问题或需要进一步的解释，请随时告诉我！

Source: Conversation with Copilot, 28/05/2024

(1) AlphaFold 3 predicts the structure and interactions of all of life's ... https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/.

(2) Major AlphaFold upgrade offers boost for drug discovery - Nature. https://www.nature.com/articles/d41586-024-01383-z.

(3) Why AlphaFold 3 is stirring up so much buzz in pharma. https://www.pharmavoice.com/news/google-alphafold-3-drug-discovery-pharma-buzz/716496/.

(4) DeepMind Unveils AlphaFold3: Revolutionizing Protein Interactions with ... https://thenota.com/post/2024/may/24/deepmind-unveils-alphafold3-revolutionizing-protein-interactions-with-ai/.

(5) Drug--target affinity prediction using graph neural network and contact maps. https://pubs.rsc.org/en/content/articlelanding/2020/ra/d0ra02297g.

(6) Drug--target affinity prediction with extended graph learning ... https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05698-6.

(7) PGraphDTA: Improving Drug Target Interaction Prediction using Protein ... https://ar5iv.labs.arxiv.org/html/2310.04017.

(8) Drug--target affinity prediction using graph neural network and contact maps. https://pubs.rsc.org/en/content/articlehtml/2020/ra/d0ra02297g.

三、随机配体与随机配体节点属性（配体一般指药物）

随机配体和随机配体节点属性之间存在显着差异。这表明，学习任务对配体数据的依赖性要大得多，也就是说，配体的数据质量和表示方式对预测结果的影响较大

1.什么是随机配体与配体节点属性

"随机配体"和"随机配体节点属性"是在研究中用来测试深度学习模型对配体数据依赖性的方法¹。

随机配体：这是指从所用数据集中随机采样获得的配体的编码¹。在这种情况下，配体的编码并不是基于其真实的化学结构，而是随机选择的。这种方法可以帮助研究人员理解模型是否能够从随机数据中学习到有用的信息，或者模型的性能是否严重依赖于配体数据的质量和准确性。
随机配体节点属性：这是指通过随机化输入配体图的节点特征获得的配体编码¹。在这种情况下，配体的化学结构（即图的拓扑结构）保持不变，但节点（代表原子）的属性（例如原子类型、电荷等）被随机化。这种方法可以帮助研究人员理解模型是否能够在节点属性被扰动的情况下保持良好的性能，或者模型的性能是否严重依赖于节点属性的准确性。

这两种方法都是用来测试深度学习模型对配体数据的敏感性和依赖性的。研究发现，当使用随机配体和随机配体节点属性时，模型的性能有显著差异，这表明学习任务在更大程度上依赖于配体数据¹。这也就是说，配体的数据质量和表示方式对预测结果的影响较大。

Source: Conversation with Copilot, 30/05/2024

(1) 从蛋白质到配体：解码用于结合亲和力预测的深度学习方法. https://www.x-mol.com/paper/1726959214536708096/t?recommendPaper=1526715.

(2) 深度学习在蛋白-配体亲和力预测中应用的探索 - 简书. https://www.jianshu.com/p/7060636815b3.

(3) Drug Discov Today｜配体-蛋白的分子对接中的机器学习-腾讯云开发者社区-腾讯云. https://cloud.tencent.com/developer/article/1899807.

四、关于深度学习模型对特征的自动学习过程

深度学习在药物靶点亲和力（Drug-Target Affinity，DTA）预测中的应用。以下是主要观点的总结：

深度学习方法可以在模型架构中集成特征表示和目标值预测。这意味着，深度学习模型可以同时处理特征提取和预测任务，而无需进行独立的特征工程步骤。
这些模型可以自动学习化合物和蛋白质的有效表示。这是通过训练深度学习模型来识别和提取与DTA预测相关的重要特征。这些特征可能包括化合物的化学结构、蛋白质的氨基酸序列、以及它们之间的相互作用等。

1.是怎么进行自动学习的

当然可以。这里有一个具体的例子，叫做DeepCPI¹。DeepCPI是一个基于深度学习的框架，用于预测化合物和蛋白质的相互作用。它的工作原理如下：

语义分析和Word2vec方法：DeepCPI首先使用语义分析和Word2vec方法来获取化合物和蛋白质的低维特征表示¹。具体来说，它将化合物和蛋白质视为文本，将化合物的结构和蛋白质的氨基酸序列视为单词，然后使用Word2vec方法来学习这些"单词"的低维嵌入¹。
多模态深度神经网络（DNN）分类器：接下来，DeepCPI将这些低维特征输入到一个多模态深度神经网络（DNN）分类器中，预测化合物和蛋白质是否会相互作用¹。

通过这种方式，DeepCPI能够自动学习化合物和蛋白质的有效表示，并用这些表示来预测它们是否会相互作用。这个过程不需要人工设计特征，而是通过深度学习模型自动学习得到的¹。

希望这个例子能帮助你理解这个概念！如果你有任何其他问题或需要进一步的解释，请随时告诉我！

Source: Conversation with Copilot, 28/05/2024

(1) GPB|DeepCPI:基于深度学习的化合物和蛋白质相互作用预测框架-腾讯云开发者社区-腾讯云. https://cloud.tencent.com/developer/article/1785292.

(2) Drug Discov Today | 分子表示与性质预测中的深度学习方法-腾讯云开发者社区-腾讯云. https://cloud.tencent.com/developer/article/2165401.

(3) 【2021研电赛】基于深度学习的蛋白质与化合物结合性质预测 - 知乎. https://zhuanlan.zhihu.com/p/665870092.

(4) 生物信息学|DeepPurpose:药物靶标相互作用预测的深度学习库-CSDN博客. https://blog.csdn.net/ShenggengLin/article/details/110098120.

(5) undefined. https://academic.oup.com/nar/article/34/suppl_1/.

2.特征学习过程

深度学习模型，如用于预测化合物和蛋白质相互作用的模型，是通过训练数据集进行学习的。这个训练数据集通常包含一些已知的化合物和蛋白质，以及它们是否相互作用的信息。

具体来说，每个数据点在数据集中通常由一个化合物、一个蛋白质和一个标签组成。化合物和蛋白质的信息可以是它们的化学结构、氨基酸序列等特征，而标签则表示这个化合物和蛋白质是否相互作用。

在训练过程中，模型会尝试找到一种映射关系，将输入的化合物和蛋白质的特征映射到它们是否相互作用的标签。这个过程通常涉及到一些优化算法，如梯度下降，以及一些损失函数，如交叉熵损失。

通过这种方式，模型可以学习到化合物和蛋白质的特征与它们是否相互作用之间的关系，从而在给定新的化合物和蛋白质时，能够预测它们是否会相互作用。

在化合物和蛋白质的相互作用中，深度学习模型可能会学习到一些特定的模式或特征。这些特征可能包括但不限于以下几种

化学结构特征： ：例如，化合物的分子大小、形状、电荷分布、极性、亲水性或疏水性等。这些特征可以影响化合物与蛋白质的结合能力和方式。
氨基酸序列特征： ：例如，蛋白质的氨基酸序列、二级结构（如螺旋、折叠和转角）、三级结构（如蛋白质的空间结构）等。这些特征可以影响蛋白质的功能和与化合物的相互作用。
蛋白质-化合物相互作用特征：：例如，化合物与蛋白质结合部位的形状和性质、化合物与蛋白质之间的距离、角度、键长、键角等。这些特征可以直接反映化合物与蛋白质的相互作用强度和方式。

2.深度神经网络模型对相互作用的预测DNN DML的学习。

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。