AI蛋白质设计与人工智能药物设计

AI蛋白质设计

一、蛋白质相关的深度学习简介

1.基础概念

1.1.机器学习简介：从手写数字识别到大语言模型

1.2.蛋白质结构预测与设计回顾

1.3.Linux简介

1.4.代码环境：VS code和Jupyter notebook*

1.5.Python关键概念介绍*

2.常用的分析/可视化蛋白质及相关分子的方法

2.1.常用数据库与同源序列搜索和MSA构建

2.2.使用pymol和Mol可视化蛋白质结构

2.3.使用biopython与biotite分析生物序列与结构数据*

2.4.使用fpocket与point-site分析蛋白质结构口袋*

3.深度学习蛋白质设计与传统蛋白质设计之间的差异

3.1.深度学习的本质

3.2.传统方法：全原子能量函数Rosetta与统计势

3.3.深度学习：几何深度学习

3.4.深度学习与传统的物理方法的互补性

3.5.深度学习蛋白质设计的优越性

4.蛋白质语言模型

4.1.语言模型：从RNN到Transformers

4.2.理解蛋白质语言

4.3.生成式蛋白质语言模型

4.4.结构模型与语言模型的比较分析

5.基于深度学习的蛋白质功能与性质预测

5.1.蛋白质功能分类预测*

5.2.信号肽、跨膜区、亚细胞定位预测

5.3.蛋白质同源结构搜索

5.4.酶活性位点预测

二、深度学习与蛋白质结构预测

1.传统蛋白质（复合物）结构预测

1.1.使用modeller、swiss-model进行同源建模

1.2.基于分子动力学的从头建模

1.3.分子对接加入非蛋白质部分，AutoDock Vina实际操作*

2.现代深度学习用于蛋白质结构预测

2.1.RaptorX：从计算机视觉到蛋白质结构

2.2.AlphaFold2

2.3.AlphaFold3：生成式结构预测

2.4.ESMFold：语言模型与结构预测的融合

3.AlphaFold2 原理回顾

3.1.从共进化到结构

3.2.注意力机制

3.3.EvoFormer

3.4.Structural Module

4.AlphaFold3 介绍

4.1.扩散模型

4.2.训练数据

4.3.AlphaFold3 的成绩与不足

5.AlphaFold2/3 实际操作与结果分析

5.1.AlphaFold2实操*

5.2.AlphaFold2分析*

5.3.AlphaFold server使用*

5.4.本地版的AlphaFold3*

5.5.AlphaFold3分析*

6.ESMFold

6.1.从语言模型到结构预测

6.2.什么时候使用ESMFold，什么时候使用AlphaFold

6.3.ESMFold使用*

三、固定主链蛋白质序列设计

1.传统的蛋白质序列设计

1.1.基于全原子力场*

1.2.基于统计势

2.融入结构知识的语言模型设计蛋白质序列

2.1.ESM-IF原理介绍

2.2.ESM-IF的应用*

3.基于CNN的序列设计

3.1.CNN原理简介

3.2.DenseCPD设计方法

3.3.有侧链构象的设计方法

4.基于GNN设计序列

4.1.ProteinMPNN 的成功经验分析

4.2.ProteinMPNN 的广泛应用

4.3.ProteinMPNN 实际操作*

5.其他的序列设计模型

5.1.ABACUS-R 简介与实际操作*

5.2.CarbonDesign 从结构预测来到序列设计去*

5.3.CARBonAra 环境感知的序列设计*

6.固定主链序列设计在功能蛋白设计中的应用

6.1.新骨架蛋白质表达量优化（Science文章复现）*

6.2.抗体亲和力优化（Science文章复现）*

6.3.结合进化信息的酶性质全方位优化（JACS文章复现）*

四、深度学习蛋白质结构设计

1.传统思路回顾

1.1.结构域拼接

1.2.SCUBA：无侧链的蛋白质力场

2.基于蛋白质表面几何深度学习的binder设计

2.1.masif原理简介

2.2.masif用于识别蛋白表面的PPI热点

2.3.masif设计binder

3.基于扩散模型的蛋白质骨架设计模型

3.1.FrameDiff：基于IPA的主链生成*

3.2.Chroma：等变图神经网络结构设计

3.3.RFDiffusion：基于RosettaFold

3.4.RFDiffusion-All-Atom：基于RosettaFold-All-Atom

4.序列-结构共设计

4.1.trDesign

4.2.AlphaFold Hallucination

4.3.Rfjoint

4.4.Protein Generator

5.结合蛋白从头设计Nature Communication文章流程*

5.1.功能表位的选取

5.2.带限制条件的骨架生成

5.3.迭代优化

6.荧光素酶结构从头设计

6.1.Theozyme理论解释

6.2.骨架生成策略

6.3.活性位点设计与活性进化

五、面向功能的蛋白质序列设计

1.语言的深度学习建模方法

1.1.Transformer

1.2.BERT: Bidirectional Encoder Representations from Transformers

1.3.GPT: Generative Pre-trained Transformers

2.蛋白质语言模型的代表：ESM

2.1.模型框架

2.2.ESM系列工作：ESM-1/2，MSA Transformer，ESM3

2.3.ESM模型实际操作*

3.基于蛋白质语言模型的功能蛋白设计

3.1.预训练+微调的范式

3.2.条件式生成模型：Progen与ZymCTRL

3.3.Progen案例分析

3.4.上手微调ZymCTRL*

4.非自回归的序列生成模型

4.1.ProteinGAN：生成序列

4.2.DeepEvo：生成耐热酶

4.3.Prot-VAE

4.4.P450Diffusion：基于扩散模型设计功能P450*

5.功能蛋白生成后的评估指标

5.1.天然序列相似性评估*

5.2.多样性评估*

5.3.结构合理性评估*

六、基于深度学习的蛋白质挖掘与改造应用

1.酶学性质预测

1.1.DLKcat与GotEnzyme数据库介绍

1.2.UniKP：利用预训练模型挖掘、改造Kcat*

1.3.CLEAN：基于对比学习的EC号预测挖掘稀有脱卤酶*

2.蛋白质热稳定性改造

2.1.MutCompute介绍

2.2.利用MutCompute改造PETase（Nature）*

2.3.ThermoMPNN介绍与使用*

2.4.Pythia介绍与使用*

3.机器学习辅助定向进化/蛋白质工程

3.1.零样本突变效应预测原理

3.2.零样本改造基因编辑酶*

3.3.Low-N策略用于蛋白质工程

3.4.预训练模型的Evo-tuning*

3.5.ECNet介绍

3.6.蛋白质相互作用中的突变效应预测

4.针对自己的实验数据，训练自己的神经网络*

4.1.神经网络训练框架

4.2.数据收集、整理

4.3.特征提取方式

4.4.预训练模型的选取

4.5.模型训练、测试

4.6.新突变的预测

5.深度学习辅助的新酶挖掘*

5.1.基因编辑脱氨酶挖掘（Cell工作复现）

5.2.耐热塑料水解酶挖掘（Nature Communications

5.3.使用FoldSeek进行基于结构的挖掘

AIDD人工智能药物发现与设计

一、搭建和爬取数据库

AIDD概述及药物综合数据库介绍
人工智能辅助药物设计AIDD概述
安装环境
- (1) anaconda
- (2) vscode
- (3) pycharm
- (4) 虚拟环境
第三方库基本使用方法
- (1) numpy
- (2) pandas
- (3) matplotlib
- (4) requests
多种药物综合数据库的获取方式
- (1) KEGG（requests爬虫）
- (2) Chebi（libChEBIpy）
- (3) PubChem（pubchempy / requests）
- (4) ChEMBL（chembl_webresource_client）
- (5) BiGG（curl）
- (6) PDB（pypdb）

二、 ML-based AIDD

机器学习
- (1) 机器学习种类：
  - ① 监督学习
  - ② 无监督学习
  - ③ 强化学习
- (2) 典型机器学习方法
  - ① 决策树
  - ② 支持向量机
  - ③ 朴素贝叶斯
  - ④ 神经网络
  - ⑤ 卷积神经网络
- (3) 模型的评估与验证
- (4) 分类评估：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
- (5) 回归评估：平均绝对误差、均方差、R2分数、可释方差分数
- (6) 交叉验证
sklearn工具包基本使用
rdkit工具包的基本使用
化合物编码方式和化合物相似性理论知识
项目实战1：基于ADME和Ro5的分子筛选
项目实战2：基于化合物相似性的配体筛选
项目实战3：基于化合物相似性的分子聚类
项目实战4: 基于机器学习的生物活性预测
项目实战5：基于机器学习的分子毒性预测

三、GNN-based AIDD

图神经网络
- (1) 框架介绍: PyG，DGL，TorchDrug
- (2) 图神经网络消息传递机制
- (3) 图神经网络数据集设计
- (4) 图神经网络节点预测、图预测任务和边预测任务实战
论文精讲：DeepTox: Toxicity Prediction using Deep Learning
项目实战1：基于图神经网络的分子毒性预测
- (1) SMILES分子数据集构建PyG图数据集
- (2) 基于GNN进行分子毒性预测
项目实战2：基于图神经网络的蛋白质-配体相互作用预测
- (1) 蛋白质分子图形化，构建PyG图数据集
- (2) 基于GIN进行网络搭建及相互作用预测

四、NLP-based AIDD

自然语言处理
- (1) Encoder-Decoder模型
- (2) 循环神经网络 RNN
- (3) Seq2seq
- (4) Attention
- (5) Transformer
项目实战1：基于自然语言的分子毒性预测
- (1) SMILES分子数据集词向量表示方法
- (2) 基于NLP模型进行分子毒性预测
项目实战2：基于Transformer的有机化学反应产量预测（Prediction of chemical reaction yields using deep learning）

五、分子生成与药物设计

蛋白质数据库介绍与相关数据爬取
- (1) PDB数据库
- (2) UniProt数据库
蛋白质相关药物设计项目实战
- 项目实战 (1)：基于RDKit的生化反应与蛋白质基本处理
- 项目实战 (2)：基于序列的蛋白质属性预测
- 项目实战 (3)：基于结构的蛋白质属性预测
- 项目实战 (4)：基于NGLView可视化的蛋白质-配体相互作用
- 项目实战 (5)：基于机器学习的蛋白质-配体相互作用亲和力预测
- 项目实战 (6)：基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测