AI蛋白质设计与人工智能药物设计
AI蛋白质设计
一、蛋白质相关的深度学习简介
1.基础概念
1.1.机器学习简介:从手写数字识别到大语言模型
1.2.蛋白质结构预测与设计回顾
1.3.Linux简介
1.4.代码环境:VS code和Jupyter notebook*
1.5.Python关键概念介绍*
2.常用的分析/可视化蛋白质及相关分子的方法
2.1.常用数据库与同源序列搜索和MSA构建
2.2.使用pymol和Mol可视化蛋白质结构
2.3.使用biopython与biotite分析生物序列与结构数据*
2.4.使用fpocket与point-site分析蛋白质结构口袋*
3.深度学习蛋白质设计与传统蛋白质设计之间的差异
3.1.深度学习的本质
3.2.传统方法:全原子能量函数Rosetta与统计势
3.3.深度学习:几何深度学习
3.4.深度学习与传统的物理方法的互补性
3.5.深度学习蛋白质设计的优越性
4.蛋白质语言模型
4.1.语言模型:从RNN到Transformers
4.2.理解蛋白质语言
4.3.生成式蛋白质语言模型
4.4.结构模型与语言模型的比较分析
5.基于深度学习的蛋白质功能与性质预测
5.1.蛋白质功能分类预测*
5.2.信号肽、跨膜区、亚细胞定位预测
5.3.蛋白质同源结构搜索
5.4.酶活性位点预测
二、深度学习与蛋白质结构预测
1.传统蛋白质(复合物)结构预测
1.1.使用modeller、swiss-model进行同源建模
1.2.基于分子动力学的从头建模
1.3.分子对接加入非蛋白质部分,AutoDock Vina实际操作*
2.现代深度学习用于蛋白质结构预测
2.1.RaptorX:从计算机视觉到蛋白质结构
2.2.AlphaFold2
2.3.AlphaFold3:生成式结构预测
2.4.ESMFold:语言模型与结构预测的融合
3.AlphaFold2 原理回顾
3.1.从共进化到结构
3.2.注意力机制
3.3.EvoFormer
3.4.Structural Module
4.AlphaFold3 介绍
4.1.扩散模型
4.2.训练数据
4.3.AlphaFold3 的成绩与不足
5.AlphaFold2/3 实际操作与结果分析
5.1.AlphaFold2实操*
5.2.AlphaFold2分析*
5.3.AlphaFold server使用*
5.4.本地版的AlphaFold3*
5.5.AlphaFold3分析*
6.ESMFold
6.1.从语言模型到结构预测
6.2.什么时候使用ESMFold,什么时候使用AlphaFold
6.3.ESMFold使用*
三、固定主链蛋白质序列设计
1.传统的蛋白质序列设计
1.1.基于全原子力场*
1.2.基于统计势
2.融入结构知识的语言模型设计蛋白质序列
2.1.ESM-IF原理介绍
2.2.ESM-IF的应用*
3.基于CNN的序列设计
3.1.CNN原理简介
3.2.DenseCPD设计方法
3.3.有侧链构象的设计方法
4.基于GNN设计序列
4.1.ProteinMPNN 的成功经验分析
4.2.ProteinMPNN 的广泛应用
4.3.ProteinMPNN 实际操作*
5.其他的序列设计模型
5.1.ABACUS-R 简介与实际操作*
5.2.CarbonDesign 从结构预测来到序列设计去*
5.3.CARBonAra 环境感知的序列设计*
6.固定主链序列设计在功能蛋白设计中的应用
6.1.新骨架蛋白质表达量优化(Science文章复现)*
6.2.抗体亲和力优化(Science文章复现)*
6.3.结合进化信息的酶性质全方位优化(JACS文章复现)*
四、深度学习蛋白质结构设计
1.传统思路回顾
1.1.结构域拼接
1.2.SCUBA:无侧链的蛋白质力场
2.基于蛋白质表面几何深度学习的binder设计
2.1.masif原理简介
2.2.masif用于识别蛋白表面的PPI热点
2.3.masif设计binder
3.基于扩散模型的蛋白质骨架设计模型
3.1.FrameDiff:基于IPA的主链生成*
3.2.Chroma:等变图神经网络结构设计
3.3.RFDiffusion:基于RosettaFold
3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom
4.序列-结构共设计
4.1.trDesign
4.2.AlphaFold Hallucination
4.3.Rfjoint
4.4.Protein Generator
5.结合蛋白从头设计Nature Communication文章流程*
5.1.功能表位的选取
5.2.带限制条件的骨架生成
5.3.迭代优化
6.荧光素酶结构从头设计
6.1.Theozyme理论解释
6.2.骨架生成策略
6.3.活性位点设计与活性进化
五、面向功能的蛋白质序列设计
1.语言的深度学习建模方法
1.1.Transformer
1.2.BERT: Bidirectional Encoder Representations from Transformers
1.3.GPT: Generative Pre-trained Transformers
2.蛋白质语言模型的代表:ESM
2.1.模型框架
2.2.ESM系列工作:ESM-1/2,MSA Transformer,ESM3
2.3.ESM模型实际操作*
3.基于蛋白质语言模型的功能蛋白设计
3.1.预训练+微调的范式
3.2.条件式生成模型:Progen与ZymCTRL
3.3.Progen案例分析
3.4.上手微调ZymCTRL*
4.非自回归的序列生成模型
4.1.ProteinGAN:生成序列
4.2.DeepEvo:生成耐热酶
4.3.Prot-VAE
4.4.P450Diffusion:基于扩散模型设计功能P450*
5.功能蛋白生成后的评估指标
5.1.天然序列相似性评估*
5.2.多样性评估*
5.3.结构合理性评估*
六、基于深度学习的蛋白质挖掘与改造应用
1.酶学性质预测
1.1.DLKcat与GotEnzyme数据库介绍
1.2.UniKP:利用预训练模型挖掘、改造Kcat*
1.3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶*
2.蛋白质热稳定性改造
2.1.MutCompute介绍
2.2.利用MutCompute改造PETase(Nature)*
2.3.ThermoMPNN介绍与使用*
2.4.Pythia介绍与使用*
3.机器学习辅助定向进化/蛋白质工程
3.1.零样本突变效应预测原理
3.2.零样本改造基因编辑酶*
3.3.Low-N策略用于蛋白质工程
3.4.预训练模型的Evo-tuning*
3.5.ECNet介绍
3.6.蛋白质相互作用中的突变效应预测
4.针对自己的实验数据,训练自己的神经网络*
4.1.神经网络训练框架
4.2.数据收集、整理
4.3.特征提取方式
4.4.预训练模型的选取
4.5.模型训练、测试
4.6.新突变的预测
5.深度学习辅助的新酶挖掘*
5.1.基因编辑脱氨酶挖掘(Cell工作复现)
5.2.耐热塑料水解酶挖掘(Nature Communications
5.3.使用FoldSeek进行基于结构的挖掘
AIDD人工智能药物发现与设计
一、搭建和爬取数据库
- AIDD概述及药物综合数据库介绍
- 人工智能辅助药物设计AIDD概述
- 安装环境
- (1) anaconda
- (2) vscode
- (3) pycharm
- (4) 虚拟环境
- 第三方库基本使用方法
- (1) numpy
- (2) pandas
- (3) matplotlib
- (4) requests
- 多种药物综合数据库的获取方式
- (1) KEGG(requests爬虫)
- (2) Chebi(libChEBIpy)
- (3) PubChem(pubchempy / requests)
- (4) ChEMBL(chembl_webresource_client)
- (5) BiGG(curl)
- (6) PDB(pypdb)
二、 ML-based AIDD
- 机器学习
- (1) 机器学习种类:
- ① 监督学习
- ② 无监督学习
- ③ 强化学习
- (2) 典型机器学习方法
- ① 决策树
- ② 支持向量机
- ③ 朴素贝叶斯
- ④ 神经网络
- ⑤ 卷积神经网络
- (3) 模型的评估与验证
- (4) 分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
- (5) 回归评估:平均绝对误差、均方差、R2分数、可释方差分数
- (6) 交叉验证
- (1) 机器学习种类:
- sklearn工具包基本使用
- rdkit工具包的基本使用
- 化合物编码方式和化合物相似性理论知识
- 项目实战1:基于ADME和Ro5的分子筛选
- 项目实战2:基于化合物相似性的配体筛选
- 项目实战3:基于化合物相似性的分子聚类
- 项目实战4: 基于机器学习的生物活性预测
- 项目实战5:基于机器学习的分子毒性预测
三、GNN-based AIDD
- 图神经网络
- (1) 框架介绍: PyG,DGL,TorchDrug
- (2) 图神经网络消息传递机制
- (3) 图神经网络数据集设计
- (4) 图神经网络节点预测、图预测任务和边预测任务实战
- 论文精讲:DeepTox: Toxicity Prediction using Deep Learning
- 项目实战1:基于图神经网络的分子毒性预测
- (1) SMILES分子数据集构建PyG图数据集
- (2) 基于GNN进行分子毒性预测
- 项目实战2:基于图神经网络的蛋白质-配体相互作用预测
- (1) 蛋白质分子图形化,构建PyG图数据集
- (2) 基于GIN进行网络搭建及相互作用预测
四、NLP-based AIDD
- 自然语言处理
- (1) Encoder-Decoder模型
- (2) 循环神经网络 RNN
- (3) Seq2seq
- (4) Attention
- (5) Transformer
- 项目实战1:基于自然语言的分子毒性预测
- (1) SMILES分子数据集词向量表示方法
- (2) 基于NLP模型进行分子毒性预测
- 项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)
五、分子生成与药物设计
- 蛋白质数据库介绍与相关数据爬取
- (1) PDB数据库
- (2) UniProt数据库
- 蛋白质相关药物设计项目实战
- 项目实战 (1):基于RDKit的生化反应与蛋白质基本处理
- 项目实战 (2):基于序列的蛋白质属性预测
- 项目实战 (3):基于结构的蛋白质属性预测
- 项目实战 (4):基于NGLView可视化的蛋白质-配体相互作用
- 项目实战 (5):基于机器学习的蛋白质-配体相互作用亲和力预测
- 项目实战 (6):基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测