AI蛋白质设计与人工智能药物设计

AI蛋白质设计与人工智能药物设计

AI蛋白质设计

一、蛋白质相关的深度学习简介

1.基础概念

1.1.机器学习简介:从手写数字识别到大语言模型

1.2.蛋白质结构预测与设计回顾

1.3.Linux简介

1.4.代码环境:VS code和Jupyter notebook*

1.5.Python关键概念介绍*

2.常用的分析/可视化蛋白质及相关分子的方法

2.1.常用数据库与同源序列搜索和MSA构建

2.2.使用pymol和Mol可视化蛋白质结构

2.3.使用biopython与biotite分析生物序列与结构数据*

2.4.使用fpocket与point-site分析蛋白质结构口袋*

3.深度学习蛋白质设计与传统蛋白质设计之间的差异

3.1.深度学习的本质

3.2.传统方法:全原子能量函数Rosetta与统计势

3.3.深度学习:几何深度学习

3.4.深度学习与传统的物理方法的互补性

3.5.深度学习蛋白质设计的优越性

4.蛋白质语言模型

4.1.语言模型:从RNN到Transformers

4.2.理解蛋白质语言

4.3.生成式蛋白质语言模型

4.4.结构模型与语言模型的比较分析

5.基于深度学习的蛋白质功能与性质预测

5.1.蛋白质功能分类预测*

5.2.信号肽、跨膜区、亚细胞定位预测

5.3.蛋白质同源结构搜索

5.4.酶活性位点预测

二、深度学习与蛋白质结构预测

1.传统蛋白质(复合物)结构预测

1.1.使用modeller、swiss-model进行同源建模

1.2.基于分子动力学的从头建模

1.3.分子对接加入非蛋白质部分,AutoDock Vina实际操作*

2.现代深度学习用于蛋白质结构预测

2.1.RaptorX:从计算机视觉到蛋白质结构

2.2.AlphaFold2

2.3.AlphaFold3:生成式结构预测

2.4.ESMFold:语言模型与结构预测的融合

3.AlphaFold2 原理回顾

3.1.从共进化到结构

3.2.注意力机制

3.3.EvoFormer

3.4.Structural Module

4.AlphaFold3 介绍

4.1.扩散模型

4.2.训练数据

4.3.AlphaFold3 的成绩与不足

5.AlphaFold2/3 实际操作与结果分析

5.1.AlphaFold2实操*

5.2.AlphaFold2分析*

5.3.AlphaFold server使用*

5.4.本地版的AlphaFold3*

5.5.AlphaFold3分析*

6.ESMFold

6.1.从语言模型到结构预测

6.2.什么时候使用ESMFold,什么时候使用AlphaFold

6.3.ESMFold使用*

三、固定主链蛋白质序列设计

1.传统的蛋白质序列设计

1.1.基于全原子力场*

1.2.基于统计势

2.融入结构知识的语言模型设计蛋白质序列

2.1.ESM-IF原理介绍

2.2.ESM-IF的应用*

3.基于CNN的序列设计

3.1.CNN原理简介

3.2.DenseCPD设计方法

3.3.有侧链构象的设计方法

4.基于GNN设计序列

4.1.ProteinMPNN 的成功经验分析

4.2.ProteinMPNN 的广泛应用

4.3.ProteinMPNN 实际操作*

5.其他的序列设计模型

5.1.ABACUS-R 简介与实际操作*

5.2.CarbonDesign 从结构预测来到序列设计去*

5.3.CARBonAra 环境感知的序列设计*

6.固定主链序列设计在功能蛋白设计中的应用

6.1.新骨架蛋白质表达量优化(Science文章复现)*

6.2.抗体亲和力优化(Science文章复现)*

6.3.结合进化信息的酶性质全方位优化(JACS文章复现)*

四、深度学习蛋白质结构设计

1.传统思路回顾

1.1.结构域拼接

1.2.SCUBA:无侧链的蛋白质力场

2.基于蛋白质表面几何深度学习的binder设计

2.1.masif原理简介

2.2.masif用于识别蛋白表面的PPI热点

2.3.masif设计binder

3.基于扩散模型的蛋白质骨架设计模型

3.1.FrameDiff:基于IPA的主链生成*

3.2.Chroma:等变图神经网络结构设计

3.3.RFDiffusion:基于RosettaFold

3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom

4.序列-结构共设计

4.1.trDesign

4.2.AlphaFold Hallucination

4.3.Rfjoint

4.4.Protein Generator

5.结合蛋白从头设计Nature Communication文章流程*

5.1.功能表位的选取

5.2.带限制条件的骨架生成

5.3.迭代优化

6.荧光素酶结构从头设计

6.1.Theozyme理论解释

6.2.骨架生成策略

6.3.活性位点设计与活性进化

五、面向功能的蛋白质序列设计

1.语言的深度学习建模方法

1.1.Transformer

1.2.BERT: Bidirectional Encoder Representations from Transformers

1.3.GPT: Generative Pre-trained Transformers

2.蛋白质语言模型的代表:ESM

2.1.模型框架

2.2.ESM系列工作:ESM-1/2,MSA Transformer,ESM3

2.3.ESM模型实际操作*

3.基于蛋白质语言模型的功能蛋白设计

3.1.预训练+微调的范式

3.2.条件式生成模型:Progen与ZymCTRL

3.3.Progen案例分析

3.4.上手微调ZymCTRL*

4.非自回归的序列生成模型

4.1.ProteinGAN:生成序列

4.2.DeepEvo:生成耐热酶

4.3.Prot-VAE

4.4.P450Diffusion:基于扩散模型设计功能P450*

5.功能蛋白生成后的评估指标

5.1.天然序列相似性评估*

5.2.多样性评估*

5.3.结构合理性评估*

六、基于深度学习的蛋白质挖掘与改造应用

1.酶学性质预测

1.1.DLKcat与GotEnzyme数据库介绍

1.2.UniKP:利用预训练模型挖掘、改造Kcat*

1.3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶*

2.蛋白质热稳定性改造

2.1.MutCompute介绍

2.2.利用MutCompute改造PETase(Nature)*

2.3.ThermoMPNN介绍与使用*

2.4.Pythia介绍与使用*

3.机器学习辅助定向进化/蛋白质工程

3.1.零样本突变效应预测原理

3.2.零样本改造基因编辑酶*

3.3.Low-N策略用于蛋白质工程

3.4.预训练模型的Evo-tuning*

3.5.ECNet介绍

3.6.蛋白质相互作用中的突变效应预测

4.针对自己的实验数据,训练自己的神经网络*

4.1.神经网络训练框架

4.2.数据收集、整理

4.3.特征提取方式

4.4.预训练模型的选取

4.5.模型训练、测试

4.6.新突变的预测

5.深度学习辅助的新酶挖掘*

5.1.基因编辑脱氨酶挖掘(Cell工作复现)

5.2.耐热塑料水解酶挖掘(Nature Communications

5.3.使用FoldSeek进行基于结构的挖掘

AIDD人工智能药物发现与设计

一、搭建和爬取数据库

  1. AIDD概述及药物综合数据库介绍
  2. 人工智能辅助药物设计AIDD概述
  3. 安装环境
    • (1) anaconda
    • (2) vscode
    • (3) pycharm
    • (4) 虚拟环境
  4. 第三方库基本使用方法
    • (1) numpy
    • (2) pandas
    • (3) matplotlib
    • (4) requests
  5. 多种药物综合数据库的获取方式
    • (1) KEGG(requests爬虫)
    • (2) Chebi(libChEBIpy)
    • (3) PubChem(pubchempy / requests)
    • (4) ChEMBL(chembl_webresource_client)
    • (5) BiGG(curl)
    • (6) PDB(pypdb)

二、 ML-based AIDD

  1. 机器学习
    • (1) 机器学习种类:
      • ① 监督学习
      • ② 无监督学习
      • ③ 强化学习
    • (2) 典型机器学习方法
      • ① 决策树
      • ② 支持向量机
      • ③ 朴素贝叶斯
      • ④ 神经网络
      • ⑤ 卷积神经网络
    • (3) 模型的评估与验证
    • (4) 分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
    • (5) 回归评估:平均绝对误差、均方差、R2分数、可释方差分数
    • (6) 交叉验证
  2. sklearn工具包基本使用
  3. rdkit工具包的基本使用
  4. 化合物编码方式和化合物相似性理论知识
  5. 项目实战1:基于ADME和Ro5的分子筛选
  6. 项目实战2:基于化合物相似性的配体筛选
  7. 项目实战3:基于化合物相似性的分子聚类
  8. 项目实战4: 基于机器学习的生物活性预测
  9. 项目实战5:基于机器学习的分子毒性预测

三、GNN-based AIDD

  1. 图神经网络
    • (1) 框架介绍: PyG,DGL,TorchDrug
    • (2) 图神经网络消息传递机制
    • (3) 图神经网络数据集设计
    • (4) 图神经网络节点预测、图预测任务和边预测任务实战
  2. 论文精讲:DeepTox: Toxicity Prediction using Deep Learning
  3. 项目实战1:基于图神经网络的分子毒性预测
    • (1) SMILES分子数据集构建PyG图数据集
    • (2) 基于GNN进行分子毒性预测
  4. 项目实战2:基于图神经网络的蛋白质-配体相互作用预测
    • (1) 蛋白质分子图形化,构建PyG图数据集
    • (2) 基于GIN进行网络搭建及相互作用预测

四、NLP-based AIDD

  1. 自然语言处理
    • (1) Encoder-Decoder模型
    • (2) 循环神经网络 RNN
    • (3) Seq2seq
    • (4) Attention
    • (5) Transformer
  2. 项目实战1:基于自然语言的分子毒性预测
    • (1) SMILES分子数据集词向量表示方法
    • (2) 基于NLP模型进行分子毒性预测
  3. 项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)

五、分子生成与药物设计

  1. 蛋白质数据库介绍与相关数据爬取
    • (1) PDB数据库
    • (2) UniProt数据库
  2. 蛋白质相关药物设计项目实战
    • 项目实战 (1):基于RDKit的生化反应与蛋白质基本处理
    • 项目实战 (2):基于序列的蛋白质属性预测
    • 项目实战 (3):基于结构的蛋白质属性预测
    • 项目实战 (4):基于NGLView可视化的蛋白质-配体相互作用
    • 项目实战 (5):基于机器学习的蛋白质-配体相互作用亲和力预测
    • 项目实战 (6):基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测
相关推荐
我的青春不太冷9 分钟前
2025年最新在线模型转换工具优化模型ncnn,mnn,tengine,onnx
人工智能·深度学习·ncnn·mnn·在线模型转换网址
云卷云舒___________14 分钟前
【B站保姆级视频教程:Jetson配置YOLOv11环境(六)PyTorch&Torchvision安装】
人工智能·pytorch·yolo·教程·jetson·torchvision
zxfeng~19 分钟前
深度学习之“线性代数”
人工智能·python·深度学习·线性代数
油泼辣子多加24 分钟前
Diffusion--人工智能领域的革命性技术
人工智能
东锋1.32 小时前
NVIDIA (英伟达)的 GPU 产品应用领域
人工智能
小众AI4 小时前
AI-on-the-edge-device - 将“旧”设备接入智能世界
人工智能·开源·ai编程
舟寒、4 小时前
【论文分享】Ultra-AV: 一个规范化自动驾驶汽车纵向轨迹数据集
人工智能·自动驾驶·汽车
梦云澜7 小时前
论文阅读(十二):全基因组关联研究中生物通路的图形建模
论文阅读·人工智能·深度学习
远洋录8 小时前
构建一个数据分析Agent:提升分析效率的实践
人工智能·ai·ai agent