AI蛋白质设计与人工智能药物设计

AI蛋白质设计与人工智能药物设计

AI蛋白质设计

一、蛋白质相关的深度学习简介

1.基础概念

1.1.机器学习简介:从手写数字识别到大语言模型

1.2.蛋白质结构预测与设计回顾

1.3.Linux简介

1.4.代码环境:VS code和Jupyter notebook*

1.5.Python关键概念介绍*

2.常用的分析/可视化蛋白质及相关分子的方法

2.1.常用数据库与同源序列搜索和MSA构建

2.2.使用pymol和Mol可视化蛋白质结构

2.3.使用biopython与biotite分析生物序列与结构数据*

2.4.使用fpocket与point-site分析蛋白质结构口袋*

3.深度学习蛋白质设计与传统蛋白质设计之间的差异

3.1.深度学习的本质

3.2.传统方法:全原子能量函数Rosetta与统计势

3.3.深度学习:几何深度学习

3.4.深度学习与传统的物理方法的互补性

3.5.深度学习蛋白质设计的优越性

4.蛋白质语言模型

4.1.语言模型:从RNN到Transformers

4.2.理解蛋白质语言

4.3.生成式蛋白质语言模型

4.4.结构模型与语言模型的比较分析

5.基于深度学习的蛋白质功能与性质预测

5.1.蛋白质功能分类预测*

5.2.信号肽、跨膜区、亚细胞定位预测

5.3.蛋白质同源结构搜索

5.4.酶活性位点预测

二、深度学习与蛋白质结构预测

1.传统蛋白质(复合物)结构预测

1.1.使用modeller、swiss-model进行同源建模

1.2.基于分子动力学的从头建模

1.3.分子对接加入非蛋白质部分,AutoDock Vina实际操作*

2.现代深度学习用于蛋白质结构预测

2.1.RaptorX:从计算机视觉到蛋白质结构

2.2.AlphaFold2

2.3.AlphaFold3:生成式结构预测

2.4.ESMFold:语言模型与结构预测的融合

3.AlphaFold2 原理回顾

3.1.从共进化到结构

3.2.注意力机制

3.3.EvoFormer

3.4.Structural Module

4.AlphaFold3 介绍

4.1.扩散模型

4.2.训练数据

4.3.AlphaFold3 的成绩与不足

5.AlphaFold2/3 实际操作与结果分析

5.1.AlphaFold2实操*

5.2.AlphaFold2分析*

5.3.AlphaFold server使用*

5.4.本地版的AlphaFold3*

5.5.AlphaFold3分析*

6.ESMFold

6.1.从语言模型到结构预测

6.2.什么时候使用ESMFold,什么时候使用AlphaFold

6.3.ESMFold使用*

三、固定主链蛋白质序列设计

1.传统的蛋白质序列设计

1.1.基于全原子力场*

1.2.基于统计势

2.融入结构知识的语言模型设计蛋白质序列

2.1.ESM-IF原理介绍

2.2.ESM-IF的应用*

3.基于CNN的序列设计

3.1.CNN原理简介

3.2.DenseCPD设计方法

3.3.有侧链构象的设计方法

4.基于GNN设计序列

4.1.ProteinMPNN 的成功经验分析

4.2.ProteinMPNN 的广泛应用

4.3.ProteinMPNN 实际操作*

5.其他的序列设计模型

5.1.ABACUS-R 简介与实际操作*

5.2.CarbonDesign 从结构预测来到序列设计去*

5.3.CARBonAra 环境感知的序列设计*

6.固定主链序列设计在功能蛋白设计中的应用

6.1.新骨架蛋白质表达量优化(Science文章复现)*

6.2.抗体亲和力优化(Science文章复现)*

6.3.结合进化信息的酶性质全方位优化(JACS文章复现)*

四、深度学习蛋白质结构设计

1.传统思路回顾

1.1.结构域拼接

1.2.SCUBA:无侧链的蛋白质力场

2.基于蛋白质表面几何深度学习的binder设计

2.1.masif原理简介

2.2.masif用于识别蛋白表面的PPI热点

2.3.masif设计binder

3.基于扩散模型的蛋白质骨架设计模型

3.1.FrameDiff:基于IPA的主链生成*

3.2.Chroma:等变图神经网络结构设计

3.3.RFDiffusion:基于RosettaFold

3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom

4.序列-结构共设计

4.1.trDesign

4.2.AlphaFold Hallucination

4.3.Rfjoint

4.4.Protein Generator

5.结合蛋白从头设计Nature Communication文章流程*

5.1.功能表位的选取

5.2.带限制条件的骨架生成

5.3.迭代优化

6.荧光素酶结构从头设计

6.1.Theozyme理论解释

6.2.骨架生成策略

6.3.活性位点设计与活性进化

五、面向功能的蛋白质序列设计

1.语言的深度学习建模方法

1.1.Transformer

1.2.BERT: Bidirectional Encoder Representations from Transformers

1.3.GPT: Generative Pre-trained Transformers

2.蛋白质语言模型的代表:ESM

2.1.模型框架

2.2.ESM系列工作:ESM-1/2,MSA Transformer,ESM3

2.3.ESM模型实际操作*

3.基于蛋白质语言模型的功能蛋白设计

3.1.预训练+微调的范式

3.2.条件式生成模型:Progen与ZymCTRL

3.3.Progen案例分析

3.4.上手微调ZymCTRL*

4.非自回归的序列生成模型

4.1.ProteinGAN:生成序列

4.2.DeepEvo:生成耐热酶

4.3.Prot-VAE

4.4.P450Diffusion:基于扩散模型设计功能P450*

5.功能蛋白生成后的评估指标

5.1.天然序列相似性评估*

5.2.多样性评估*

5.3.结构合理性评估*

六、基于深度学习的蛋白质挖掘与改造应用

1.酶学性质预测

1.1.DLKcat与GotEnzyme数据库介绍

1.2.UniKP:利用预训练模型挖掘、改造Kcat*

1.3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶*

2.蛋白质热稳定性改造

2.1.MutCompute介绍

2.2.利用MutCompute改造PETase(Nature)*

2.3.ThermoMPNN介绍与使用*

2.4.Pythia介绍与使用*

3.机器学习辅助定向进化/蛋白质工程

3.1.零样本突变效应预测原理

3.2.零样本改造基因编辑酶*

3.3.Low-N策略用于蛋白质工程

3.4.预训练模型的Evo-tuning*

3.5.ECNet介绍

3.6.蛋白质相互作用中的突变效应预测

4.针对自己的实验数据,训练自己的神经网络*

4.1.神经网络训练框架

4.2.数据收集、整理

4.3.特征提取方式

4.4.预训练模型的选取

4.5.模型训练、测试

4.6.新突变的预测

5.深度学习辅助的新酶挖掘*

5.1.基因编辑脱氨酶挖掘(Cell工作复现)

5.2.耐热塑料水解酶挖掘(Nature Communications

5.3.使用FoldSeek进行基于结构的挖掘

AIDD人工智能药物发现与设计

一、搭建和爬取数据库

  1. AIDD概述及药物综合数据库介绍
  2. 人工智能辅助药物设计AIDD概述
  3. 安装环境
    • (1) anaconda
    • (2) vscode
    • (3) pycharm
    • (4) 虚拟环境
  4. 第三方库基本使用方法
    • (1) numpy
    • (2) pandas
    • (3) matplotlib
    • (4) requests
  5. 多种药物综合数据库的获取方式
    • (1) KEGG(requests爬虫)
    • (2) Chebi(libChEBIpy)
    • (3) PubChem(pubchempy / requests)
    • (4) ChEMBL(chembl_webresource_client)
    • (5) BiGG(curl)
    • (6) PDB(pypdb)

二、 ML-based AIDD

  1. 机器学习
    • (1) 机器学习种类:
      • ① 监督学习
      • ② 无监督学习
      • ③ 强化学习
    • (2) 典型机器学习方法
      • ① 决策树
      • ② 支持向量机
      • ③ 朴素贝叶斯
      • ④ 神经网络
      • ⑤ 卷积神经网络
    • (3) 模型的评估与验证
    • (4) 分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
    • (5) 回归评估:平均绝对误差、均方差、R2分数、可释方差分数
    • (6) 交叉验证
  2. sklearn工具包基本使用
  3. rdkit工具包的基本使用
  4. 化合物编码方式和化合物相似性理论知识
  5. 项目实战1:基于ADME和Ro5的分子筛选
  6. 项目实战2:基于化合物相似性的配体筛选
  7. 项目实战3:基于化合物相似性的分子聚类
  8. 项目实战4: 基于机器学习的生物活性预测
  9. 项目实战5:基于机器学习的分子毒性预测

三、GNN-based AIDD

  1. 图神经网络
    • (1) 框架介绍: PyG,DGL,TorchDrug
    • (2) 图神经网络消息传递机制
    • (3) 图神经网络数据集设计
    • (4) 图神经网络节点预测、图预测任务和边预测任务实战
  2. 论文精讲:DeepTox: Toxicity Prediction using Deep Learning
  3. 项目实战1:基于图神经网络的分子毒性预测
    • (1) SMILES分子数据集构建PyG图数据集
    • (2) 基于GNN进行分子毒性预测
  4. 项目实战2:基于图神经网络的蛋白质-配体相互作用预测
    • (1) 蛋白质分子图形化,构建PyG图数据集
    • (2) 基于GIN进行网络搭建及相互作用预测

四、NLP-based AIDD

  1. 自然语言处理
    • (1) Encoder-Decoder模型
    • (2) 循环神经网络 RNN
    • (3) Seq2seq
    • (4) Attention
    • (5) Transformer
  2. 项目实战1:基于自然语言的分子毒性预测
    • (1) SMILES分子数据集词向量表示方法
    • (2) 基于NLP模型进行分子毒性预测
  3. 项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)

五、分子生成与药物设计

  1. 蛋白质数据库介绍与相关数据爬取
    • (1) PDB数据库
    • (2) UniProt数据库
  2. 蛋白质相关药物设计项目实战
    • 项目实战 (1):基于RDKit的生化反应与蛋白质基本处理
    • 项目实战 (2):基于序列的蛋白质属性预测
    • 项目实战 (3):基于结构的蛋白质属性预测
    • 项目实战 (4):基于NGLView可视化的蛋白质-配体相互作用
    • 项目实战 (5):基于机器学习的蛋白质-配体相互作用亲和力预测
    • 项目实战 (6):基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测
相关推荐
风象南6 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia7 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮8 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬8 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia8 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区8 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两11 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪11 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat2325511 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源