使用ESM3蛋白质语言模型进行快速大规模结构预测

文章目录


ESM3介绍

ESM3是由EvolutionaryScale(前Meta团队)开发的一款蛋白质大语言模型,于2025年以《用语言模型模拟 5 亿年的进化》为题正式发表在Science上

文章链接: https://www.science.org/doi/10.1126/science.ads0018

文章展示了一个例子,如何用ESM3设计新型绿色荧光蛋白(GFP),设计出的新蛋白与自然界中最相近的序列相比也仅有58%的相似度,证明该模型在拓展蛋白质新编码空间上具有巨大潜力。

尽管该science论文主推ESM3的蛋白质设计功能,本文仅介绍如何使用ESM3的蛋白质结构预测功能


ESM3在线使用

使用EvolutionaryScale的在线网站可以预测结构、生成新蛋白,速度非常快,500个氨基酸左右的蛋白结构基本几秒内就可以给出,比AlphaFold3快不少

链接: https://forge.evolutionaryscale.ai/tools/predict

注意非商业使用需要通过学术机构后缀的邮箱来申请

本地使用api批量预测

如果你不想下载那些很大的权重文件到本地,或者你没有算力足够的机器来运行,可以使用官方提供的api来进行批量预测

首先需要在你的电脑上安装esm3,非常简单,只需要

pip install esm

即可安装

安装完毕后在EvolutionaryScale上获取你的api keys

在下面填入你 EvolutionaryScale和Hugging face的token即可,两个都是可以免费获取的

python 复制代码
from huggingface_hub import login
from esm.sdk import client
from esm.sdk.api import ESM3InferenceClient, ESMProtein, GenerationConfig


hugging_face_token="<your hugging face token>"

login(token=hugging_face_token)

model: ESM3InferenceClient = client("esm3-large-2024-03", token="<your evolutionary token>")

sequence= "MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN"
# 替换为你感兴趣的蛋白序列

protein = ESMProtein(sequence=sequence)

protein = model.generate(protein, GenerationConfig(track="structure", num_steps=8,temperature=0.1))
protein.to_pdb("./predict.pdb")

使用EvolutionarySclae的api时可以有以下几种模型进行选择,替换client的模型名称即可:

同时预测时num_steps和temperature参数都是可调的,num_steps越多消耗的tokens数也越多

每日默认总积分数只有10分,在Credits处可查

可以通过填写一下表格申请到每日100个credits,填了一下发现几分钟就给通过了,估计也没有人工审批

ESM相较于AlphaFold的优势

之前一直想做大规模蛋白质结构预测,尽管ColabFold和AlphaFold 3都已经公开可用,但这两个模型都需要进行多序列比对,而这一步在部署到本地后十分耗时,之前本人尝试过结果表明一个200氨基酸左右的序列需要近20分钟才能预测完成。

相比之下,如今使用ESM3每个蛋白预测时间在num_steps数设置合适的时候半分钟不到就可以预测完成,极大提高效率。而Credits限制的问题可以通过开多个账号或者本地部署ESM3模型来解决,比解决AlphaFold MSA的问题方便多了。

相关推荐
深瞳智检1 小时前
lesson-02 NLP 基础-文本表示与词向量
人工智能·自然语言处理·llm·大语言模型
twc8292 小时前
大模型生成 QA Pairs 提升 RAG 应用测试效率的实践
服务器·数据库·人工智能·windows·rag·大模型测试
宇擎智脑科技2 小时前
A2A Python SDK 源码架构解读:一个请求是如何被处理的
人工智能·python·架构·a2a
IT_陈寒2 小时前
Redis缓存击穿:3个鲜为人知的防御策略,90%开发者都忽略了!
前端·人工智能·后端
电商API&Tina3 小时前
【电商API接口】开发者一站式电商API接入说明
大数据·数据库·人工智能·云计算·json
湘美书院--湘美谈教育3 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作
uzong3 小时前
Harness Engineering 是什么?一场新的 AI 范式已经开始
人工智能·后端·架构
墨有6663 小时前
FieldFormer:基于物理场论的极简AI大模型底层架构,附带源码
人工智能·架构·电磁场算法映射
Mountain and sea3 小时前
从零搭建工业机器人激光切割+焊接产线:KUKA七轴协同+节卡AGV+视觉检测实战复盘
人工智能·机器人·视觉检测
K姐研究社4 小时前
阿里JVS Claw实测 – 手机一键部署 OpenClaw,开箱即用
人工智能·智能手机·aigc·飞书