文心生物计算大模型重磅升级,构象预测准确度全面提升!

文心生物计算大模型家族又迎来了重磅的升级:蛋白质-小分子对接构象预测模型HelixDock,以及蛋白-蛋白复合物结构预测模型HelixFold-Multimer准确度全面提升。这两项新技术可以大幅提升蛋白质-小分子的对接构象及蛋白-蛋白复合物结构预测的精度,为基于结构的药物设计奠定了扎实的基础。

蛋白质-小分子对接构象预测模型HelixDock

蛋白质-小分子对接构象预测是小分子药物发现的核心环节。传统的分子对接工具(如LeDock,AutoDock Vina,Glide等)受限于有限的构象采样次数及粗糙的打分函数,精度不足。当前也有一些基于深度学习的技术(如Equibind,TankBind,DiffDock和Uni-Mol),其表现相比起传统工具有提升,但这些模型在泛化能力与预测的结构合法性上仍存在较大的问题。

百度飞桨螺旋桨团队通过构建大规模的模拟数据集、升级基于几何的神经网络等手段,构建蛋白质-小分子对接构象预测模型HelixDock,大幅度提升了构象预测的准确度。在PDBBind core set上对比其他方法RMSD≤2Å的比例高达89%(图一)。在数据分布不一样且更加难的数据集上(RCSB PDB中收集的最近的数据集Recent-PDB和PoseBusters基准集),HelixDock的预测结果大幅度领先其他方法(图二),也包括DeepMind最新公布的AlphaFold-lastest(图三)。

图一 PDBBind core set的对比效果

图二 Recent PDB上的对比效果

图三 在PoseBusters基准集上达到业界最佳

对比AlphaFold-latest技术文档中展示的的示例,HelixDock的预测结果也极具竞争力,在2个示例中预测结果明显优于AlphaFold-latest(图四)。这充分体现出HelixDock的强泛化能力。

图四 HelixDock vs AlphaFold-latest 在3个示例上的对比效果图

更多结果详见HelixDock文章:

arxiv.org/abs/2310.13...

蛋白-蛋白复合物结构预测模型HelixFold-Multimer

在大分子药物发现中,蛋白质复合体的结构预测发挥着至关重要的作用。无论是基于能量函数打分的对接工具(如ZDock和HDock),还是基于深度神经网络的对接方法(如Equidock和AlphaFold),精度上都有很大的提升空间。特别地,在与大分子药物发现更相关的抗原-抗体和多肽-蛋白复合物的场景上,现有方法的准确度都难以达到应用状态(一般认为DockQ大于0.23即可用)。

鉴于此,百度飞桨螺旋桨团队研发了蛋白-蛋白复合物结构预测模型HelixFold-Multimer,在抗原-抗体、多肽-蛋白等场景上取得了突破进展,相比其他方法DockQ大幅提升。HelixFold-Multimer 在68例2022年10月后公开的Sabdab抗原-抗体测试数据上,单模型的DockQ达到0.49,多模型融合的DockQ达到0.5,成功率达到67.6%,远超其他已公开方法(图五)。

图五 HelixFold-Multimer在抗原-抗体复合物结构预测的结果

在多肽-蛋白复合物结构预测场景,选取PDB数据库在2021年10月后发布的 61个多肽-蛋白复合体结构数据进行评估。单模型DockQ达到0.380,多模型融合的DockQ达到0.387,领先于其他结构预测方法(图六)。

图六 HelixFold-Multimer 在多肽-蛋白复合物结构预测的结果

示例:

示例1: 7VD7 沙门氏菌的毒素-抗毒素复合物,复合体构象预测可以帮助理解毒素和抗毒素如何相互作用以调节细胞内过程。Alphafold 2.3在红色圈部分预测差异大,而 HelixFold-Multimer 预测得到了准确的构象(图七)。

图七:7VD7复合体预测结果

示例2: 7UA2 疟疾传播阻断抗原Pfs230 domain 1 (Pfs230D1) 与纳米抗体的复合体构象,其中Pfs230D1是一种高功能活性的疟疾传播阻断疫苗抗原,已在临床试验中得到广泛验证。7UA2复合体包含了Pfs230D1疫苗接种的受试者产生的人源单克隆抗体(hmAbs)和Pfs230D1构象。可以看到 HelixFold-Multimer 预测的构象(蓝色)几乎与真值重合,对接面的预测 DockQ也达到0.819,Interface RMSD为0.826 Ȧ(图八)。

图八 7UA2复合体预测结果

很高兴和大家分享文心生物计算大模型现阶段已经取得的进展,同时我们也关注到了DeepMind最近公开的AlphaFold-latest的相关成果,但由于DeepMind并未开源,也未放出线上服务,因此我们只能在公开可比的数据集上进行了比较(详见正文)。我们将于近期面向公众开放 HelixDock和HelixFold-Multimer等相关工作的试用,敬请期待。同时我们也深知,AI技术的更迭日新月异,想要全面领先,就需要集结大家的力量。我们希望探索出一种新形式,将强大的底座模型能力开放给国内的科研工作者们,以在更加广泛的维度上推动生物计算领域的技术变革。也希望对此工作感兴趣的专家学者与我们联系,共同推进生物计算大模型在应用侧的研究。

相关推荐
Blossom.1183 小时前
使用Python和Scikit-Learn实现机器学习模型调优
开发语言·人工智能·python·深度学习·目标检测·机器学习·scikit-learn
DFminer4 小时前
【LLM】fast-api 流式生成测试
人工智能·机器人
郄堃Deep Traffic4 小时前
机器学习+城市规划第十四期:利用半参数地理加权回归来实现区域带宽不同的规划任务
人工智能·机器学习·回归·城市规划
GIS小天5 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月7日第101弹
人工智能·算法·机器学习·彩票
阿部多瑞 ABU5 小时前
主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析
人工智能·安全·ai·语言模型·安全性测试
cnbestec6 小时前
Xela矩阵三轴触觉传感器的工作原理解析与应用场景
人工智能·线性代数·触觉传感器
不爱写代码的玉子6 小时前
HALCON透视矩阵
人工智能·深度学习·线性代数·算法·计算机视觉·矩阵·c#
sbc-study6 小时前
PCDF (Progressive Continuous Discrimination Filter)模块构建
人工智能·深度学习·计算机视觉
EasonZzzzzzz6 小时前
计算机视觉——相机标定
人工智能·数码相机·计算机视觉
猿小猴子6 小时前
主流 AI IDE 之一的 Cursor 介绍
ide·人工智能·cursor