文心生物计算大模型重磅升级,构象预测准确度全面提升!

文心生物计算大模型家族又迎来了重磅的升级:蛋白质-小分子对接构象预测模型HelixDock,以及蛋白-蛋白复合物结构预测模型HelixFold-Multimer准确度全面提升。这两项新技术可以大幅提升蛋白质-小分子的对接构象及蛋白-蛋白复合物结构预测的精度,为基于结构的药物设计奠定了扎实的基础。

蛋白质-小分子对接构象预测模型HelixDock

蛋白质-小分子对接构象预测是小分子药物发现的核心环节。传统的分子对接工具(如LeDock,AutoDock Vina,Glide等)受限于有限的构象采样次数及粗糙的打分函数,精度不足。当前也有一些基于深度学习的技术(如Equibind,TankBind,DiffDock和Uni-Mol),其表现相比起传统工具有提升,但这些模型在泛化能力与预测的结构合法性上仍存在较大的问题。

百度飞桨螺旋桨团队通过构建大规模的模拟数据集、升级基于几何的神经网络等手段,构建蛋白质-小分子对接构象预测模型HelixDock,大幅度提升了构象预测的准确度。在PDBBind core set上对比其他方法RMSD≤2Å的比例高达89%(图一)。在数据分布不一样且更加难的数据集上(RCSB PDB中收集的最近的数据集Recent-PDB和PoseBusters基准集),HelixDock的预测结果大幅度领先其他方法(图二),也包括DeepMind最新公布的AlphaFold-lastest(图三)。

图一 PDBBind core set的对比效果

图二 Recent PDB上的对比效果

图三 在PoseBusters基准集上达到业界最佳

对比AlphaFold-latest技术文档中展示的的示例,HelixDock的预测结果也极具竞争力,在2个示例中预测结果明显优于AlphaFold-latest(图四)。这充分体现出HelixDock的强泛化能力。

图四 HelixDock vs AlphaFold-latest 在3个示例上的对比效果图

更多结果详见HelixDock文章:

arxiv.org/abs/2310.13...

蛋白-蛋白复合物结构预测模型HelixFold-Multimer

在大分子药物发现中,蛋白质复合体的结构预测发挥着至关重要的作用。无论是基于能量函数打分的对接工具(如ZDock和HDock),还是基于深度神经网络的对接方法(如Equidock和AlphaFold),精度上都有很大的提升空间。特别地,在与大分子药物发现更相关的抗原-抗体和多肽-蛋白复合物的场景上,现有方法的准确度都难以达到应用状态(一般认为DockQ大于0.23即可用)。

鉴于此,百度飞桨螺旋桨团队研发了蛋白-蛋白复合物结构预测模型HelixFold-Multimer,在抗原-抗体、多肽-蛋白等场景上取得了突破进展,相比其他方法DockQ大幅提升。HelixFold-Multimer 在68例2022年10月后公开的Sabdab抗原-抗体测试数据上,单模型的DockQ达到0.49,多模型融合的DockQ达到0.5,成功率达到67.6%,远超其他已公开方法(图五)。

图五 HelixFold-Multimer在抗原-抗体复合物结构预测的结果

在多肽-蛋白复合物结构预测场景,选取PDB数据库在2021年10月后发布的 61个多肽-蛋白复合体结构数据进行评估。单模型DockQ达到0.380,多模型融合的DockQ达到0.387,领先于其他结构预测方法(图六)。

图六 HelixFold-Multimer 在多肽-蛋白复合物结构预测的结果

示例:

示例1: 7VD7 沙门氏菌的毒素-抗毒素复合物,复合体构象预测可以帮助理解毒素和抗毒素如何相互作用以调节细胞内过程。Alphafold 2.3在红色圈部分预测差异大,而 HelixFold-Multimer 预测得到了准确的构象(图七)。

图七:7VD7复合体预测结果

示例2: 7UA2 疟疾传播阻断抗原Pfs230 domain 1 (Pfs230D1) 与纳米抗体的复合体构象,其中Pfs230D1是一种高功能活性的疟疾传播阻断疫苗抗原,已在临床试验中得到广泛验证。7UA2复合体包含了Pfs230D1疫苗接种的受试者产生的人源单克隆抗体(hmAbs)和Pfs230D1构象。可以看到 HelixFold-Multimer 预测的构象(蓝色)几乎与真值重合,对接面的预测 DockQ也达到0.819,Interface RMSD为0.826 Ȧ(图八)。

图八 7UA2复合体预测结果

很高兴和大家分享文心生物计算大模型现阶段已经取得的进展,同时我们也关注到了DeepMind最近公开的AlphaFold-latest的相关成果,但由于DeepMind并未开源,也未放出线上服务,因此我们只能在公开可比的数据集上进行了比较(详见正文)。我们将于近期面向公众开放 HelixDock和HelixFold-Multimer等相关工作的试用,敬请期待。同时我们也深知,AI技术的更迭日新月异,想要全面领先,就需要集结大家的力量。我们希望探索出一种新形式,将强大的底座模型能力开放给国内的科研工作者们,以在更加广泛的维度上推动生物计算领域的技术变革。也希望对此工作感兴趣的专家学者与我们联系,共同推进生物计算大模型在应用侧的研究。

相关推荐
数据分析能量站35 分钟前
神经网络-AlexNet
人工智能·深度学习·神经网络
Ven%41 分钟前
如何修改pip全局缓存位置和全局安装包存放路径
人工智能·python·深度学习·缓存·自然语言处理·pip
szxinmai主板定制专家1 小时前
【NI国产替代】基于国产FPGA+全志T3的全国产16振动+2转速(24bits)高精度终端采集板卡
人工智能·fpga开发
YangJZ_ByteMaster1 小时前
EndtoEnd Object Detection with Transformers
人工智能·深度学习·目标检测·计算机视觉
Anlici1 小时前
模型训练与数据分析
人工智能·机器学习
余~~185381628002 小时前
NFC 碰一碰发视频源码搭建技术详解,支持OEM
开发语言·人工智能·python·音视频
唔皇万睡万万睡2 小时前
五子棋小游戏设计(Matlab)
人工智能·matlab·游戏程序
视觉语言导航2 小时前
AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航
人工智能·具身智能
volcanical2 小时前
Bert各种变体——RoBERTA/ALBERT/DistillBert
人工智能·深度学习·bert
知来者逆2 小时前
Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响
人工智能·深度学习·语言模型·自然语言处理·llm·大语言模型