【文献分享】DARKIN:基于蛋白质语言模型的零样本磷酸化位点与暗激酶关联基准测试

文章目录

介绍

蛋白质语言模型(pLMs)已成为捕捉蛋白质序列中复杂编码信息的强大工具,有助于各种下游蛋白质预测任务。随着众多 pLMs 的出现,迫切需要多样化的基准来系统地评估它们在生物相关任务中的表现。在此,我们介绍了 DARKIN,这是一个零样本分类基准,旨在将磷酸化位点分配给研究不足的激酶,即暗激酶。激酶通过催化磷酸化在细胞信号传导途径中发挥核心作用。虽然磷酸蛋白质组学能够大规模识别磷酸化位点,但确定负责磷酸化事件的同源激酶仍是一项实验挑战。

在 DARKIN 中,我们准备了训练、验证和测试折,这些折遵循了这一分类问题的零样本性质,基于激酶组和序列相似性进行了分层。我们使用两种零样本分类器评估了多个蛋白质语言模型(pLM):一种新颖的无需训练的基于 k 近邻的方法和一个双线性分类器。我们的研究结果表明,ESM、ProtT5-XL 和 SaProt 在此任务中表现出色。DARKIN 为评估 pLM 的有效性提供了一个具有挑战性的基准,并通过提供一个具有生物学相关性的测试平台,促进了对特征不足(暗)激酶的更深入探索。

在大型语言模型在自然语言处理领域取得成功的基础上(于鹏等人,2024 年),蛋白质语言模型(pLMs)应运而生,旨在捕捉蛋白质序列中所蕴含的复杂信息(拉奥等人,2019 年;埃尔纳加尔等人,2021 年;林等人,2023 年;迈耶等人,2021 年;林等人,2022 年;布兰德斯等人,2022 年;费鲁兹等人,2022 年;格芬等人,2022 年;埃尔纳加尔等人,2023 年;苏等人,2024 年;ESM 团队,2024 年;福尼耶等人,2024 年;张等人,2025 年;于鹏等,2024 年;欧阳章等人,2024 年;海斯等人,2025 年;彭等人,2025 年)。通过生成蛋白质的语义表示,pLMs 能够执行一系列基于序列的预测任务。然而,随着越来越多的 pLMs 出现,对其进行系统性的性能评估以确定其可靠性和在各种生物环境中的适用性至关重要。此前的研究已经比较了这些 pLMs 在预测蛋白质功能特性(乌纳尔等人,2022 年;施米勒等人,2024 年;张等人,2025 年)和功能模式(萨沃加多等人,2023 年)方面的能力。在这项研究中,我们为磷酸位点 - 隐性激酶关联这一生物学相关的新零样本预测任务提供了一个全新的基准,并通过比较 pLMs 的表现,评估了它们在完成这一具有挑战性的任务时捕捉内在序列特性的能力。

磷酸化过程是信号转导通路中蛋白质功能的关键调节因素,其失调与许多疾病有关(Gaestel 等人 2009 年、Müller 等人 2015 年、Wu 等人 2023 年)。激酶是以靶点特异性方式催化其他蛋白质磷酸化的酶(亨特 1995 年)。因此,激酶是诸如癌症、传染病和神经疾病等疾病中的主要药物靶点(布卢梅-詹森和亨特 2001 年、科恩等人 2021 年)。磷酸化涉及将磷酸从腺苷 5'-三磷酸(ATP)转移到氨基酸残基上(科恩 2002 年)。这些磷酸化的残基被称为磷酸位点,对于调节蛋白质的结构和功能至关重要。

(a)基于 k-NN 的零样本分类器。首先,在训练数据中确定测试磷酸化位点的最近邻磷酸化位点。在这些邻近位点的类别标签中进行多数投票,以选出最有可能的亮激酶。然后,选择与该亮激酶最相似的暗激酶。(b)双线性兼容性函数 F 接受磷酸化位点和激酶嵌入向量,并经过训练以最小化亮激酶上的交叉熵损失。在预测时,F 用于评估磷酸化位点与暗激酶之间的兼容性。

代码

https://github.com/tastanlab/darkin

参考

相关推荐
执笔论英雄6 小时前
【大模型训练】zero 学习及deepseed实战
人工智能·深度学习·学习
大千AI助手6 小时前
分布式奇异值分解(SVD)详解
人工智能·分布式·spark·奇异值分解·svd·矩阵分解·分布式svd
AgeClub6 小时前
当“钢铁护工”进入家庭,Figure 03如何重建老年居家生活?
大数据·人工智能
RWKV元始智能6 小时前
RWKV7-G0a3 13.3B 发布:世界最强纯 RNN 大语言模型
人工智能·机器学习·开源
星辰pid6 小时前
基于ROS与YOLOv3的智能采购机器人设计(智能车创意组-讯飞智慧生活组)
人工智能·opencv·yolo·机器人
weixin_307779136 小时前
基于AWS服务的客户服务电话情感分析解决方案
人工智能·深度学习·机器学习·云计算·aws
极客BIM工作室6 小时前
U-Net 的输入与输出:通用场景与扩散模型场景解析
人工智能·深度学习·计算机视觉
说私域6 小时前
定制开发开源AI智能名片S2B2C商城小程序中的羊群效应应用研究
人工智能·小程序
databook7 小时前
AI辅助编程下的软件分层设计:让生成的代码井然有序
人工智能·程序员·架构