【文献分享】DARKIN:基于蛋白质语言模型的零样本磷酸化位点与暗激酶关联基准测试

文章目录

介绍

蛋白质语言模型(pLMs)已成为捕捉蛋白质序列中复杂编码信息的强大工具,有助于各种下游蛋白质预测任务。随着众多 pLMs 的出现,迫切需要多样化的基准来系统地评估它们在生物相关任务中的表现。在此,我们介绍了 DARKIN,这是一个零样本分类基准,旨在将磷酸化位点分配给研究不足的激酶,即暗激酶。激酶通过催化磷酸化在细胞信号传导途径中发挥核心作用。虽然磷酸蛋白质组学能够大规模识别磷酸化位点,但确定负责磷酸化事件的同源激酶仍是一项实验挑战。

在 DARKIN 中,我们准备了训练、验证和测试折,这些折遵循了这一分类问题的零样本性质,基于激酶组和序列相似性进行了分层。我们使用两种零样本分类器评估了多个蛋白质语言模型(pLM):一种新颖的无需训练的基于 k 近邻的方法和一个双线性分类器。我们的研究结果表明,ESM、ProtT5-XL 和 SaProt 在此任务中表现出色。DARKIN 为评估 pLM 的有效性提供了一个具有挑战性的基准,并通过提供一个具有生物学相关性的测试平台,促进了对特征不足(暗)激酶的更深入探索。

在大型语言模型在自然语言处理领域取得成功的基础上(于鹏等人,2024 年),蛋白质语言模型(pLMs)应运而生,旨在捕捉蛋白质序列中所蕴含的复杂信息(拉奥等人,2019 年;埃尔纳加尔等人,2021 年;林等人,2023 年;迈耶等人,2021 年;林等人,2022 年;布兰德斯等人,2022 年;费鲁兹等人,2022 年;格芬等人,2022 年;埃尔纳加尔等人,2023 年;苏等人,2024 年;ESM 团队,2024 年;福尼耶等人,2024 年;张等人,2025 年;于鹏等,2024 年;欧阳章等人,2024 年;海斯等人,2025 年;彭等人,2025 年)。通过生成蛋白质的语义表示,pLMs 能够执行一系列基于序列的预测任务。然而,随着越来越多的 pLMs 出现,对其进行系统性的性能评估以确定其可靠性和在各种生物环境中的适用性至关重要。此前的研究已经比较了这些 pLMs 在预测蛋白质功能特性(乌纳尔等人,2022 年;施米勒等人,2024 年;张等人,2025 年)和功能模式(萨沃加多等人,2023 年)方面的能力。在这项研究中,我们为磷酸位点 - 隐性激酶关联这一生物学相关的新零样本预测任务提供了一个全新的基准,并通过比较 pLMs 的表现,评估了它们在完成这一具有挑战性的任务时捕捉内在序列特性的能力。

磷酸化过程是信号转导通路中蛋白质功能的关键调节因素,其失调与许多疾病有关(Gaestel 等人 2009 年、Müller 等人 2015 年、Wu 等人 2023 年)。激酶是以靶点特异性方式催化其他蛋白质磷酸化的酶(亨特 1995 年)。因此,激酶是诸如癌症、传染病和神经疾病等疾病中的主要药物靶点(布卢梅-詹森和亨特 2001 年、科恩等人 2021 年)。磷酸化涉及将磷酸从腺苷 5'-三磷酸(ATP)转移到氨基酸残基上(科恩 2002 年)。这些磷酸化的残基被称为磷酸位点,对于调节蛋白质的结构和功能至关重要。

(a)基于 k-NN 的零样本分类器。首先,在训练数据中确定测试磷酸化位点的最近邻磷酸化位点。在这些邻近位点的类别标签中进行多数投票,以选出最有可能的亮激酶。然后,选择与该亮激酶最相似的暗激酶。(b)双线性兼容性函数 F 接受磷酸化位点和激酶嵌入向量,并经过训练以最小化亮激酶上的交叉熵损失。在预测时,F 用于评估磷酸化位点与暗激酶之间的兼容性。

代码

https://github.com/tastanlab/darkin

参考

相关推荐
综合热讯12 分钟前
itc保伦股份低空经济数字化升级项目成功入编《“人工智能+”行业生态范式案例集》!
人工智能
大模型任我行16 分钟前
微软:小模型微调优化企业搜索
人工智能·语言模型·自然语言处理·论文笔记
TMT星球28 分钟前
星动纪元携人形机器人家族亮相CES 2026,海外业务占比达50%
大数据·人工智能·机器人
程序员爱德华36 分钟前
镜面检测 Mirror Detection
人工智能·计算机视觉·语义分割·镜面检测
莫非王土也非王臣1 小时前
TensorFlow中卷积神经网络相关函数
人工智能·cnn·tensorflow
焦耳热科技前沿1 小时前
西华大学Adv. Sci.:超高温焦耳热冲击制备拓扑缺陷碳,用于催化碳纳米管可控生长
大数据·人工智能·能源·材料工程·电池
亿坊电商1 小时前
AI数字人开发框架如何实现多模态交互?
人工智能·交互
GOSIM 全球开源创新汇1 小时前
科班出身+跨界双轨:陈郑豪用 AI 压缩技术,让 4K 游戏走进普通设备|Open AGI Forum
人工智能·游戏·agi
sinat_286945191 小时前
AI Coding LSP
人工智能·算法·prompt·transformer
IT_陈寒1 小时前
Java并发编程实战:从入门到精通的5个关键技巧,让我薪资涨了40%
前端·人工智能·后端