【文献分享】DARKIN:基于蛋白质语言模型的零样本磷酸化位点与暗激酶关联基准测试

文章目录

介绍

蛋白质语言模型(pLMs)已成为捕捉蛋白质序列中复杂编码信息的强大工具,有助于各种下游蛋白质预测任务。随着众多 pLMs 的出现,迫切需要多样化的基准来系统地评估它们在生物相关任务中的表现。在此,我们介绍了 DARKIN,这是一个零样本分类基准,旨在将磷酸化位点分配给研究不足的激酶,即暗激酶。激酶通过催化磷酸化在细胞信号传导途径中发挥核心作用。虽然磷酸蛋白质组学能够大规模识别磷酸化位点,但确定负责磷酸化事件的同源激酶仍是一项实验挑战。

在 DARKIN 中,我们准备了训练、验证和测试折,这些折遵循了这一分类问题的零样本性质,基于激酶组和序列相似性进行了分层。我们使用两种零样本分类器评估了多个蛋白质语言模型(pLM):一种新颖的无需训练的基于 k 近邻的方法和一个双线性分类器。我们的研究结果表明,ESM、ProtT5-XL 和 SaProt 在此任务中表现出色。DARKIN 为评估 pLM 的有效性提供了一个具有挑战性的基准,并通过提供一个具有生物学相关性的测试平台,促进了对特征不足(暗)激酶的更深入探索。

在大型语言模型在自然语言处理领域取得成功的基础上(于鹏等人,2024 年),蛋白质语言模型(pLMs)应运而生,旨在捕捉蛋白质序列中所蕴含的复杂信息(拉奥等人,2019 年;埃尔纳加尔等人,2021 年;林等人,2023 年;迈耶等人,2021 年;林等人,2022 年;布兰德斯等人,2022 年;费鲁兹等人,2022 年;格芬等人,2022 年;埃尔纳加尔等人,2023 年;苏等人,2024 年;ESM 团队,2024 年;福尼耶等人,2024 年;张等人,2025 年;于鹏等,2024 年;欧阳章等人,2024 年;海斯等人,2025 年;彭等人,2025 年)。通过生成蛋白质的语义表示,pLMs 能够执行一系列基于序列的预测任务。然而,随着越来越多的 pLMs 出现,对其进行系统性的性能评估以确定其可靠性和在各种生物环境中的适用性至关重要。此前的研究已经比较了这些 pLMs 在预测蛋白质功能特性(乌纳尔等人,2022 年;施米勒等人,2024 年;张等人,2025 年)和功能模式(萨沃加多等人,2023 年)方面的能力。在这项研究中,我们为磷酸位点 - 隐性激酶关联这一生物学相关的新零样本预测任务提供了一个全新的基准,并通过比较 pLMs 的表现,评估了它们在完成这一具有挑战性的任务时捕捉内在序列特性的能力。

磷酸化过程是信号转导通路中蛋白质功能的关键调节因素,其失调与许多疾病有关(Gaestel 等人 2009 年、Müller 等人 2015 年、Wu 等人 2023 年)。激酶是以靶点特异性方式催化其他蛋白质磷酸化的酶(亨特 1995 年)。因此,激酶是诸如癌症、传染病和神经疾病等疾病中的主要药物靶点(布卢梅-詹森和亨特 2001 年、科恩等人 2021 年)。磷酸化涉及将磷酸从腺苷 5'-三磷酸(ATP)转移到氨基酸残基上(科恩 2002 年)。这些磷酸化的残基被称为磷酸位点,对于调节蛋白质的结构和功能至关重要。

(a)基于 k-NN 的零样本分类器。首先,在训练数据中确定测试磷酸化位点的最近邻磷酸化位点。在这些邻近位点的类别标签中进行多数投票,以选出最有可能的亮激酶。然后,选择与该亮激酶最相似的暗激酶。(b)双线性兼容性函数 F 接受磷酸化位点和激酶嵌入向量,并经过训练以最小化亮激酶上的交叉熵损失。在预测时,F 用于评估磷酸化位点与暗激酶之间的兼容性。

代码

https://github.com/tastanlab/darkin

参考

相关推荐
香芋Yu13 小时前
【机器学习教程】第04章 指数族分布
人工智能·笔记·机器学习
小咖自动剪辑13 小时前
Base64与图片互转工具增强版:一键编码/解码,支持多格式
人工智能·pdf·word·媒体
独自归家的兔13 小时前
从 “局部凑活“ 到 “全局最优“:AI 规划能力的技术突破与产业落地实践
大数据·人工智能
一个处女座的程序猿13 小时前
AI:解读Sam Altman与多位 AI 构建者对话—构建可落地的 AI—剖析 OpenAI Town Hall 与给创业者、产品/工程/安全团队的实用指南
人工智能
依依yyy13 小时前
沪深300指数收益率波动性分析与预测——基于ARMA-GARCH模型
人工智能·算法·机器学习
海域云-罗鹏13 小时前
国内公司与英国总部数据中心/ERP系统互连,SD-WAN专线实操指南
大数据·数据库·人工智能
冬奇Lab13 小时前
深入理解 Claude Code:架构、上下文与工具系统
人工智能·ai编程
Up九五小庞13 小时前
本地部署 + Docker 容器化实战:中医舌诊 AI 项目 TongueDiagnosis 部署全记录-九五小庞
人工智能
John_ToDebug14 小时前
2025年度个人总结:在技术深海中锚定价值,于时代浪潮中重塑自我
人工智能·程序人生
自可乐14 小时前
n8n全面学习教程:从入门到精通的自动化工作流引擎实践指南
运维·人工智能·学习·自动化