蛋白质功能预测模型DAMPE论文阅读报告

基本信息

来自中山大学,2025.10.27提交在arxiv上的论文,模型的名字和某个暗物质探测器相同(

论文地址:[2510.23273] A Novel Framework for Multi-Modal Protein Representation Learning

代码地址:https://anonymous.4open.science/r/DAMPE-ACD8

数据类型:用序列+结构+PPI,预测GO标签

数据集:与DPFunc论文使用的同一个数据集,从CAFA中筛选的59000+个蛋白质

模型结构

模型大体结构非常清晰,初始嵌入、特征对齐、异构图去噪、分类。

模型有很多比较新颖的点(个人观点)

1、Poincare嵌入(庞加莱嵌入,双曲几何嵌入)

这个东西一般是用于知识图谱的数据表征,这里它用来做GO的初始嵌入,也非常合适

(图片来自网络)

具体的数学原理比较复杂,我们只需要知道,越general的标签越靠近球的中心,越具体的标签越靠近球的边缘就可以了。除此之外,同层级的标签也会相互排斥,保证同级概念的差异性。

具体数学推导可以见这篇博客[论文笔记]Poincaré Embeddings & Hierarchical Represent - 知乎

没想到2019年就已经提出了,这篇文章的作者认为这个用途并不大,但其实用在这种具有层次结构的标签分类任务中还是挺合适的(

2、最优传输理论

最优传输问题是求解两个分布之间的最小距离

比如贪心的经典例题:均分纸牌,就是将一个离散的任意分布,以最小的代价转移为一个均匀离散分布。

再复杂一点,我们的目标分布可以不是均匀的,例如下图。它依旧有贪心算法能解决,推土机算法。不过它要求移动距离(单位代价)必须是两坐标的绝对值距离。

再复杂一点,我们重新定义距离,任意两点的距离表示为dis(i,j),我们可以构建以下的最小费用流模型来解决:

更加复杂的,还有连续分布的情况,不过也有通用的计算公式

也可以采用的迭代算法来求解离散最优传输问题,Sinkhorn迭代

(这部分的数学理论非常多,我也没有研究太深,也有可能有些地方讲错了,还请大佬们指出)

在论文中,最优传输理论的运用就是,将结构的嵌入向量对齐到序列的嵌入向量上

利用Sinkhorn求解出的最优传输方案矩阵T*(过去是训练一个MLP映射)

用最小的代价,保持映射后的结构嵌入向量上各个位置的值与序列嵌入向量中的分布一致

3、异构图去噪

在蛋白质功能预测领域,利用异构图的论文已经非常多了,其实算不上新颖。

一旦要使用异构图,就必须考虑数据泄露的问题,测试集里面的蛋白质与GO信息很容易在训练中通过PPI网络和GO标注网络泄露出来。

不过这个模型的数据泄露的风险不高。异构图构建时清理了测试集蛋白质的Protein-GO标注边。

每个蛋白质取k跳内的子图,作为它的ego-graph,对ego-graph进行加噪与还原。

使用的是DiGress模型,通过一系列操作对异构图引入噪声(Forward Process),通过graph-transformer还原图中节点的类型,使用交叉熵损失训练。

虽然描述非常复杂,什么马尔可夫过程,条件图生成之类的,但其实就是加了一个对ego-graph去噪的学习任务。

4、其他

文中还提到了GearNet,不过它已经是比较老的结构模型了,和GVP差不多是一个时期的。

所以不打算展开讲了。放两张PPT

实验结果

对比实验

可以说是完完全全瞄着DPFunc出手的一篇文章,但DPFunc的论文指标其实是虚低的,实际跑起来会更高。

消融实验

先对特征对齐部分进行了消融实验

四种方法:直接拼接,对比学习(以同个蛋白质的seq和struct嵌入为正样本对,不同蛋白质间的嵌入为负样本对),交叉注意力,串行连接(类似DPFunc,将ESM2的输出作为GearNet的初始节点特征)

比较可惜的地方在于,没有做把OT换成可训练的MLP的实验。

然后对信息融合部分做了消融实验

三种方法:用GAT和SAGE融合PPI信息(把MoE换成GNN,在PPI图上卷积),不使用CGG方法,直接使用MoE。

感觉用GraphTransformer做的CGG对结果的提升并不大,耗费大量运算资源,最终只提升0.004。

多任务训练可能还是对蛋白质功能预测任务存在一定的影响。如果能改进一下信息融合的过程,可能会有更好的结果。

其他实验

还做了参数敏感性分析和具体案例分析的实验,不过不打算展开讲了。

放张PPT。

后记

这篇论文数学偏向更多一些,很多东西都与数学理论相关,读的时候可能需要了解很多数学背景。

论文全长30多页,内容非常多,如果有想要了解的细节,可以去看看论文原文。

相关推荐
金融小师妹7 小时前
AI多模态宏观建模视角:超级央行周触发“政策—数据—预期”耦合重估框架
大数据·人工智能·逻辑回归·能源
数据门徒7 小时前
神经网络原理 第三章:单层感知器
深度学习·神经网络
FIN66687 小时前
底部蓄力,静待花开——清越科技的韧性与曙光
大数据·人工智能·物联网
小超同学你好7 小时前
Transformer 31. ALBEF:Align before Fuse,用「先对齐、再融合」解决图文交互难学的问题
深度学习·transformer·交互
2401_831419447 小时前
Python分类汇总怎么做_Crosstab交叉表与多条件联合频数频率统计
jvm·数据库·python
LucaJu7 小时前
DeepAgents 人工介入实战|LangGraph 实现 Agent 高危工具人工审批
python·langchain·agent·langgraph·deepagents
2301_787312437 小时前
Go语言怎么用channel做信号通知_Go语言channel信号模式教程【完整】
jvm·数据库·python
Gofarlic_OMS7 小时前
UG/NX许可证管理高频技术问题解答汇编
java·大数据·运维·服务器·汇编·人工智能
一念杂记7 小时前
SKILL到底应该怎么写?10 分钟快速掌握 AI 智能体技能开发核心技巧
人工智能·openai·ai编程
AI刀刀7 小时前
手机AI怎么导出pdf
人工智能·ai·智能手机·pdf·deepseek·ds随心转