免费!糖蛋白质组学数据分析

摘要

糖基化是类关键的蛋白质翻译后修饰,也是疾病生物标志物的重要来源,但在蛋白质组水平上开展糖基化位点与糖型的全面、位点特异性鉴定仍存在计算量大、耗时久的问题。本文开发糖蛋白质组学数据分析软件(GDAS),这是款可从质谱数据中快速、可靠鉴定疾病特异性糖型的高通量计算平台。GDAS将超快开放搜索策略(如MSFragger-Glyco)与统计过滤相结合,将大规模蛋白质组数据库高效精简为显著差异调控糖蛋白的核心集合,进而简化后续使用GlycReSoft、O-Pair等专用工具开展的靶向N-糖基化与O-糖基化分析。专属的最终分析模块进一步通过高级统计建模与机器学习算法(自助法、贝叶斯推断、XGBoost、随机森林)整合定量输出结果,生成稳健的糖基化评分以实现生物标志物优先级排序。将GDAS应用于已发表的阿尔茨海默病数据集,验证其可捕获具有生物学意义的糖基化异常改变。

https://github.com/Yang-LabSUMC/GDAS

shuangyang@stu.edu.cn

#糖基化 #糖蛋白质组学 #质谱 #机器学习 #疾病特异性糖型 #生物标志物 #GDAS

结果与讨论

GDAS流程界面

1 GDAS平台工作流程示意图

GDAS整合基于质谱的糖蛋白质组学分析、统计过滤与功能注释,实现疾病特异性糖基化的高通量鉴定。首先将多级质谱数据与全面蛋白质组数据库进行搜索,生成精简糖蛋白库;再基于统计学显著性(倍数变化、p值、均方误差、均方根误差、决定系数)进一步过滤;目标蛋白进行位点特异性糖基化注释,随后利用京都基因与基因组百科全书(KEGG)、基因本体(GO)、基因互作综合分析平台(GeneMANIA)开展通路与功能分析,鉴定疾病相关糖基化标志物。

2 GDAS计算算法工作流程示意图

GDAS流程整合基于质谱的糖蛋白质组学分析、数据库精简、机器学习与统计验证以实现生物标志物挖掘。原始质谱数据首先经MSFragger处理鉴定差异糖基化蛋白,通过火山图可视化并生成过滤后的靶向蛋白质数据库;随后使用GlycReSoft与O-Pair分别开展N-糖基化与O-糖基化分析,再通过Byonic完成糖型注释;所得数据经预处理后,基于XGBoost机器学习进行生物标志物筛选;小样本量(n<20)采用贝叶斯模型统计验证,大样本队列(n≥20)采用自助重抽样法验证。

显著差异调控糖蛋白的计算算法

3 GDAS工作流程的验证与性能比较

(A) 将GDAS分析牛胎球蛋白所得糖链谱与GlycReSoft(N-糖链)、O-Pair(O-糖链)结果对比,糖链组成与相对丰度高度一致。

(B) 牛胎球蛋白糖基化位点的质谱/质谱注释,定量3个N-糖基化位点与6个O-糖基化位点,展示N176、S271、S296位点的代表性图谱。

(C) GDAS在多种疾病样本中分步精简数据库的效果,基于MSFragger快速筛选候选糖蛋白,验证其高效精简能力。

(D) 不同软件的分析时长对比,证明GDAS整合速度优势与数据库精简能力。

复杂生物样本中疾病特异性糖基化标志物的鉴定

4 GDAS鉴定阿尔茨海默病组织中疾病特异性N-糖基化

(A) 对4例阿尔茨海默病(AD)与4例健康对照(HC)样本的质谱数据进行人类蛋白质组与糖组数据库搜索;火山图展示基于倍数变化与p值的差异糖蛋白,标注显著差异蛋白;对排名靠前的蛋白进行决定系数、均方误差、均方根误差验证,再经Byonic分析与KEGG、GO、GeneMANIA功能注释;以淀粉样前体蛋白(APP)、微管相关蛋白Tau(MAPT)为中心的蛋白互作网络,突出参与阿尔茨海默病相关通路的显著差异糖蛋白。

(B) 基于糖链组成总离子强度的阿尔茨海默病与健康对照样本的全局N-糖组谱对比(H:己糖;N:N-乙酰葡糖胺;F:岩藻糖;S:N-乙酰神经氨酸;G:N-乙酰羟神经氨酸)。

详细总结

思维导图

关键工具整合

分析时间对比

参考

Anal Chem. 2026 May 18. doi: 10.1021/acs.analchem.6c01321.

GDAS: A Machine Learning-Driven Approach for the High-Throughput Identification of Disease-Associated Glycoforms

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

相关推荐
小林敲代码778813 分钟前
记录一下IDEA中很多变量变色的方案
java·开发语言·spring boot·idea
追梦人电立电子14 分钟前
X、Y电容的分类与选择
人工智能·分类·数据挖掘·追梦人电力电子
njsgcs23 分钟前
c# solidworks 工程图获得展开视图不在固定面螺纹特征的位置
开发语言·c#·solidworks
大模型最新论文速读24 分钟前
小红书提出 RedKnot:分头处理 kv 缓存,延时降低 60%效果还提升
论文阅读·人工智能·深度学习·机器学习·缓存·自然语言处理
qq_85730581942 分钟前
python语法
开发语言·python·算法
AI行业学习1 小时前
CC-Switch v3.16.1 官方下载 | 安装配置详细教程【2026.6.10】
java·开发语言·vue.js·python·mysql·eclipse·html
星浩AI1 小时前
(七)GPT2中文生成模型定制化微调训练[附源码]
pytorch·深度学习·llm
周杰伦的稻香1 小时前
Go + Redis:本地部署高性能图片主色调提取服务
开发语言·redis·golang
吴梓穆2 小时前
Python 语法基础 函数
开发语言·python
卡梅德生物科技小能手2 小时前
卡梅德生物科普MCAM(黑色素瘤细胞黏附分子)
人工智能·经验分享·深度学习