notes_质谱&蛋白组学数据分析基础知识

目录

蛋白组学方法学

目前常见的蛋白组学方法学如下图。

液相-质谱法

2001年,基于鸟枪法蛋白质组学的想法,John Yates团队开发了MudPIT技术... ...。实现将鸟枪法应用于蛋白质组学是一件里程碑式的发展成就,其不仅颠覆了传统的蛋白质分析方法,还推动实现大规模分析。

基本原理

Smith, Rob, et al. "Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist's point of view." BMC bioinformatics 15.7 (2014): 1-14.

分离

直接进样(Direct injection)是指将样品直接注入质量检测器。多数复杂样品的质谱实验都会预先分散分析物,使电离能力不会受到大量分析物或背景离子的严重影响。分离方法包括:

  • LC-MS(液相色谱-质谱):①液体流动相由双液组成。梯度(液体成分的百分比)的变化会使分析物缓慢地从色谱柱中释放出来,进入质谱仪。②固定相:装有化学衍生珠子的色谱柱。不同的固定相可以根据疏水性、电荷、大小或亲和性分离分析物。最常见的生物大分子固定相是反相(疏水性)和强阳离子(电荷)。
  • GC-MS(气相色谱-质谱):①流动相为惰性气体(如氦气)。②固定相为根据极性分离分子的色谱柱。梯度是温度的升高,与色谱柱亲和力强的分子在较高温度下洗脱。
  • CE-MS(毛细管电泳-质谱):毛细管电泳使用施加在毛细管上的电场,根据分子的大小、电荷和通过毛细管的流动阻力来分离分子。
  • 多维色谱法/串联色谱法:将两个色谱系统应用于同一系统。如MUDPIT方法,该方法采用两种正交分离策略,如强阳离子交换(基于电荷)和反相(基于疏水性)色谱法,以获得更高的分辨率。

电离

分析物必须电离(即处于带电状态)才能被质谱仪检测到。电喷雾离子化(ESI)是质谱组学中最常用的方法,这主要是因为它能在不破坏化学键的情况下电离不稳定分子,而且该方法可电离的分析物种类繁多。其他方法包括APCIMALDIEI

质量检测

带电粒子通过质谱仪时,检测到的粒子的质量电荷比 (m/z) 会被记录下来。输出结果的单次扫描表示在特定保留时间(RT)通过质谱仪的母离子(precursor ions)的快照。在 MS/MS 中,小 m/z 窗口中的离子会被捕获进行第二次碎片化和 MS 检测,产生第二组离子称为子离子(product ions),可通过将其 MS/MS 模式与数据库进行匹配来识别母离子。进行 MS/MS 的溶液比例很低,通常只能捕获MS1数据的10-20%。由于多数 MS/MS 系统会根据强度自动选择片段,大部分会在重复间重叠。在这 10-20% 的数据中,只有不到 60% 可以通过数据库查询进行鉴定,即使这样也会出现假阳性。

质谱仪输出原始数据是大量数据点的集合,每个数据点由质荷比(m/z)、强度(intensity)和保留时间(RT)组成,有profile或centroid两种格式。profile包含质谱仪记录的所有数据点,而centroid则缩减为代表单个谱图中局部最大值的数据点,即在给定 RT 的 m/z 范围内的数据分布。

一张谱图(spectrum)包含所有具有单一 RT 值的点。所有谱图的信号总和称为总离子谱(TIS)。包含扩展所有 RT 的、连续 m/z 范围的数据切片称为提取离子色谱图(XIC)。总离子色谱图(TIC)是所有 m/z 信号的总和,而基峰色谱图(BPC)则是包含所有 m/z 信号中每个 RT 最强信号的集合。同位素示踪(isotope trace)是指单一分析物(即肽或脂质)的单一离子在特定电荷状态下产生的信号。同位素包络示踪(isotopic envelope trace)是单个分析物在特定电荷状态下产生的一组同位素示踪。

同一谱图的profile(a)和centroid(b)。profile包括检测到离子的每个点的 m/z 值的分布信号。centroid是经过算法处理的原始数据,只保留检测到离子的每个范围内的局部最大值。

数据处理

原始数据处理

现有的降噪、特征检测和对应算法可对原始数据进行处理。许多算法需要从仪器的专有数据格式转成开放数据类型(mzXML等)。此外,数据集大小会对内存访问方式、容量等提出一定要求。然后,对数据进行去噪、选峰、特征检测、去同位素和去卷积处理。

分析物鉴定

使用数据库,将实验特征(即同位素包络线、同位素痕迹等)与理论模式进行比较。

由于数据库不完整/增长以及噪声,最佳匹配容易出现假阳性和错配。在此(之前)步骤中几乎都要进行统计分析,以确定鉴定的显著性。

分析物定量

最后获得每个分析物的数量。

数据存储

分析物的鉴定、定量和原始数据必须存储在数据结构中,以便有效地访问和处理数据。

数据集

缺乏带标签数据:定性指标;加标;模拟。

开放数据集:... ...

bottom-up策略的基本流程

  • [1] 样本预处理:提取蛋白等。
  • [2] 蛋白酶解:将蛋白酶切成肽段。
  • [3] 同位素标记:使用不同试剂标记不同样本。标记试剂的化学结构由报告基团、平衡基团和反应基团三部分组成,通过不同位置的C13、N15同位素组合保证总分子量恒定。
  • [4] 肽段分离:降低样品复杂度,从而鉴定出更多的肽段/蛋白。
    • 肽段离线预分级:使用HPLC将亲疏水性不同的肽段的分成多个馏分(fraction),再分别上质谱。
    • 肽段在线分离:肽段会因为在nano-HPLC的色谱柱填料上的保留时间不同而得到预分离。使肽段在一定时间范围内先后进入质谱。
  • [5] 质谱解析:
    • 软电离离子源:将中性肽段电离并形成带正电荷的肽段离子。
    • 质量分析器:将不同质荷比的肽段离子(母粒子)分离并记录,得到一级谱图。
    • 【串联质谱-DDA模式】每次扫描会自动选择信号强度较高前20-40个母离子继续碎裂,然后对碎片离子的质荷比和强度进行记录,从而得到二级谱图。
    • 【串联质谱-DIA模式】按照质量窗口对全部肽段母离子做二级碎裂,因此能获得更多数据。而DDA会丢失掉绝大部分肽段信息。
  • [6] 数据解析:样本经过质谱仪检测,会记录对应的肽段母离子(即肽段离子)和二级子离子(即肽段的碎片离子)的质荷比信号强度保留时间
    • 鉴定/定性:使用搜索软件分析质谱图,得到序列信息。
    • 定量:使用信号强度来推断表达水平。

参考
John Yates | 质谱的狂热爱好者
迈维代谢.蛋白质组学专题 | 一文读懂蛋白质组学研究策略及研究内容
迈维代谢. 蛋白质组学技术主流方法原理介绍

不同于质谱方法,Olink产品基于PEA技术,用于靶向定量蛋白组。。。

质谱数据分析

1. 原始数据格式

目前并没有统一的原始数据格式,不同厂家质谱仪产出的原始数据格式汇总如下。

厂家 格式
Thermo .raw
Waters folder
AB WIFF
Agilent folder
Bruker yep/.fid

2. 分析过程

Smith, Rob, et al. "Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist's point of view." BMC bioinformatics 15.7 (2014): 1-14.

1)鉴定

重难点
校正质量偏移 分析物在 m/z 轴上的检测存在系统误差和随机误差。系统误差通常可通过常规的机器校准来缓解,即使用质谱处理已知质量的分析物,以创建一个模型,用于对偏移进行内插。然而,校准的效率随着时间的推移而降低。此外,有些仪器在正常实验中注入加标标准品进行内部校准,有助于克服空间电荷效应、电场、峰值强度和温度的时间效应。由于额外成本和抑制影响,内部标准是不可取的。为了提供内部校准的质量精度,同时具有更好的一致性和更低的成本,人们提出了计算质量校准技术。
对应(Correspondence) 对应,即对重复样本中同一分析物的重复信号的记录,是许多 MS 实验中的一个关键问题,在这些实验中,需要对相似样本的多个run进行相互比较。长期存在的问题是用户参数过多、未知的模型行为、运行时间过长以及缺乏方法间的性能比较。

对应是指对多个样本中的特征进行记录的问题(样本间匹配特征用相同的颜色表示)。大多数情况下,通过对多个样本(从上到下)中特征的保留时间(RT)进行对齐,可以促进这一过程。需要注意的是,几乎不可能在所有样本中都出现特征,而且会出现明显的 RT 变异和 m/z 变异(程度较轻)。

解析方法

  • 数据库搜索:DDA中一张二级谱图理论上仅为一种肽段母离子的碎片离子,可以使用理论蛋白序列库和二级谱图比对。
  • 谱库搜索:DIA中一张二级谱图理论上包含多种肽段母离子的碎片离子。常先使用DDA模式构建一个谱图库 ,通过比对谱图库完成肽段鉴定。再对碎片离子构建XIC ,并计算峰面积 。接着根据碎片离子峰面积依次推断肽段峰面积蛋白峰面积

质控/过滤:PSM/peptide/protein

周文婧等. 蛋白质组学肽段鉴定可信度评价方法

数据库不完整,单核苷酸突变,酶切位点、电荷、修饰类型、修饰位点的错误判断以及同位素峰的误匹配都可能造成错误鉴定,因而得到质谱数据的初步解析结果后,需要对谱图和肽段层次的解析结果进行质量控制,即控制解析结果的错误率。

  • 基于阈值的评价方法
  • 基于贝叶斯公式的方法
  • 目标-诱饵库方法(target-decoy approach,TDA)

    ①人类蛋白质组计划(HPP)要求质谱分析中谱图、肽段和蛋白质3个层面的FDR均不能超过1%。
    ②从肽段推断到蛋白质后,蛋白质层面的错误率积累,造成蛋白质层面的FDR较高,是肽段层面的数倍或数十倍 。
    ③TDA存在两个局限。一是该方法估计的准确度有待考究。二是该方法不能对单个鉴定结果的可信度进行评价。
  • 非TDA方法

2)定量

3)预处理

鉴定后质控/过滤

maxquant软件输出的proteinGroups.txt结果为例(参考LFQ-Analyst教程):

  • 去除潜在的污染序列(contaminant)
  • 去除反序列(Reverse)
  • 去除仅由位点鉴定(identified by site)的蛋白
  • 去除由一个Razor或unique肽定量的蛋白
  • 去除缺失值比例较高的蛋白

缺失值填补

  • 缺失值填补

数据转换

  • 对数转换

3. 下游分析

  • 差异表达
  • 富集分析
  • 功能注释
  • 蛋白互作

参考

附录

一些厂家质谱仪的性能参数

仪器名 检测通量 检测深度
Orbitrap Astral (2023) 24 PSD ~ 180 PSD 12000 groups ~ 8000 groups

PSD:日检测样本量。

相关推荐
云天徽上1 小时前
【数据可视化】全国星巴克门店可视化
人工智能·机器学习·信息可视化·数据挖掘·数据分析
大嘴吧Lucy1 小时前
大模型 | AI驱动的数据分析:利用自然语言实现数据查询到可视化呈现
人工智能·信息可视化·数据分析
大乔乔布斯2 小时前
数据挖掘常用算法模型简介
决策树·数据挖掘·线性回归
周杰伦_Jay3 小时前
简洁明了:介绍大模型的基本概念(大模型和小模型、模型分类、发展历程、泛化和微调)
人工智能·算法·机器学习·生成对抗网络·分类·数据挖掘·transformer
浏览器爱好者18 小时前
如何在Python中进行数据分析?
开发语言·python·数据分析
希艾席蒂恩1 天前
专业数据分析不止于Tableau,四款小众报表工具解析
大数据·信息可视化·数据分析·数据可视化·报表工具
spssau1 天前
2025美赛倒计时,数学建模五类模型40+常用算法及算法手册汇总
算法·数学建模·数据分析·spssau
JZC_xiaozhong1 天前
低空经济中的数据孤岛难题,KPaaS如何破局?
大数据·运维·数据仓库·安全·ci/cd·数据分析·数据库管理员
木与长清1 天前
利用MetaNeighbor验证重复性和跨物种分群
矩阵·数据分析·r语言
boonya1 天前
StarRocks强大的实时数据分析
数据挖掘·数据分析