目录
蛋白组学方法学
目前常见的蛋白组学方法学如下图。
液相-质谱法
2001年,基于鸟枪法蛋白质组学的想法,John Yates团队开发了MudPIT技术... ...。实现将鸟枪法应用于蛋白质组学是一件里程碑式的发展成就,其不仅颠覆了传统的蛋白质分析方法,还推动实现大规模分析。
基本原理
Smith, Rob, et al. "Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist's point of view." BMC bioinformatics 15.7 (2014): 1-14.
分离
直接进样(Direct injection
)是指将样品直接注入质量检测器。多数复杂样品的质谱实验都会预先分散分析物,使电离能力不会受到大量分析物或背景离子的严重影响。分离方法包括:
- LC-MS(液相色谱-质谱):①液体流动相由双液组成。梯度(液体成分的百分比)的变化会使分析物缓慢地从色谱柱中释放出来,进入质谱仪。②固定相:装有化学衍生珠子的色谱柱。不同的固定相可以根据疏水性、电荷、大小或亲和性分离分析物。最常见的生物大分子固定相是反相(疏水性)和强阳离子(电荷)。
- GC-MS(气相色谱-质谱):①流动相为惰性气体(如氦气)。②固定相为根据极性分离分子的色谱柱。梯度是温度的升高,与色谱柱亲和力强的分子在较高温度下洗脱。
- CE-MS(毛细管电泳-质谱):毛细管电泳使用施加在毛细管上的电场,根据分子的大小、电荷和通过毛细管的流动阻力来分离分子。
- 多维色谱法/串联色谱法:将两个色谱系统应用于同一系统。如MUDPIT方法,该方法采用两种正交分离策略,如强阳离子交换(基于电荷)和反相(基于疏水性)色谱法,以获得更高的分辨率。
电离
分析物必须电离(即处于带电状态)才能被质谱仪检测到。电喷雾离子化(ESI
)是质谱组学中最常用的方法,这主要是因为它能在不破坏化学键的情况下电离不稳定分子,而且该方法可电离的分析物种类繁多。其他方法包括APCI
、MALDI
和EI
。
质量检测
带电粒子通过质谱仪时,检测到的粒子的质量电荷比 (m/z) 会被记录下来。输出结果的单次扫描表示在特定保留时间(RT
)通过质谱仪的母离子(precursor ions
)的快照。在 MS/MS 中,小 m/z 窗口中的离子会被捕获进行第二次碎片化和 MS 检测,产生第二组离子称为子离子(product ions
),可通过将其 MS/MS 模式与数据库进行匹配来识别母离子。进行 MS/MS 的溶液比例很低,通常只能捕获MS1数据的10-20%。由于多数 MS/MS 系统会根据强度自动选择片段,大部分会在重复间重叠。在这 10-20% 的数据中,只有不到 60% 可以通过数据库查询进行鉴定,即使这样也会出现假阳性。
质谱仪输出原始数据是大量数据点的集合,每个数据点由质荷比(m/z)、强度(intensity)和保留时间(RT)组成,有profile或centroid两种格式。profile包含质谱仪记录的所有数据点,而centroid则缩减为代表单个谱图中局部最大值的数据点,即在给定 RT 的 m/z 范围内的数据分布。
一张谱图(spectrum
)包含所有具有单一 RT 值的点。所有谱图的信号总和称为总离子谱(TIS
)。包含扩展所有 RT 的、连续 m/z 范围的数据切片称为提取离子色谱图(XIC
)。总离子色谱图(TIC
)是所有 m/z 信号的总和,而基峰色谱图(BPC
)则是包含所有 m/z 信号中每个 RT 最强信号的集合。同位素示踪(isotope trace
)是指单一分析物(即肽或脂质)的单一离子在特定电荷状态下产生的信号。同位素包络示踪(isotopic envelope trace
)是单个分析物在特定电荷状态下产生的一组同位素示踪。
同一谱图的profile(a)和centroid(b)。profile包括检测到离子的每个点的 m/z 值的分布信号。centroid是经过算法处理的原始数据,只保留检测到离子的每个范围内的局部最大值。
数据处理
原始数据处理
现有的降噪、特征检测和对应算法可对原始数据进行处理。许多算法需要从仪器的专有数据格式转成开放数据类型(mzXML等)。此外,数据集大小会对内存访问方式、容量等提出一定要求。然后,对数据进行去噪、选峰、特征检测、去同位素和去卷积处理。
分析物鉴定
使用数据库,将实验特征(即同位素包络线、同位素痕迹等)与理论模式进行比较。
由于数据库不完整/增长以及噪声,最佳匹配容易出现假阳性和错配。在此(之前)步骤中几乎都要进行统计分析,以确定鉴定的显著性。
分析物定量
最后获得每个分析物的数量。
数据存储
分析物的鉴定、定量和原始数据必须存储在数据结构中,以便有效地访问和处理数据。
数据集
缺乏带标签数据:定性指标;加标;模拟。
开放数据集:... ...
bottom-up策略的基本流程
- [1] 样本预处理:提取蛋白等。
- [2] 蛋白酶解:将蛋白酶切成肽段。
- [3] 同位素标记:使用不同试剂标记不同样本。标记试剂的化学结构由报告基团、平衡基团和反应基团三部分组成,通过不同位置的C13、N15同位素组合保证总分子量恒定。
- [4] 肽段分离:降低样品复杂度,从而鉴定出更多的肽段/蛋白。
- 肽段离线预分级:使用HPLC将亲疏水性不同的肽段的分成多个馏分(fraction),再分别上质谱。
- 肽段在线分离:肽段会因为在nano-HPLC的色谱柱填料上的保留时间不同而得到预分离。使肽段在一定时间范围内先后进入质谱。
- [5] 质谱解析:
- 软电离离子源:将中性肽段电离并形成带正电荷的肽段离子。
- 质量分析器:将不同质荷比的肽段离子(母粒子)分离并记录,得到一级谱图。
- 【串联质谱-DDA模式】每次扫描会自动选择信号强度较高前20-40个母离子继续碎裂,然后对碎片离子的质荷比和强度进行记录,从而得到二级谱图。
- 【串联质谱-DIA模式】按照质量窗口对全部肽段母离子做二级碎裂,因此能获得更多数据。而DDA会丢失掉绝大部分肽段信息。
- [6] 数据解析:样本经过质谱仪检测,会记录对应的肽段母离子(即肽段离子)和二级子离子(即肽段的碎片离子)的质荷比 、信号强度 和保留时间 。
- 鉴定/定性:使用搜索软件分析质谱图,得到序列信息。
- 定量:使用信号强度来推断表达水平。
参考
John Yates | 质谱的狂热爱好者
迈维代谢.蛋白质组学专题 | 一文读懂蛋白质组学研究策略及研究内容
迈维代谢. 蛋白质组学技术主流方法原理介绍
PEA/Olink
不同于质谱方法,Olink产品基于PEA技术,用于靶向定量蛋白组。。。
质谱数据分析
1. 原始数据格式
目前并没有统一的原始数据格式,不同厂家质谱仪产出的原始数据格式汇总如下。
厂家 | 格式 |
---|---|
Thermo | .raw |
Waters | folder |
AB | WIFF |
Agilent | folder |
Bruker | yep/.fid |
2. 分析过程
Smith, Rob, et al. "Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist's point of view." BMC bioinformatics 15.7 (2014): 1-14.
1)鉴定
重难点
校正质量偏移 分析物在 m/z 轴上的检测存在系统误差和随机误差。系统误差通常可通过常规的机器校准来缓解,即使用质谱处理已知质量的分析物,以创建一个模型,用于对偏移进行内插。然而,校准的效率随着时间的推移而降低。此外,有些仪器在正常实验中注入加标标准品进行内部校准,有助于克服空间电荷效应、电场、峰值强度和温度的时间效应。由于额外成本和抑制影响,内部标准是不可取的。为了提供内部校准的质量精度,同时具有更好的一致性和更低的成本,人们提出了计算质量校准技术。
对应(Correspondence) 对应,即对重复样本中同一分析物的重复信号的记录,是许多 MS 实验中的一个关键问题,在这些实验中,需要对相似样本的多个run进行相互比较。长期存在的问题是用户参数过多、未知的模型行为、运行时间过长以及缺乏方法间的性能比较。
对应是指对多个样本中的特征进行记录的问题(样本间匹配特征用相同的颜色表示)。大多数情况下,通过对多个样本(从上到下)中特征的保留时间(RT)进行对齐,可以促进这一过程。需要注意的是,几乎不可能在所有样本中都出现特征,而且会出现明显的 RT 变异和 m/z 变异(程度较轻)。
解析方法
- 数据库搜索:DDA中一张二级谱图理论上仅为一种肽段母离子的碎片离子,可以使用理论蛋白序列库和二级谱图比对。
- 谱库搜索:DIA中一张二级谱图理论上包含多种肽段母离子的碎片离子。常先使用DDA模式构建一个谱图库 ,通过比对谱图库完成肽段鉴定。再对碎片离子构建XIC ,并计算峰面积 。接着根据碎片离子峰面积依次推断肽段峰面积 和蛋白峰面积。
质控/过滤:PSM/peptide/protein
周文婧等. 蛋白质组学肽段鉴定可信度评价方法
数据库不完整,单核苷酸突变,酶切位点、电荷、修饰类型、修饰位点的错误判断以及同位素峰的误匹配都可能造成错误鉴定,因而得到质谱数据的初步解析结果后,需要对谱图和肽段层次的解析结果进行质量控制,即控制解析结果的错误率。
- 基于阈值的评价方法
- 基于贝叶斯公式的方法
- 目标-诱饵库方法(target-decoy approach,TDA)
①人类蛋白质组计划(HPP)要求质谱分析中谱图、肽段和蛋白质3个层面的FDR均不能超过1%。
②从肽段推断到蛋白质后,蛋白质层面的错误率积累,造成蛋白质层面的FDR较高,是肽段层面的数倍或数十倍 。
③TDA存在两个局限。一是该方法估计的准确度有待考究。二是该方法不能对单个鉴定结果的可信度进行评价。 - 非TDA方法
2)定量
3)预处理
鉴定后质控/过滤
以maxquant
软件输出的proteinGroups.txt
结果为例(参考LFQ-Analyst教程):
- 去除潜在的污染序列(contaminant)
- 去除反序列(Reverse)
- 去除仅由位点鉴定(identified by site)的蛋白
- 去除由一个Razor或unique肽定量的蛋白
- 去除缺失值比例较高的蛋白
缺失值填补
- 缺失值填补
数据转换
- 对数转换
3. 下游分析
- 差异表达
- 富集分析
- 功能注释
- 蛋白互作
参考
附录
一些厂家质谱仪的性能参数
仪器名 | 检测通量 | 检测深度 |
---|---|---|
Orbitrap Astral (2023) | 24 PSD ~ 180 PSD | 12000 groups ~ 8000 groups |
PSD:日检测样本量。