notes_质谱&蛋白组学数据分析基础知识

蛋白组学方法学

目前常见的蛋白组学方法学如下图。

液相-质谱法

2001年，基于鸟枪法蛋白质组学的想法，John Yates团队开发了MudPIT技术... ...。实现将鸟枪法应用于蛋白质组学是一件里程碑式的发展成就，其不仅颠覆了传统的蛋白质分析方法，还推动实现大规模分析。

基本原理

Smith, Rob, et al. "Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist's point of view." BMC bioinformatics 15.7 (2014): 1-14.

分离

直接进样（Direct injection）是指将样品直接注入质量检测器。多数复杂样品的质谱实验都会预先分散分析物，使电离能力不会受到大量分析物或背景离子的严重影响。分离方法包括：

LC-MS（液相色谱-质谱）：①液体流动相由双液组成。梯度（液体成分的百分比）的变化会使分析物缓慢地从色谱柱中释放出来，进入质谱仪。②固定相：装有化学衍生珠子的色谱柱。不同的固定相可以根据疏水性、电荷、大小或亲和性分离分析物。最常见的生物大分子固定相是反相（疏水性）和强阳离子（电荷）。
GC-MS（气相色谱-质谱）：①流动相为惰性气体（如氦气）。②固定相为根据极性分离分子的色谱柱。梯度是温度的升高，与色谱柱亲和力强的分子在较高温度下洗脱。
CE-MS（毛细管电泳-质谱）：毛细管电泳使用施加在毛细管上的电场，根据分子的大小、电荷和通过毛细管的流动阻力来分离分子。
多维色谱法/串联色谱法：将两个色谱系统应用于同一系统。如MUDPIT方法，该方法采用两种正交分离策略，如强阳离子交换（基于电荷）和反相（基于疏水性）色谱法，以获得更高的分辨率。

电离

分析物必须电离（即处于带电状态）才能被质谱仪检测到。电喷雾离子化（ESI）是质谱组学中最常用的方法，这主要是因为它能在不破坏化学键的情况下电离不稳定分子，而且该方法可电离的分析物种类繁多。其他方法包括APCI、MALDI和EI。

质量检测

带电粒子通过质谱仪时，检测到的粒子的质量电荷比 (m/z) 会被记录下来。输出结果的单次扫描表示在特定保留时间（RT）通过质谱仪的母离子（precursor ions）的快照。在 MS/MS 中，小 m/z 窗口中的离子会被捕获进行第二次碎片化和 MS 检测，产生第二组离子称为子离子（product ions），可通过将其 MS/MS 模式与数据库进行匹配来识别母离子。进行 MS/MS 的溶液比例很低，通常只能捕获MS1数据的10-20%。由于多数 MS/MS 系统会根据强度自动选择片段，大部分会在重复间重叠。在这 10-20% 的数据中，只有不到 60% 可以通过数据库查询进行鉴定，即使这样也会出现假阳性。

质谱仪输出原始数据是大量数据点的集合，每个数据点由质荷比（m/z）、强度（intensity）和保留时间（RT）组成，有profile或centroid两种格式。profile包含质谱仪记录的所有数据点，而centroid则缩减为代表单个谱图中局部最大值的数据点，即在给定 RT 的 m/z 范围内的数据分布。

一张谱图（spectrum）包含所有具有单一 RT 值的点。所有谱图的信号总和称为总离子谱（TIS）。包含扩展所有 RT 的、连续 m/z 范围的数据切片称为提取离子色谱图（XIC）。总离子色谱图（TIC）是所有 m/z 信号的总和，而基峰色谱图（BPC）则是包含所有 m/z 信号中每个 RT 最强信号的集合。同位素示踪（isotope trace）是指单一分析物（即肽或脂质）的单一离子在特定电荷状态下产生的信号。同位素包络示踪（isotopic envelope trace）是单个分析物在特定电荷状态下产生的一组同位素示踪。

同一谱图的profile（a）和centroid（b）。profile包括检测到离子的每个点的 m/z 值的分布信号。centroid是经过算法处理的原始数据，只保留检测到离子的每个范围内的局部最大值。

数据处理

原始数据处理

现有的降噪、特征检测和对应算法可对原始数据进行处理。许多算法需要从仪器的专有数据格式转成开放数据类型（mzXML等）。此外，数据集大小会对内存访问方式、容量等提出一定要求。然后，对数据进行去噪、选峰、特征检测、去同位素和去卷积处理。

分析物鉴定

使用数据库，将实验特征（即同位素包络线、同位素痕迹等）与理论模式进行比较。

由于数据库不完整/增长以及噪声，最佳匹配容易出现假阳性和错配。在此（之前）步骤中几乎都要进行统计分析，以确定鉴定的显著性。

分析物定量

最后获得每个分析物的数量。

数据存储

分析物的鉴定、定量和原始数据必须存储在数据结构中，以便有效地访问和处理数据。

数据集

缺乏带标签数据：定性指标；加标；模拟。

开放数据集：... ...

bottom-up策略的基本流程

$1$ 样本预处理：提取蛋白等。
$2$ 蛋白酶解：将蛋白酶切成肽段。
$3$ 同位素标记：使用不同试剂标记不同样本。标记试剂的化学结构由报告基团、平衡基团和反应基团三部分组成，通过不同位置的C13、N15同位素组合保证总分子量恒定。
4 肽段分离：降低样品复杂度，从而鉴定出更多的肽段/蛋白。
- 肽段离线预分级：使用HPLC将亲疏水性不同的肽段的分成多个馏分（fraction），再分别上质谱。
- 肽段在线分离：肽段会因为在nano-HPLC的色谱柱填料上的保留时间不同而得到预分离。使肽段在一定时间范围内先后进入质谱。
5 质谱解析：
- 软电离离子源：将中性肽段电离并形成带正电荷的肽段离子。
- 质量分析器：将不同质荷比的肽段离子（母粒子）分离并记录，得到一级谱图。
- 【串联质谱-DDA模式】每次扫描会自动选择信号强度较高前20-40个母离子继续碎裂，然后对碎片离子的质荷比和强度进行记录，从而得到二级谱图。
- 【串联质谱-DIA模式】按照质量窗口对全部肽段母离子做二级碎裂，因此能获得更多数据。而DDA会丢失掉绝大部分肽段信息。
6 数据解析：样本经过质谱仪检测，会记录对应的肽段母离子（即肽段离子）和二级子离子（即肽段的碎片离子）的质荷比 、信号强度 和保留时间 。
- 鉴定/定性：使用搜索软件分析质谱图，得到序列信息。
- 定量：使用信号强度来推断表达水平。

参考
John Yates | 质谱的狂热爱好者
迈维代谢.蛋白质组学专题 | 一文读懂蛋白质组学研究策略及研究内容
迈维代谢. 蛋白质组学技术主流方法原理介绍

PEA/Olink

不同于质谱方法，Olink产品基于PEA技术，用于靶向定量蛋白组。。。

质谱数据分析

1. 原始数据格式

目前并没有统一的原始数据格式，不同厂家质谱仪产出的原始数据格式汇总如下。

厂家	格式
Thermo	.raw
Waters	folder
AB	WIFF
Agilent	folder
Bruker	yep/.fid

2. 分析过程

Smith, Rob, et al. "Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist's point of view." BMC bioinformatics 15.7 (2014): 1-14.

1）鉴定

重难点
校正质量偏移 分析物在 m/z 轴上的检测存在系统误差和随机误差。系统误差通常可通过常规的机器校准来缓解，即使用质谱处理已知质量的分析物，以创建一个模型，用于对偏移进行内插。然而，校准的效率随着时间的推移而降低。此外，有些仪器在正常实验中注入加标标准品进行内部校准，有助于克服空间电荷效应、电场、峰值强度和温度的时间效应。由于额外成本和抑制影响，内部标准是不可取的。为了提供内部校准的质量精度，同时具有更好的一致性和更低的成本，人们提出了计算质量校准技术。
对应（Correspondence） 对应，即对重复样本中同一分析物的重复信号的记录，是许多 MS 实验中的一个关键问题，在这些实验中，需要对相似样本的多个run进行相互比较。长期存在的问题是用户参数过多、未知的模型行为、运行时间过长以及缺乏方法间的性能比较。

对应是指对多个样本中的特征进行记录的问题（样本间匹配特征用相同的颜色表示）。大多数情况下，通过对多个样本（从上到下）中特征的保留时间（RT）进行对齐，可以促进这一过程。需要注意的是，几乎不可能在所有样本中都出现特征，而且会出现明显的 RT 变异和 m/z 变异（程度较轻）。

解析方法

数据库搜索：DDA中一张二级谱图理论上仅为一种肽段母离子的碎片离子，可以使用理论蛋白序列库和二级谱图比对。
谱库搜索：DIA中一张二级谱图理论上包含多种肽段母离子的碎片离子。常先使用DDA模式构建一个谱图库 ，通过比对谱图库完成肽段鉴定。再对碎片离子构建XIC ，并计算峰面积 。接着根据碎片离子峰面积依次推断肽段峰面积 和蛋白峰面积。

质控/过滤：PSM/peptide/protein

周文婧等. 蛋白质组学肽段鉴定可信度评价方法

数据库不完整，单核苷酸突变，酶切位点、电荷、修饰类型、修饰位点的错误判断以及同位素峰的误匹配都可能造成错误鉴定，因而得到质谱数据的初步解析结果后，需要对谱图和肽段层次的解析结果进行质量控制，即控制解析结果的错误率。

基于阈值的评价方法
基于贝叶斯公式的方法
目标-诱饵库方法（target-decoy approach，TDA）

①人类蛋白质组计划（HPP）要求质谱分析中谱图、肽段和蛋白质3个层面的FDR均不能超过1%。
②从肽段推断到蛋白质后，蛋白质层面的错误率积累，造成蛋白质层面的FDR较高，是肽段层面的数倍或数十倍。
③TDA存在两个局限。一是该方法估计的准确度有待考究。二是该方法不能对单个鉴定结果的可信度进行评价。
非TDA方法

2）定量

3）预处理

鉴定后质控/过滤

以maxquant软件输出的proteinGroups.txt结果为例（参考LFQ-Analyst教程）：

去除潜在的污染序列（contaminant）
去除反序列（Reverse）
去除仅由位点鉴定（identified by site）的蛋白
去除由一个Razor或unique肽定量的蛋白
去除缺失值比例较高的蛋白

缺失值填补

缺失值填补

数据转换

对数转换

3. 下游分析

差异表达
富集分析
功能注释
蛋白互作

参考

附录

一些厂家质谱仪的性能参数

仪器名	检测通量	检测深度
Orbitrap Astral (2023)	24 PSD ~ 180 PSD	12000 groups ~ 8000 groups

PSD：日检测样本量。