代谢组数据分析七：从质谱样本制备到MaxQuant搜库

前言

LC-MS/MS

Liquid Chromatography-Mass Spectrometry（LC-MS/MS ，液相色谱-质谱串联）可用于残留化合物检测、有机小分子检测、鉴定和定量污染物以及在医药和食品领域添加剂检测和生物小分子等检测。

LC-MS/MS一般包含五个步骤（Figure 1）：

样本制备；
样本分离：使用液相色谱方法分离；
质谱上机：离子化、LUMOS原理、采集模式（DDA、DIA、SRM/PRM）；
质谱鉴定：谱图格式（Raw、MzXML、MGF）、搜库、打分算法、FDR质控、蛋白推断；
生信分析：谱图校验和下游数据统计分析。

步骤详解

样本制备

提取样品中的蛋白质后，再使用蛋白酶对蛋白进行酶切处理，一般处理后的肽段在35AA以内即可上机（Figure2 ）。常用蛋白酶是Trypsin。

样本分离

液相色谱包括固定相和流动相的一类分离技术，以液体作为流动相，固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料，流动相是两类液体，液体A可将肽段插入到固定相中。在不断增加液体B的浓度后，肽段可以及液体B的浓度大小呈现梯度整齐分布，最后计算肽段在液相过程的保留时间（Retention time, RT），该指标反应肽段的疏水作用，时间越长疏水效果越强。

质谱上机

质谱仪的构成简要图（Figure 4 ）

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

基质辅助激光解吸电离（MALDI）
电喷雾电离（ESI）

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

傅立叶变换离子回旋加速器（FT-MS）
线性离子阱(Linear ion trap)
三维离子阱(3D ion trap)
轨道离子阱(Orbitrap)
四极杆(Quadrupole)
飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

微通道板（Microchannel Plate）
电子倍增器（Electron Multiplier）
光电倍增混合管（Hybrid with photomultiplier）

质谱图谱示意图（Figure5）图解：

正面主视图是液相色谱图（以Retention Time作为X轴，intensity可认为是relative abundance作为Y轴），每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子；
侧面黑色X轴是m/Z是一级质谱图，x轴是肽段的质荷比，每一个峰表示该比值下的肽段集合；
侧面蓝色是上一步一级图谱同质荷比下的二级图谱，是分辨率更高的图谱结果；
intensity可以理解为色谱和质谱的响应强度。

数据采集模式

非靶向质谱数据采集模式：Full-scan（全扫描）、DDA（数据依赖采集）和DIA（数据非依赖采集）。

全扫描模式是将肽段一级和二级图谱分开全部扫描，所需时间较长，但获取的峰最多。
DDA数据依赖采集，根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱，但该过程可能后漏掉携带有用信息的峰；**优点：**DDA采用了较窄m/z窗口，二级质谱图没有干扰离子影响，搜库鉴定容易；**缺点：**丰度依赖，谱图采样随机性大，重复性差。
DIA数据非依赖采集，在一级图谱扫描过程不对碎裂母离子做筛选，而是设置窗口（窗口大小依据仪器和软件设定），落在该窗口内的母离子全部进入二级碎裂得到二级图谱。**优点：**全面获取所有离子的碎片信息。**缺点：**采集点多会导致谱图信息过度，难以解析。鉴定需要依赖于预先lable的DDA库。

由于DIA是一次性放了一堆母离子进来，同时碎裂，所以对于DIA来说，不是一张谱图对应一个母离子，而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此，我们不可能通过对二级谱图的解析来得到一个一个的母离子。

那我们应该如何解析呢？我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对，从中抽取出相同的二级信号，拿这些数据来进行DIA数据的定性以及相应的定量，而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

质谱鉴定

质谱的原始图谱格式通常有：

Thermo RAW（赛默飞二进制加密的图形文件，Thermo Xcalibur Browser软件查看）；
MGF（Mascot Generic Format，是常用格式但仅保留二级谱图信息，原始数据一般不能被肽段图谱比对打分软件识别，需要经过格式转换为打分软件可识别的格式）；
mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

搜库策略：软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切，接着理论肽段又会生成理论图谱，最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较，最终鉴定和定量蛋白质。（Figure7）

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切，得到肽段序列，再对肽段序列进行理论碎裂，形成理论谱图。

然后，用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分，并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

搜库质控：实验图谱和理论图谱匹配不一定正确，一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因：

蛋白质序列库不完整或者存在测序错误；

未知修饰，导致谱图难以被正确鉴定；

酶切实验的偏差，比如错切、漏切等；

母离子或子离子质量偏差；

搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段，因此需要评价肽段鉴定的可靠性，搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后，可通过带有搜库引擎的软件进行定性和定量鉴定蛋白质。我们从仪器中心获得去质谱原始data是Thermo RAW的二进制加密文件，在一般的搜库软件是无法识别的，需要使用ThermoRawFileParser或MSconvert转换为软件可识别的文件。（FAIMS技术相当于在现有图谱分级基础上又再一次对肽段进行分级）

PS：在获取图谱过程中，常会用到2018年才推出的FAIMS（High-Field Asymmetric Waveform Ion Mobility Spectrometry）技术以用于加载不同电压（肽段在ESI离子化后，进入质谱之前实现快速气相分离，提高分离的峰容量），直接使用多电压下的raw data做MaxQuant定量分析是错误的，MaxQuant软件只能识别单电压的raw data，因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

ThermoRawFileParser
MSconvert
FAIMS MzXML Generator

搜库软件：

免费：MaxQuant，MSGFplus，Comet（前一个最好用win版本，后两个用linux版本，然后后两个是最好用主流的质控软件）；
收费：Proteome Discoverer， Mascot；
也有基于X!Tandem算法的rTANDEM R包。

结果评估：

PTXQC R包
proteoQC R包

数据库

来自欧洲生物信息学中心的UniProt KB数据库是现在使用较多的蛋白质数据库。除了选择公共数据库外，还可以自行添加或者从头构建蛋白质数据库（一般会加入实验室常见污染物数据库，方便剔除）。另外，如果所研究的物种没有对应的蛋白质数据库，可选择最近物种的序列库。

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程：

安装数据转换和搜库软件 ：本教程基于MaxQuant 1.6.17.0版本，该软件可从MaxQuant官网直接下载或从子目录Software 直接解压获取。另外，需和仪器中心确定是否使用了FAIMS技术后，再从子目录Software 中解压安装FAIMS MzXML Generator软件；
下载蛋白质数据库 ：Database 子目录下已下载23/2/2021年的human的Uniprot蛋白质数据，或者直接上Uniprot官网下载(1.进入官网，选择Proteomes；2.以human作为关键字搜索后，选择Organism的Homo sapiens后进入；3.进入下图后选择Download按钮以FASTA格式下载数据即可)；
转换原始数据格式 ：若使用FAIMS技术，则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件，否则跳过该步骤；
搜库鉴定蛋白质：我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质，在运行前，需要配置好一下参数和注意以下事项：
- Raw data功能项导入图谱数据(mzXML)，可通过最右侧功能栏设置样本的名称和分组等信息；
- Group-specific parameters：
  - "Modifications"：选择样本相关的修饰（LabelFree增加Deamidation(NQ)、Gln->pyro-Glu）；
  - "Instrument"：MaxQuant会自动选择机器类型，也可以手动修改，参数选择软件默认的即可；
  - "digestion"：选择默认的Trypsin/P；
  - "Label-free quantification"：选择LFQ及其默认参数。
- Global parameters：（其他参数选择默认参数即可，也可根据实际情况自行设置）
  - "Sequence"：选择"Add"导入蛋白质fasta文件，并点"Identifier"，选择"Up to first space"；
  - "Identification"：选择Match between runs；
  - "Label-free quantification"：选择iBAQ；
  - "Folder locations"：可自行设置Combined结果的输出路径也可使用默认。
- 在设置完所有参数后，点击上面File选择保存parameters files，方便下次重复运行。
- 完成保存设置参数文件后，最左下方提供选择CPU数目，一般设置电脑total(CPU) -1的数目。设置完成后，可在电脑空闲时候选择Start，即可在Performance界面看到软件在运行的状态。

结果

MaxQuant完成蛋白质定性和定量后，会生成如下combined目录，其子目录txt下的proteinGroups.txt文件即是蛋白质结果文件。

下游数据分析

下游数据分析可参考。

致谢

感谢张乐同学seminar分享的PPT，本文很多图片或知识点来自于他的PPT，再次感谢。