【蛋白互作研究】邻近标记PL-MS实验指南：如何精准获取目标蛋白的基因序列？

引言

随着空间蛋白质组学的飞速发展，邻近标记质谱技术（Proximity Labeling Mass Spectrometry, PL-MS）已成为解析细胞内蛋白质互作网络（PPIs）的强力工具。无论是经典的BioID、APEX，还是高效的TurboID，其实验成功的基石往往取决于最开始的一步 ------ 基因序列的精准获取。

对于初涉PL-MS的研究者而言，基因获取并非简单的数据库下载。从实验设计起点的载体构建，到实验终点的质谱数据回溯，不同阶段对序列的要求截然不同。微小的序列偏差（如错误的转录本选择或终止密码子遗漏）都可能导致数月的实验心血付诸东流。今天我们就针对PL-MS实验中基因序列获取的两种核心场景，为大家提供详尽的操作流程与避坑指南。

核心场景概览

在PL-MS的实验全周期中，基因序列的获取主要分为两个关键阶段，分别对应着实验的"输入"与"输出"：

**▶ 场景1（起点）：**预先选定的"诱饵蛋白"（Bait）即融合了邻近标记酶的核心蛋白。我们需要获取其序列以构建表达载体，将其引入细胞。

▶ **场景2（终点）：**质谱鉴定到的"猎物蛋白"（Prey）即诱饵蛋白周围的邻近互作蛋白。我们需要从质谱数据中反推其基因序列，以便进行后续的功能验证。

这两种场景在技术逻辑和操作方法上差异极大，下面就带大家分别看看。

场景1：诱饵蛋白的基因序列获取（实验前必备）

构建"标记标签-诱饵蛋白"融合表达载体是PL-MS的第一步，此过程虽然沿用常规分子克隆流程，但必须结合PL-MS的特殊需求进行严格优化。

1. 标准操作流程

**Step1：**明确身份标识与物种特异性首先确立研究对象的官方名称、基因符号及UniProt ID/NCB IGene ID。

例如，研究人源α-微管蛋白时，应锁定符号TUBA1A及UniProt ID P68366。

【关键原则】

必须严格遵循物种特异性，确保序列来源与实验细胞系（如Human, Mouse, Yeast 等）完全匹配，严禁跨物种序列混淆。

**Step 2：**公共数据库检索，由于PL-MS通常在真核细胞中进行，构建载体应优先选用不含内含子的cDNA序列（CDS）。

常用数据库如下：

▶ UniProt (uniprot.org)： 在条目内的**「Gene ontology」** →**「Encoded by」**处点击基因链接，可直接获取标注了起止密码子的CDS序列。

▶ NCBI Gene (ncbi.nlm.nih.gov/gene)： 在**「mRNA and Proteins」**栏目中，选择功能注释明确的全长mRNA序列。

【技术贴士】

务必下载RefSeq序列（以NM_开头）。尽量避免使用XM_开头的序列，因为后者属于未经实验验证的计算机预测序列，存在序列错误风险，极易导致引物设计失败或蛋白表达异常。

▶ **Ensembl (ensembl.org)：**适用于模式生物研究，可提供详细的基因组定位信息，便于设计内源敲入实验。

2. 针对PL-MS的序列优化

1. 转录本的选择基因的可变剪接会导致蛋白序列差异，进而影响邻近互作组的构成。

【操作建议】

除非有明确意图研究特定剪接体，否则建议优先选择UniProt中标记为"Canonical"（经典序列）的转录本。这是该基因在生理状态下的主要表达形式，也是同行评审中公认的标准参照。

2. 密码子优化若涉及异源表达（如在HEK293细胞中表达细菌或酵母蛋白），必须对cDNA进行密码子偏好性优化。

【额外收益】

优化后的序列不仅能提升表达丰度，还能平衡GC含量并去除复杂的重复序列结构，显著降低基因合成及PCR扩增的难度，规避"序列难扩增"的实验风险。

3. 融合位点的序列调整（高风险点）标记标签（如BioID2,APEX2）可融合于诱饵蛋白的N端或C端，需注意序列处理：

▶ **C端融合（Bait-Tag）：**必须删除诱饵蛋白原始的终止密码子，否则标签将无法翻译。

▶ **N端融合（Tag-Bait）：**需保留诱饵蛋白的起始密码子，并在标签与蛋白之间添加柔性连接肽（Linker，如GGSGG）以保持空间构象。

3. 序列验证

无论是PCR扩增产物还是构建好的质粒，**必须通过Sanger测序验证。**诱饵蛋白的任何突变都可能导致亚细胞定位漂移或功能丧失，进而产生错误的邻近标记数据。

特殊情况：内源敲入

若采用CRISPR-Cas9技术将标签敲入内源基因座，则需获取基因组DNA序列，包括编码区外显子、同源臂序列及内源启动子序列，以上信息均可从NCBI或Ensembl获取。

场景2：猎物蛋白的基因序列获取（数据分析阶段）

PL-MS的核心产出是一份潜在互作蛋白（猎物）列表。为了验证这些互作关系（如通过Co-IP或敲降实验），我们需要从质谱数据反向获取基因序列。

从蛋白ID到基因序列的溯源

**Step1：**建立映射关系质谱鉴定结果通常是蛋白层面的信息。

▶ 若使用MaxQuant软件，结果中通常已包含Gene Name 和 Ensembl Gene ID。

▶ 若仅有UniProt ID，需在UniProt数据库的**「Cross-references」**栏目中检索对应的Gene ID或NCBI RefSeq mRNA ID，完成"蛋白-基因"的关联。

Step2： 序列获取获得Gene ID后，重复场景1中的检索步骤， 根据验证实验的需求下载cDNA**（用于过表达/RNAi）** 或基因组DNA**（用于基因编辑）**。

特殊情况：未知蛋白

**若质谱鉴定到无法匹配现有数据库的肽段，可能意味着发现了新基因。**获取其序列通常涉及提取特异性肽段、设计简并引物以及使用RACE（快速扩增cDNA末端）技术。

【适用范围说明】

此流程主要适用于非模式生物（如海洋生物、特种农作物）或极罕见的新基因挖掘。对于人、小鼠等模式生物的研究，若出现"未知蛋白"，优先排查数据库版本过旧或搜索参数设置错误，而非盲目开展复杂的RACE实验。

关键注意事项总结

**1.物种一致性：**数据库选择必须与细胞来源严格对应，这是避免同源序列污染的第一原则。

**2.转录本匹配：**质谱肽段可能来自特定剪接体，验证实验设计时需通过肽段位置确认对应的转录本，避免"张冠李戴"。

**3.全程测序验证：**无论是诱饵还是猎物，凡经克隆步骤，必须测序。这是保证数据可靠性的最后一道防线。

4.内源与外源区分： 依据实验目的灵活选择cDNA**（外源表达/敲降）** 或Genomic DNA**（内源编辑）**。

结语

精准的基因序列获取，是开展高质量PL-MS研究的基石。之所以我们如此强调这一步骤的严谨性，是因为PL-MS技术本身具有传统方法无法比拟的独特优势：它不仅能够捕捉到传统Co-IP难以检测的瞬时互作和弱互作蛋白，更重要的是，它能在活细胞原本的生理环境下原位记录蛋白质的"朋友圈"。

只有当我们确保了"诱饵"序列的准确无误，并能精准溯源"猎物"的基因信息，PL-MS这种高灵敏度的技术才能真正发挥其威力，帮助我们从复杂的细胞噪声中，筛选出具有真实生物学意义的互作网络。

希望这份指南能为您的蛋白质组学探索之旅提供坚实的支持，关注丸子，后续继续给大家整理这些常用的基因数据库使用指南~

往期回顾：《》

研究动态、瞬时、弱相互作用的最佳工具---PL-MS蛋白邻近表达筛选解决方案

基于邻近标记技术联合质谱的PL-MS蛋白邻近表达筛选解决方案，从细胞构建培养、亲和富集实验到质谱高通量筛选**（阶段可选）**：①目标序列获取和质粒克隆构建、②基因编辑和细胞系构建、③细胞培养和临近标记、④生物素标记蛋白的亲和纯化富集、⑤蛋白提取和酶解、⑥质谱检测和⑦数据分析和互作网络构建。

**▶ 弱/动态/瞬时互作：**基于空间临近标记的特殊原理，可以动态捕获更多弱相互作用和瞬时相互作用的蛋白；

**▶ 高亲和性：**链霉亲和素的亲和效价强，且无需严格保证非变性条件，可以捕获更多膜蛋白的互作；

**▶ 避免阴性结果：**基于质谱定量数据进行无偏见的高通量筛选，可以获得大量蛋白相互作用信息，避免阴性结果；

**▶ 精准筛选：**基于定量差异、蛋白功能注释、互作网络核心节点等多维度分析，提供候选临近表达蛋白的清单；

**▶ 原位精准表达：**可选目标基因的原位标签表达，保留基因天然表达模式，提升研究科学性。

参考资料

1. Roux KJ, Kim DI, Raida M, Burke B. A promiscuous biotin ligase fusion protein identifies proximal and interacting proteins in mammalian cells. J Cell Biol. 2012;196(6):801-810. doi:10.1083/jcb.201112098

2. Rhee HW, Zou P, Udeshi ND, et al. Proteomic mapping of mitochondria in living cells via spatially restricted enzymatic tagging. Science. 2013;339(6125):1328-1331. doi:10.1126/science.1230593

3. Branon TC, Bosch JA, Sanchez AD, et al. Efficient proximity labeling in living cells and organisms with TurboID. Nat Biotechnol. 2018;36(9):880-887. doi:10.1038/nbt.4201

4. Gingras AC, Abe KT, Raught B. Getting to know the neighborhood: using proximity-dependent biotinylation to characterize protein complexes and map organelles. Curr Opin Chem Biol. 2019;48:44-54. doi:10.1016/j.cbpa.2018.10.017