IP-MS互作蛋白筛选：如何利用ProteomicsDB + HPA数据库提高Co-IP实验成功率

引言

在蛋白质相互作用（PPI）筛选实验中，实验成败的关键往往取决于**启动实验前对靶蛋白基本生物学特性的了解程度。**传统做法是在湿实验台上通过Western Blot、qPCR等手段逐一验证靶蛋白的表达情况，这种方式周期长、成本高。

实际上，ProteomicsDB和The Human Protein Atlas（HPA）这两个公共数据库提供了海量的组学数据，可以帮助研究者在订购抗体和铺板细胞之前，就对靶蛋白的丰度、空间分布和抗体可靠性做出系统性评估。

今天，我们就从这两个数据库的核心功能出发，给大家介绍一套标准化的五步预实验评估流程。

一、订购抗体前进行数据库预评估的必要性

我们常说的"预实验"，通常是在湿实验台上重复摸索条件。但如今，借助ProteomicsDB和HPA，我们可以在开瓶抗体之前，就对靶蛋白的表达基线、空间分布、周转率和抗体可靠性做出精准预判。

这种"数字化预实验"不仅能帮我们筛选最合适的细胞系，还能指导我们选择正向还是反向Co-IP，甚至决定是否要改用TurboID或RIME-MS等替代技术。

下面，我就分别深入介绍这两个数据库的核心价值，然后给出一个融合两者优势的实战策略。

二、ProteomicsDB：基于高通量质谱的"绝对定量"视角

ProteomicsDB最初是为人类蛋白质组草图而建立，如今已发展为一个包含转录组、蛋白周转率（半衰期）、热稳定性（Meltome）、药物-靶点相互作用等多组学中枢。它最大的优势在于提供基于质谱的绝对与相对丰度定量数据，而且数据覆盖了数百种组织、体液和细胞系。

1. ProteomicsDB中iBAQ与Top3定量的含义与用法

在ProteomicsDB中，最常用的两个定量指标是iBAQ（基于强度的绝对定量） 和Top3定量。

▶ iBAQ： 将蛋白质所有鉴定肽段的母离子信号强度总和，除以该蛋白理论上可被质谱检测到的肽段数。这个归一化过程消除了分子量和序列带来的电离偏差，使得iBAQ值可以被当作**"伪绝对定量"** 来使用。更妙的是，借助"Proteomic Ruler"算法，iBAQ还能进一步换算为每细胞拷贝数或nM浓度。 这对我评估内源性Co-IP需要的起始细胞量非常有帮助。

▶ Top3定量： 取蛋白质信号最强的三条唯一肽段的强度之和。这个指标受低丰度肽段干扰较小，但在同源蛋白家族中可能因为唯一肽段稀少而失准。

在预实验中，我通常会优先看riBAQ（相对iBAQ），即单个蛋白的iBAQ除以该样本中所有蛋白iBAQ的总和。++这个值消除了跨批次和跨仪器的系统误差，是判断靶蛋白在不同候选细胞系中相对表达高低的"金标准"。++

2. 化学计量比对Co-IP方向选择的影响

**Bait和Prey在细胞内的化学计量比会显著影响Co-IP的富集效率。**当蛋白A的丰度是蛋白B的10倍以上时，即便所有B都参与复合物形成，细胞内仍有大量游离的A存在。此时使用抗A抗体进行正向Co-IP，抗体结合的大部分是游离A，洗脱液中B的含量极低，Western blot检测可能出现假阴性。相反，使用抗B抗体进行反向Co-IP，因为几乎所有的B均结合在复合物上，沉淀B能够高效地共沉淀A。

++因此，在实验设计阶段，我会在ProteomicsDB中查询Bait和Prey在同一细胞系下的iBAQ值，计算两者的比例。++若比例差距超过一个数量级，我倾向于选择反向Co-IP或更换细胞系。

3. 蛋白质周转率数据对瞬时互作研究的提示

ProteomicsDB的Biochemical Assays模块包含超过6000种蛋白质的半衰期数据， 这些数据通过pulsed SILAC结合TMT技术测定。已有的研究数据显示，**孤立存在的蛋白质与形成稳定复合物的蛋白质在降解速率上存在显著差异：**未能组装进复合物的游离亚基通常被快速降解，而成功组装进复合物核心的成分则具有较长的半衰期。

如果靶蛋白的半衰期极短或其热稳定性曲线陡峭，说明该蛋白参与的可能是瞬时或动态的相互作用。在这种情况下，常规的4°C过夜孵育和去垢剂洗涤容易破坏结合平衡。我会考虑改用RIME-MS（甲醛交联后免疫沉淀）或TurboID（活细胞邻近标记）等技术方案。

4. 翻译后修饰与药物扰动数据的参考价值

很多PPI是磷酸化或乙酰化依赖性的。 ProteomicsDB集成了decryptM剂量-时间分辨蛋白质组数据，以及PTMNavigator可视化工具。我可以在KEGG通路图上直接叠加PTM的动态变化，确认关键修饰位点是否需要特定的刺激条件。

例如，如果发现Bait与Prey的结合严格依赖于某一磷酸化事件，我就会在裂解液中追加足量的磷酸酶抑制剂（正钒酸钠、氟化钠），并确保在细胞刺激后最佳时间点收获样本。这些细节，如果不提前查阅数据库，根本无从知晓。

三、The Human Protein Atlas（HPA）数据库的空间定位与抗体验证信息

HPA是基于抗体成像技术的蛋白质空间表达数据库，其数据来源于**免疫组化、免疫荧光和空间转录组学。**该数据库提供的信息与ProteomicsDB形成互补：前者回答"表达量"的问题，后者回答"在什么位置表达"和"使用的抗体是否可靠"的问题。

1. 从组织到亚细胞，一张多维空间地图

HPA的核心模块包括：

▶ **组织图谱：**44种正常组织的免疫组化（IHC）染色，覆盖约76%的蛋白编码基因；

▶ **细胞图谱：**1206种细胞系的转录组数据，以及免疫荧光（IF）亚细胞定位；

▶ **亚细胞图谱：**将蛋白精准定位至33种细胞器和结构（核质、核仁、线粒体、内质网、黏着斑等）；

▶ **深度视觉蛋白组学（DVP）：**最新的单细胞类型分辨率蛋白组，跨越8.5个数量级的动态范围。

在PPI预实验中，我最看重的是亚细胞共定位验证。物理互作的先决条件是"时空共定位"------如果HPA显示Bait定位于核质，而Prey被严格限定在内质网膜，那么即使质谱数据提示两者丰度很高，我也基本可以判定其体外结合很可能是细胞裂解破坏区室化后产生的假阳性。这项筛查能帮我提前剔除大量没有意义的互作候选。

2. 利用IWGAV验证体系筛选可靠抗体

HPA最让我信服的是它对抗体特异性的严苛评级。它采用国际抗体验证工作组（IWGAV）提出的五大支柱：

▶ **遗传验证：**CRISPR敲除或siRNA敲低后信号显著下降；

▶ **正交验证：**IHC染色强度与RNA-seq表达趋势一致；

▶ **独立抗体验证：**针对同一蛋白的不同表位抗体产生一致模式；

▶ **重组表达验证：**外源标签蛋白与抗体信号完美重叠；

▶ **质谱捕获验证：**IP富集的蛋白经质谱鉴定确认为目标抗原。

HPA将抗体分为**"增强级"、"支持级"、"批准级"和"不确定"**四个层级。

我现在筛选Co-IP抗体时，会优先选择HPA标注为**"增强级"** 且通过质谱捕获验证的抗体。如果数据库显示我的靶蛋白有多个旁系同源物，而抗体被标注为"多靶点抗体"，我就必须警惕 ------ 这种抗体在IP后会产生难以拆解的同源蛋白簇，严重干扰质谱解析。

3. 细胞系选择和细胞周期同步化

HPA的细胞系图谱提供了基因在1206种细胞系中的表达聚类结果。我可以根据该数据判断靶蛋白在特定细胞系中是广泛表达还是特异性富集。 结合ProteomicsDB的丰度定量数据，能够选出蛋白表达量高且与生理状态接近的细胞系用于后续实验。

四、两数据库联合使用的五步预实验流程

单独使用任何一个数据库都只能获得部分信息。我目前的标准操作是将两者结合，形成以下五个步骤的决策流程：

第一步：筛选表达量匹配的细胞系

登录ProteomicsDB的Expression Heatmap，调取靶蛋白在所有可用细胞系中的riBAQ或iBAQ数据，初步选出丰度最高的3至5种细胞系。然后进入HPA的Tissue Atlas和Cell Atlas，查看相应细胞系的IHC染色强度和RNA nTPM值，进行交叉验证。

++如果两个数据库均显示高表达，我可以考虑使用内源性Co-IP。若丰度极低（例如每细胞低于1000拷贝），则放弃内源富集方案，改用外源标签过表达系统或邻近标记技术。++

第二步：排除空间定位不一致的候选蛋白

在HPA的Subcellular Atlas中逐一查询Bait和候选Prey的亚细胞定位。++若两者主要定位不同且无附加定位重叠，则直接排除该候选互作蛋白，不再进入后续验证。++

第三步：根据化学计量比确定Co-IP方向

在ProteomicsDB中获取Bait和候选Prey在同一细胞系下的iBAQ值，计算两者的比值。++若Bait丰度远高于Prey（例如10倍以上），则选择反向Co-IP，即使用抗Prey的抗体进行免疫沉淀；若比例接近，则可考虑双向验证或正向Co-IP。++

第四步：根据半衰期与修饰条件优化实验方案

查看ProteomicsDB中靶蛋白的半衰期数据。++若周转较快，考虑在裂解前进行甲醛交联，或使用TurboID邻近标记。++ 同时查看PTMNavigator中关键修饰位点的动态数据，++若互作具有修饰依赖性，则在裂解液中加入相应抑制剂并优化刺激时间。++

第五步：选择经过验证的抗体并设置对照组

在HPA中检索靶蛋白的所有抗体记录，筛选"增强级"且通过遗传验证或质谱捕获验证的产品，排除"多靶点抗体"或"不确定"级别的抗体。++最后结合ProteomicsDB的药物摄动数据，设置合适的处理组和对照组。++

五、数据库使用中的注意事项与局限

在使用上述数据库时，需注意以下几个方面的局限性：

① HPA的抗体染色数据仍存在交叉反应的可能性，即便通过了IWGAV验证流程。++我会结合多个抗体的数据进行综合判断，并直接查看原始染色图像。++

② 质谱技术对低丰度蛋白的检测能力有限，ProteomicsDB中可能缺失或低估部分低丰度蛋白的数据。若数据库显示"未检测到"，不等于该蛋白完全不表达，++必要时需用靶向PRM/SRM进行验证。++

③ 细胞系经过长期体外传代后，其蛋白表达谱可能与原代组织存在差异。++我会优先选择与体内实验体系接近的细胞系，或参考HPA的深度视觉蛋白组学模块中单细胞类型的数据。++

④ 蛋白表达只是互作发生的必要条件，而非充分条件。翻译后修饰状态、构象变化、竞争性结合等因素仍可能影响实际互作的发生。++因此，数据库评估结果应作为实验设计的参考依据，最终结论需经实验验证。++

结语

回看自己刚入学时那种"先做再说"的莽撞，我不禁感慨。在组学数据如此丰富的今天，我们完全有能力在动手前就排除大部分技术陷阱。ProteomicsDB给了我量化的尺子，而HPA给了我空间的双眼。 两者结合，不仅大幅提升了实验成功率，也让我对每个互作候选的生物学合理性有了更深刻的理解。++熟练掌握这两个数据库，用数字化预实验为后续工作保驾护航，将是每一位致力于机制研究的分子生物学研究者的核心素养。++

参考资料

Nie S, Kong X, Li D. Strategies for constructing context-specific protein-protein interaction networks. Brief Bioinform. 2026;27(3):bbag004.
Smits AH, Jansen PWT, Poser I, Hyman AA, Vermeulen M. Stoichiometry of chromatin-associated protein complexes revealed by label-free quantitative mass spectrometry-based proteomics. Nucleic Acids Res. 2013;41(1):e28.
Schmidt T, Samaras P, Frejno M, et al. ProteomicsDB. Nucleic Acids Res. 2018;46(D1):D1271-D1281.
Samaras P, Schmidt T, Frejno M, et al. ProteomicsDB: a multi-omics and multi-organism resource for life science research. Nucleic Acids Res. 2020;48(D1):D1153-D1163.
Sciutto MR, Warnken U, Schnolzer M, et al. Two-step coimmunoprecipitation (TIP) enables efficient and highly selective isolation of native protein complexes. Mol Cell Proteomics. 2018;17(5):993-1009.