单细胞联合BulkRNA分析思路|加个MR锦上添花,增强验证~

今天给大家分享一篇IF=7.3的单细胞+MR的文章,2023年12月发表在Frontiers in Immunology:An integrative analysis of single-cell and bulk transcriptome and bidirectional mendelian randomization analysis identified C1Q as a novel stimulated risk gene for Atherosclerosis,单细胞和批量转录组的综合分析以及双向孟德尔随机化分析确定 C1Q 是动脉粥样硬化的新型刺激风险基因 [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10764496/\](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10764496

    / " ")

摘要

背景 :人类动脉粥样硬化斑块(HAP)上C1Q 相关基因的作用尚不为人知。我们的目标是利用单细胞RNA测序(scRNA-seq)和批量RNA分析建立C1Q 相关的中枢基因,以更有效地诊断和预测HAP患者,并使用双向Mendelian随机化(MR)分析探究C1Q与HAP(缺血性中风)之间的关联。

方法

从基因表达 Omnibus(GEO)数据库下载HAP scRNA-seq和批量RNA数据。使用GBMLASSOXGBoost算法筛选C1Q相关的中枢基因。我们建立了机器学习模型,利用广义线性模型和接收器操作特征(ROC)分析诊断和区分动脉粥样硬化类型。此外,我们使用ssGSEA评分HALLMARK_COMPLEMENT信号通路,并通过qRT-PCR在RAW264.7巨噬细胞和apoE-/-小鼠中确认中枢基因表达。此外,通过双向MR分析评估C1Q与HAP之间的风险关联,以C1Q作为暴露,缺血性中风(IS,大动脉动脉粥样硬化)作为结果。使用反方差加权(IVW)作为主要方法。

结果

我们利用scRNA-seq数据集(GSE159677)识别了24个细胞簇和12个细胞类型,并在scRNA-seq和GEO数据集中揭示了七个与C1Q相关的差异表达基因(DEGs)。然后,我们使用GBM、LASSO和XGBoost从这七个DEGs中选择了C1QA和C1QC。我们的研究结果表明,训练和验证队列均具有满意的诊断准确度,可识别HPAs患者。此外,我们确认SPI1是负责调节HAP中两个中枢基因的潜在转录因子。我们的分析进一步揭示了HALLMARK_COMPLEMENT信号通路与C1QA和C1QC相关并被激活。我们使用qPCR确认了C1QA、C1QC和SPI1在氧化LDL处理的RAW264.7巨噬细胞和apoE-/-小鼠中的高表达水平。MR的结果表明,C1Q的遗传风险与IS呈正相关,表现为1.118的比值几率(95% CI:1.013-1.234,P = 0.027)。

结论

作者已有效地开发并验证了一个包含两个基因的新型HAP诊断标志,而MR分析提供了支持C1Q对IS有良好关联的证据。

关键词:动脉粥样硬化斑块(AP),ScRNA-seq,Mendelian随机化(MR),补体分量1q(C1q),LASSO

结果

图1人类动脉粥样硬化斑块(AP)组织的单细胞RNA测序。

  • (A) 总的单细胞RNA测序数据的聚类树在不同分辨率下进行了分析。
  • (B) 使用Seurat软件包(4.1.2版本)的"FindAllMarkers"函数绘制了每个簇的前三个标记物。红色框表示C1Q细胞簇。
  • © 在分辨率为0.8下,T分布随机邻居嵌入(tSNE)显示了24个簇。
  • (D) tSNE图着色显示了12种不同的细胞类型。注意:标记基因位于tSNE图下方。
  • (E) 生成了AC和PA组之间12种细胞类型的概述,并按细胞类型着色。
  • (F) 使用饼图比较了每个组中细胞类型的比例。
  • (G, H) 使用Seurat软件包(4.1.2版本)将免疫细胞合并后,使用tSNE图和饼图描述了AC和AP组之间的细胞类型。

图2 从scRNA-seq和GEO数据集中选择C1Q中枢基因。

  • (A) 从C1Q细胞簇中提取的前十个基因。
  • (B) 在scRNA-seq中的AC和PA组之间的781个DEGs中检测到这10个基因,并且进一步分析得到了七个基因(C1QA、C1QB、C1QC、CCL3、HLA-DPA1、FOLR2和HLA-DQA1)。
  • © LASSO算法选择C1Q中枢基因。
  • (D) GBM算法选择C1Q中枢基因。
  • (E) XGBoost算法选择C1Q中枢基因。
  • (F) 三种算法识别出两个基因(C1QA和C1QC)。

图3 在scRNA-seq中涉及特征基因的表达和信号通路。

  • (A--C) 图表显示了C1QA、C1QC和SPI1在细胞簇中的表达情况。
  • (D) 这三个特征基因在AC组中上调表达。
  • (E) GSEA显示了所有12个细胞簇中的信号通路。
  • (F) KEGG图显示了巨噬细胞簇中的KEGG通路。

图4 动脉粥样硬化进展的诊断预测模型。

  • (A) 在GSE43292训练队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (B) 在训练队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.842)。
  • © PCoA分析表明这两个标志可以显著区分Atheroma和intact样本。
  • (D) 在GSE41571外部验证队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (E) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.933)。
  • (F) PCoA分析显示这两个标志可以显著区分ruptured和stable样本。
  • (G) 在GSE28829外部验证队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (H) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.938)。
  • (I) PCoA分析显示这两个标志可以显著区分advanced和early样本。

图5 HAP的诊断预测模型与正常对照组。

  • (A) 在GSE100927外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (B) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.899)。
  • © PCoA分析显示这两个标志可以显著区分动脉粥样硬化动脉和正常动脉。
  • (D) 在GSE100927_Carotid外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (E) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.928)。
  • (F) PCoA分析显示这两个标志可以显著区分颈动脉动脉粥样硬化动脉和正常动脉。
  • (G) 在GEO100927_Femoral外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (H) 在验证队列中使用两个多组学签名的ROC曲线评估了诊断预测准确度(AUC = 0.981)。
  • (I) PCoA分析显示这两个标志可以显著区分股动脉中的动脉粥样硬化动脉和正常样本。
  • (J) 在GSE100927_Infra验证队列中使用两个生物标志物构建的混淆矩阵。
  • (K) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.89)。
  • (L) PCoA分析显示这两个标志可以显著区分膝下动脉中的动脉粥样硬化动脉和正常样本。

图6 基于C1Q中枢基因的免疫微环境分析。

  • (A) 在GSE43292队列中,通过8种算法显示了动脉粥样硬化和正常样本之间免疫浸润细胞的富集热图。
  • (B) 在GSE28829队列中,通过8种算法显示了早期和晚期样本之间免疫浸润细胞的富集热图。
  • © 在GSE100927队列中,通过8种算法显示了动脉粥样硬化斑块和对照样本之间免疫浸润细胞的富集热图。
  • (D--F) 在GSE43292(D)、GSE28829(E)和GSE100927(F)数据集中比较高和低C1Q组之间的基质分数、免疫分数、ESTIMATE分数和斑块纯度。

    图7 基于C1Q中枢基因评估免疫信号通路和免疫调节因子。
  • (A--C) 在GSE43292(A)、GSE28829(B)和GSE100927(C)数据集中比较高和低C1Q组之间的16个免疫信号通路,并对免疫信号通路与C1QA或C1QC之间的相关性进行分析。
  • (D--F) 使用七种算法在相同数据集(GSE43292(D)、GSE28829(E)和GSE100927(F))中通过热图分析可视化免疫调节因子的富集。

图8 C1QA激活HAP中的HALLMARK_COMPLEMENT信号通路。

  • (A--F) 对三个GEO数据集(GSE43292、GSE28829和GSE100927)的C1QA进行GSEA分析结果。

图9 C1QA相关的HALLMARK_COMPLEMENT信号通路在HAP中的相关性。

  • (A--D) 在GSE43292数据集中,探究了C1QA与HALLMARK_COMPLEMENT信号通路的相关性,并比较了高低C1QA表达亚组的信号通路分数和C1QA表达水平。
  • (E--H) 在GSE28829数据集中重复分析。
  • (I--L) 在GSE100927数据集中重复分析。

图10 SPI1被确认为HAP中的潜在关键转录因子。

  • (A--C) 通过NetworkAnalyst 3.0从三个数据库(ENCODE、JASPAR和ChEA)筛选可能调控C1QA和C1QC基因的潜在转录因子。
  • (D) 在所有三个GEO数据集(GSE43292、GSE28829和GSE100927)中,只有SPI1的表达显著升高,被认为是C1QA和C1QC基因的潜在转录因子。
  • (E--I) 在所有三个GEO数据集中,IL-1β、CXCL1、CCL3、CCL4和ABCG1基因的表达均上调。

图11 C1QA和C1QC的体外和体内验证。

  • (A--C) 实时PCR检测氧化低密度脂蛋白(ox-LDL)处理的RAW264.7巨噬细胞组和正常对照组中C1QA和C1QC的相对mRNA表达。
  • (D--H) 实时PCR检测apoE-/-小鼠和正常小鼠胸腔和腹部动脉中C1QA、C1QC、IL1B、SPI1和ABCG1的相对mRNA表达值。
  • (I) 这五个基因彼此之间呈正相关。
  • (J) 由C1QA和C1QC基因调节的HAP发展的潜在机制。

图12 C1Q对缺血性卒中(IS)的MR分析可视化。

  • (A) C1Q对IS影响的散点图MR分析。
  • (B) C1Q相关单核苷酸多态性(SNP)对IS的因果效应的森林图。
  • © C1Q对IS影响的留一外灵敏度分析。
  • (D) 漏斗图显示SNP之间没有显著的异质性。

图13 缺血性卒中(IS)对C1Q的MR分析可视化。

  • (A) IS对C1Q影响的散点图MR分析。
  • (B) IS相关单核苷酸多态性(SNP)对C1Q的因果效应的森林图。
  • © IS对C1Q影响的留一外灵敏度分析。
  • (D) 漏斗图显示SNP之间没有显著的异质性。

总结

  • 主要数据及方法:
Types Notes
转录组数据 scRNA:GSE159677;BulkRNA:GSE28829、GSE43292、GSE41571、GSE100927;IEU openGWAS全基因组数据
生信分析 Seurat 单细胞标准流程;单细胞差异分析;GOKEGG;GSVA富集 ;EPIC、XCell、MCPCOUNTER、QUANTISEQ、IPS、ESTIMATE和TIMER联合分析免疫微环境机器学习 GBM、LASSO、XGBoost;ROC及AUC计算;孟德尔随机化
实验技术 体外细胞分析qRT-PCR;小鼠模型+免疫组化;实时定量PCR
  • 这篇文章看着图多,13张figure,其实是正常工作量,主要是三数据集验证,每个分析都triple。
  • 一篇很典型的单细胞联合BulkRNA分析思路,在最后验证 C1Q 的步骤加上了MR的分析收尾,非常值得大家学习和复现~
相关推荐
艾派森1 小时前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
武子康5 小时前
大数据-212 数据挖掘 机器学习理论 - 无监督学习算法 KMeans 基本原理 簇内误差平方和
大数据·人工智能·学习·算法·机器学习·数据挖掘
Q8137574606 小时前
数据挖掘在金融交易中的应用:民锋科技的智能化布局
人工智能·科技·数据挖掘
布说在见6 小时前
魅力标签云,奇幻词云图 —— 数据可视化新境界
信息可视化·数据挖掘·数据分析
布说在见18 小时前
层次与网络的视觉对话:树图与力引导布局的双剑合璧
信息可视化·数据挖掘·数据分析
spssau1 天前
多分类logistic回归分析案例教程
分类·数据挖掘·数据分析·回归·回归分析·logistic回归·spssau
我就说好玩1 天前
2020年美国总统大选数据分析与模型预测
大数据·python·数据挖掘·数据分析·pandas·sklearn
Aloudata1 天前
在全域数据整合过程中,如何确保数据的一致性和准确性
大数据·数据库·人工智能·数据挖掘·数据分析
安静的_显眼包O_o1 天前
【机器学习】连续属性离散化与sklearn.preprocessing.KBinsDiscretizer
数据挖掘·数据分析
叫我:松哥1 天前
基于python多准则决策分析的汽车推荐算法设计与实现
python·算法·数据挖掘·数据分析·汽车·推荐算法