单细胞联合BulkRNA分析思路|加个MR锦上添花,增强验证~

今天给大家分享一篇IF=7.3的单细胞+MR的文章,2023年12月发表在Frontiers in Immunology:An integrative analysis of single-cell and bulk transcriptome and bidirectional mendelian randomization analysis identified C1Q as a novel stimulated risk gene for Atherosclerosis,单细胞和批量转录组的综合分析以及双向孟德尔随机化分析确定 C1Q 是动脉粥样硬化的新型刺激风险基因 [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10764496/\](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10764496

    / " ")

摘要

背景 :人类动脉粥样硬化斑块(HAP)上C1Q 相关基因的作用尚不为人知。我们的目标是利用单细胞RNA测序(scRNA-seq)和批量RNA分析建立C1Q 相关的中枢基因,以更有效地诊断和预测HAP患者,并使用双向Mendelian随机化(MR)分析探究C1Q与HAP(缺血性中风)之间的关联。

方法

从基因表达 Omnibus(GEO)数据库下载HAP scRNA-seq和批量RNA数据。使用GBMLASSOXGBoost算法筛选C1Q相关的中枢基因。我们建立了机器学习模型,利用广义线性模型和接收器操作特征(ROC)分析诊断和区分动脉粥样硬化类型。此外,我们使用ssGSEA评分HALLMARK_COMPLEMENT信号通路,并通过qRT-PCR在RAW264.7巨噬细胞和apoE-/-小鼠中确认中枢基因表达。此外,通过双向MR分析评估C1Q与HAP之间的风险关联,以C1Q作为暴露,缺血性中风(IS,大动脉动脉粥样硬化)作为结果。使用反方差加权(IVW)作为主要方法。

结果

我们利用scRNA-seq数据集(GSE159677)识别了24个细胞簇和12个细胞类型,并在scRNA-seq和GEO数据集中揭示了七个与C1Q相关的差异表达基因(DEGs)。然后,我们使用GBM、LASSO和XGBoost从这七个DEGs中选择了C1QA和C1QC。我们的研究结果表明,训练和验证队列均具有满意的诊断准确度,可识别HPAs患者。此外,我们确认SPI1是负责调节HAP中两个中枢基因的潜在转录因子。我们的分析进一步揭示了HALLMARK_COMPLEMENT信号通路与C1QA和C1QC相关并被激活。我们使用qPCR确认了C1QA、C1QC和SPI1在氧化LDL处理的RAW264.7巨噬细胞和apoE-/-小鼠中的高表达水平。MR的结果表明,C1Q的遗传风险与IS呈正相关,表现为1.118的比值几率(95% CI:1.013-1.234,P = 0.027)。

结论

作者已有效地开发并验证了一个包含两个基因的新型HAP诊断标志,而MR分析提供了支持C1Q对IS有良好关联的证据。

关键词:动脉粥样硬化斑块(AP),ScRNA-seq,Mendelian随机化(MR),补体分量1q(C1q),LASSO

结果

图1人类动脉粥样硬化斑块(AP)组织的单细胞RNA测序。

  • (A) 总的单细胞RNA测序数据的聚类树在不同分辨率下进行了分析。
  • (B) 使用Seurat软件包(4.1.2版本)的"FindAllMarkers"函数绘制了每个簇的前三个标记物。红色框表示C1Q细胞簇。
  • © 在分辨率为0.8下,T分布随机邻居嵌入(tSNE)显示了24个簇。
  • (D) tSNE图着色显示了12种不同的细胞类型。注意:标记基因位于tSNE图下方。
  • (E) 生成了AC和PA组之间12种细胞类型的概述,并按细胞类型着色。
  • (F) 使用饼图比较了每个组中细胞类型的比例。
  • (G, H) 使用Seurat软件包(4.1.2版本)将免疫细胞合并后,使用tSNE图和饼图描述了AC和AP组之间的细胞类型。

图2 从scRNA-seq和GEO数据集中选择C1Q中枢基因。

  • (A) 从C1Q细胞簇中提取的前十个基因。
  • (B) 在scRNA-seq中的AC和PA组之间的781个DEGs中检测到这10个基因,并且进一步分析得到了七个基因(C1QA、C1QB、C1QC、CCL3、HLA-DPA1、FOLR2和HLA-DQA1)。
  • © LASSO算法选择C1Q中枢基因。
  • (D) GBM算法选择C1Q中枢基因。
  • (E) XGBoost算法选择C1Q中枢基因。
  • (F) 三种算法识别出两个基因(C1QA和C1QC)。

图3 在scRNA-seq中涉及特征基因的表达和信号通路。

  • (A--C) 图表显示了C1QA、C1QC和SPI1在细胞簇中的表达情况。
  • (D) 这三个特征基因在AC组中上调表达。
  • (E) GSEA显示了所有12个细胞簇中的信号通路。
  • (F) KEGG图显示了巨噬细胞簇中的KEGG通路。

图4 动脉粥样硬化进展的诊断预测模型。

  • (A) 在GSE43292训练队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (B) 在训练队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.842)。
  • © PCoA分析表明这两个标志可以显著区分Atheroma和intact样本。
  • (D) 在GSE41571外部验证队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (E) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.933)。
  • (F) PCoA分析显示这两个标志可以显著区分ruptured和stable样本。
  • (G) 在GSE28829外部验证队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (H) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.938)。
  • (I) PCoA分析显示这两个标志可以显著区分advanced和early样本。

图5 HAP的诊断预测模型与正常对照组。

  • (A) 在GSE100927外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (B) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.899)。
  • © PCoA分析显示这两个标志可以显著区分动脉粥样硬化动脉和正常动脉。
  • (D) 在GSE100927_Carotid外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (E) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.928)。
  • (F) PCoA分析显示这两个标志可以显著区分颈动脉动脉粥样硬化动脉和正常动脉。
  • (G) 在GEO100927_Femoral外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (H) 在验证队列中使用两个多组学签名的ROC曲线评估了诊断预测准确度(AUC = 0.981)。
  • (I) PCoA分析显示这两个标志可以显著区分股动脉中的动脉粥样硬化动脉和正常样本。
  • (J) 在GSE100927_Infra验证队列中使用两个生物标志物构建的混淆矩阵。
  • (K) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.89)。
  • (L) PCoA分析显示这两个标志可以显著区分膝下动脉中的动脉粥样硬化动脉和正常样本。

图6 基于C1Q中枢基因的免疫微环境分析。

  • (A) 在GSE43292队列中,通过8种算法显示了动脉粥样硬化和正常样本之间免疫浸润细胞的富集热图。
  • (B) 在GSE28829队列中,通过8种算法显示了早期和晚期样本之间免疫浸润细胞的富集热图。
  • © 在GSE100927队列中,通过8种算法显示了动脉粥样硬化斑块和对照样本之间免疫浸润细胞的富集热图。
  • (D--F) 在GSE43292(D)、GSE28829(E)和GSE100927(F)数据集中比较高和低C1Q组之间的基质分数、免疫分数、ESTIMATE分数和斑块纯度。

    图7 基于C1Q中枢基因评估免疫信号通路和免疫调节因子。
  • (A--C) 在GSE43292(A)、GSE28829(B)和GSE100927(C)数据集中比较高和低C1Q组之间的16个免疫信号通路,并对免疫信号通路与C1QA或C1QC之间的相关性进行分析。
  • (D--F) 使用七种算法在相同数据集(GSE43292(D)、GSE28829(E)和GSE100927(F))中通过热图分析可视化免疫调节因子的富集。

图8 C1QA激活HAP中的HALLMARK_COMPLEMENT信号通路。

  • (A--F) 对三个GEO数据集(GSE43292、GSE28829和GSE100927)的C1QA进行GSEA分析结果。

图9 C1QA相关的HALLMARK_COMPLEMENT信号通路在HAP中的相关性。

  • (A--D) 在GSE43292数据集中,探究了C1QA与HALLMARK_COMPLEMENT信号通路的相关性,并比较了高低C1QA表达亚组的信号通路分数和C1QA表达水平。
  • (E--H) 在GSE28829数据集中重复分析。
  • (I--L) 在GSE100927数据集中重复分析。

图10 SPI1被确认为HAP中的潜在关键转录因子。

  • (A--C) 通过NetworkAnalyst 3.0从三个数据库(ENCODE、JASPAR和ChEA)筛选可能调控C1QA和C1QC基因的潜在转录因子。
  • (D) 在所有三个GEO数据集(GSE43292、GSE28829和GSE100927)中,只有SPI1的表达显著升高,被认为是C1QA和C1QC基因的潜在转录因子。
  • (E--I) 在所有三个GEO数据集中,IL-1β、CXCL1、CCL3、CCL4和ABCG1基因的表达均上调。

图11 C1QA和C1QC的体外和体内验证。

  • (A--C) 实时PCR检测氧化低密度脂蛋白(ox-LDL)处理的RAW264.7巨噬细胞组和正常对照组中C1QA和C1QC的相对mRNA表达。
  • (D--H) 实时PCR检测apoE-/-小鼠和正常小鼠胸腔和腹部动脉中C1QA、C1QC、IL1B、SPI1和ABCG1的相对mRNA表达值。
  • (I) 这五个基因彼此之间呈正相关。
  • (J) 由C1QA和C1QC基因调节的HAP发展的潜在机制。

图12 C1Q对缺血性卒中(IS)的MR分析可视化。

  • (A) C1Q对IS影响的散点图MR分析。
  • (B) C1Q相关单核苷酸多态性(SNP)对IS的因果效应的森林图。
  • © C1Q对IS影响的留一外灵敏度分析。
  • (D) 漏斗图显示SNP之间没有显著的异质性。

图13 缺血性卒中(IS)对C1Q的MR分析可视化。

  • (A) IS对C1Q影响的散点图MR分析。
  • (B) IS相关单核苷酸多态性(SNP)对C1Q的因果效应的森林图。
  • © IS对C1Q影响的留一外灵敏度分析。
  • (D) 漏斗图显示SNP之间没有显著的异质性。

总结

  • 主要数据及方法:
Types Notes
转录组数据 scRNA:GSE159677;BulkRNA:GSE28829、GSE43292、GSE41571、GSE100927;IEU openGWAS全基因组数据
生信分析 Seurat 单细胞标准流程;单细胞差异分析;GOKEGG;GSVA富集 ;EPIC、XCell、MCPCOUNTER、QUANTISEQ、IPS、ESTIMATE和TIMER联合分析免疫微环境机器学习 GBM、LASSO、XGBoost;ROC及AUC计算;孟德尔随机化
实验技术 体外细胞分析qRT-PCR;小鼠模型+免疫组化;实时定量PCR
  • 这篇文章看着图多,13张figure,其实是正常工作量,主要是三数据集验证,每个分析都triple。
  • 一篇很典型的单细胞联合BulkRNA分析思路,在最后验证 C1Q 的步骤加上了MR的分析收尾,非常值得大家学习和复现~
相关推荐
panpantt3211 小时前
【参会邀请】第二届大数据与数据挖掘国际会议(BDDM 2024)邀您相聚江城!
大数据·人工智能·数据挖掘
statistican_ABin2 小时前
R语言数据分析案例45-全国汽车销售数据分析(可视化与回归分析)
数据挖掘·数据分析
CV学术叫叫兽3 小时前
快速图像识别:落叶植物叶片分类
人工智能·分类·数据挖掘
网络真危险!!3 小时前
【数据分析】认清、明确
数据挖掘·数据分析
菜鸟学Python3 小时前
Python 数据分析核心库大全!
开发语言·python·数据挖掘·数据分析
CV学术叫叫兽5 小时前
一站式学习:害虫识别与分类图像分割
学习·分类·数据挖掘
HPC_fac1305206781610 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
wxl78122717 小时前
如何使用本地大模型做数据分析
python·数据挖掘·数据分析·代码解释器
浊酒南街19 小时前
Statsmodels之OLS回归
人工智能·数据挖掘·回归
麦田里的稻草人w1 天前
【数据分析实战】(一)—— JOJO战力图
数据挖掘·数据分析