单细胞联合BulkRNA分析思路|加个MR锦上添花,增强验证~

今天给大家分享一篇IF=7.3的单细胞+MR的文章,2023年12月发表在Frontiers in Immunology:An integrative analysis of single-cell and bulk transcriptome and bidirectional mendelian randomization analysis identified C1Q as a novel stimulated risk gene for Atherosclerosis,单细胞和批量转录组的综合分析以及双向孟德尔随机化分析确定 C1Q 是动脉粥样硬化的新型刺激风险基因 [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10764496/\](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10764496

复制代码
    / " ")

摘要

背景 :人类动脉粥样硬化斑块(HAP)上C1Q 相关基因的作用尚不为人知。我们的目标是利用单细胞RNA测序(scRNA-seq)和批量RNA分析建立C1Q 相关的中枢基因,以更有效地诊断和预测HAP患者,并使用双向Mendelian随机化(MR)分析探究C1Q与HAP(缺血性中风)之间的关联。

方法

从基因表达 Omnibus(GEO)数据库下载HAP scRNA-seq和批量RNA数据。使用GBMLASSOXGBoost算法筛选C1Q相关的中枢基因。我们建立了机器学习模型,利用广义线性模型和接收器操作特征(ROC)分析诊断和区分动脉粥样硬化类型。此外,我们使用ssGSEA评分HALLMARK_COMPLEMENT信号通路,并通过qRT-PCR在RAW264.7巨噬细胞和apoE-/-小鼠中确认中枢基因表达。此外,通过双向MR分析评估C1Q与HAP之间的风险关联,以C1Q作为暴露,缺血性中风(IS,大动脉动脉粥样硬化)作为结果。使用反方差加权(IVW)作为主要方法。

结果

我们利用scRNA-seq数据集(GSE159677)识别了24个细胞簇和12个细胞类型,并在scRNA-seq和GEO数据集中揭示了七个与C1Q相关的差异表达基因(DEGs)。然后,我们使用GBM、LASSO和XGBoost从这七个DEGs中选择了C1QA和C1QC。我们的研究结果表明,训练和验证队列均具有满意的诊断准确度,可识别HPAs患者。此外,我们确认SPI1是负责调节HAP中两个中枢基因的潜在转录因子。我们的分析进一步揭示了HALLMARK_COMPLEMENT信号通路与C1QA和C1QC相关并被激活。我们使用qPCR确认了C1QA、C1QC和SPI1在氧化LDL处理的RAW264.7巨噬细胞和apoE-/-小鼠中的高表达水平。MR的结果表明,C1Q的遗传风险与IS呈正相关,表现为1.118的比值几率(95% CI:1.013-1.234,P = 0.027)。

结论

作者已有效地开发并验证了一个包含两个基因的新型HAP诊断标志,而MR分析提供了支持C1Q对IS有良好关联的证据。

关键词:动脉粥样硬化斑块(AP),ScRNA-seq,Mendelian随机化(MR),补体分量1q(C1q),LASSO

结果

图1人类动脉粥样硬化斑块(AP)组织的单细胞RNA测序。

  • (A) 总的单细胞RNA测序数据的聚类树在不同分辨率下进行了分析。
  • (B) 使用Seurat软件包(4.1.2版本)的"FindAllMarkers"函数绘制了每个簇的前三个标记物。红色框表示C1Q细胞簇。
  • © 在分辨率为0.8下,T分布随机邻居嵌入(tSNE)显示了24个簇。
  • (D) tSNE图着色显示了12种不同的细胞类型。注意:标记基因位于tSNE图下方。
  • (E) 生成了AC和PA组之间12种细胞类型的概述,并按细胞类型着色。
  • (F) 使用饼图比较了每个组中细胞类型的比例。
  • (G, H) 使用Seurat软件包(4.1.2版本)将免疫细胞合并后,使用tSNE图和饼图描述了AC和AP组之间的细胞类型。

图2 从scRNA-seq和GEO数据集中选择C1Q中枢基因。

  • (A) 从C1Q细胞簇中提取的前十个基因。
  • (B) 在scRNA-seq中的AC和PA组之间的781个DEGs中检测到这10个基因,并且进一步分析得到了七个基因(C1QA、C1QB、C1QC、CCL3、HLA-DPA1、FOLR2和HLA-DQA1)。
  • © LASSO算法选择C1Q中枢基因。
  • (D) GBM算法选择C1Q中枢基因。
  • (E) XGBoost算法选择C1Q中枢基因。
  • (F) 三种算法识别出两个基因(C1QA和C1QC)。

图3 在scRNA-seq中涉及特征基因的表达和信号通路。

  • (A--C) 图表显示了C1QA、C1QC和SPI1在细胞簇中的表达情况。
  • (D) 这三个特征基因在AC组中上调表达。
  • (E) GSEA显示了所有12个细胞簇中的信号通路。
  • (F) KEGG图显示了巨噬细胞簇中的KEGG通路。

图4 动脉粥样硬化进展的诊断预测模型。

  • (A) 在GSE43292训练队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (B) 在训练队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.842)。
  • © PCoA分析表明这两个标志可以显著区分Atheroma和intact样本。
  • (D) 在GSE41571外部验证队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (E) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.933)。
  • (F) PCoA分析显示这两个标志可以显著区分ruptured和stable样本。
  • (G) 在GSE28829外部验证队列中使用两个生物标志物构建的混淆矩阵显示了实际和预测样本。
  • (H) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.938)。
  • (I) PCoA分析显示这两个标志可以显著区分advanced和early样本。

图5 HAP的诊断预测模型与正常对照组。

  • (A) 在GSE100927外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (B) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.899)。
  • © PCoA分析显示这两个标志可以显著区分动脉粥样硬化动脉和正常动脉。
  • (D) 在GSE100927_Carotid外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (E) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.928)。
  • (F) PCoA分析显示这两个标志可以显著区分颈动脉动脉粥样硬化动脉和正常动脉。
  • (G) 在GEO100927_Femoral外部验证队列中使用两个生物标志物构建的混淆矩阵。
  • (H) 在验证队列中使用两个多组学签名的ROC曲线评估了诊断预测准确度(AUC = 0.981)。
  • (I) PCoA分析显示这两个标志可以显著区分股动脉中的动脉粥样硬化动脉和正常样本。
  • (J) 在GSE100927_Infra验证队列中使用两个生物标志物构建的混淆矩阵。
  • (K) 在验证队列中使用两个签名的ROC曲线评估了诊断预测准确度(AUC = 0.89)。
  • (L) PCoA分析显示这两个标志可以显著区分膝下动脉中的动脉粥样硬化动脉和正常样本。

图6 基于C1Q中枢基因的免疫微环境分析。

  • (A) 在GSE43292队列中,通过8种算法显示了动脉粥样硬化和正常样本之间免疫浸润细胞的富集热图。
  • (B) 在GSE28829队列中,通过8种算法显示了早期和晚期样本之间免疫浸润细胞的富集热图。
  • © 在GSE100927队列中,通过8种算法显示了动脉粥样硬化斑块和对照样本之间免疫浸润细胞的富集热图。
  • (D--F) 在GSE43292(D)、GSE28829(E)和GSE100927(F)数据集中比较高和低C1Q组之间的基质分数、免疫分数、ESTIMATE分数和斑块纯度。

    图7 基于C1Q中枢基因评估免疫信号通路和免疫调节因子。
  • (A--C) 在GSE43292(A)、GSE28829(B)和GSE100927(C)数据集中比较高和低C1Q组之间的16个免疫信号通路,并对免疫信号通路与C1QA或C1QC之间的相关性进行分析。
  • (D--F) 使用七种算法在相同数据集(GSE43292(D)、GSE28829(E)和GSE100927(F))中通过热图分析可视化免疫调节因子的富集。

图8 C1QA激活HAP中的HALLMARK_COMPLEMENT信号通路。

  • (A--F) 对三个GEO数据集(GSE43292、GSE28829和GSE100927)的C1QA进行GSEA分析结果。

图9 C1QA相关的HALLMARK_COMPLEMENT信号通路在HAP中的相关性。

  • (A--D) 在GSE43292数据集中,探究了C1QA与HALLMARK_COMPLEMENT信号通路的相关性,并比较了高低C1QA表达亚组的信号通路分数和C1QA表达水平。
  • (E--H) 在GSE28829数据集中重复分析。
  • (I--L) 在GSE100927数据集中重复分析。

图10 SPI1被确认为HAP中的潜在关键转录因子。

  • (A--C) 通过NetworkAnalyst 3.0从三个数据库(ENCODE、JASPAR和ChEA)筛选可能调控C1QA和C1QC基因的潜在转录因子。
  • (D) 在所有三个GEO数据集(GSE43292、GSE28829和GSE100927)中,只有SPI1的表达显著升高,被认为是C1QA和C1QC基因的潜在转录因子。
  • (E--I) 在所有三个GEO数据集中,IL-1β、CXCL1、CCL3、CCL4和ABCG1基因的表达均上调。

图11 C1QA和C1QC的体外和体内验证。

  • (A--C) 实时PCR检测氧化低密度脂蛋白(ox-LDL)处理的RAW264.7巨噬细胞组和正常对照组中C1QA和C1QC的相对mRNA表达。
  • (D--H) 实时PCR检测apoE-/-小鼠和正常小鼠胸腔和腹部动脉中C1QA、C1QC、IL1B、SPI1和ABCG1的相对mRNA表达值。
  • (I) 这五个基因彼此之间呈正相关。
  • (J) 由C1QA和C1QC基因调节的HAP发展的潜在机制。

图12 C1Q对缺血性卒中(IS)的MR分析可视化。

  • (A) C1Q对IS影响的散点图MR分析。
  • (B) C1Q相关单核苷酸多态性(SNP)对IS的因果效应的森林图。
  • © C1Q对IS影响的留一外灵敏度分析。
  • (D) 漏斗图显示SNP之间没有显著的异质性。

图13 缺血性卒中(IS)对C1Q的MR分析可视化。

  • (A) IS对C1Q影响的散点图MR分析。
  • (B) IS相关单核苷酸多态性(SNP)对C1Q的因果效应的森林图。
  • © IS对C1Q影响的留一外灵敏度分析。
  • (D) 漏斗图显示SNP之间没有显著的异质性。

总结

  • 主要数据及方法:
Types Notes
转录组数据 scRNA:GSE159677;BulkRNA:GSE28829、GSE43292、GSE41571、GSE100927;IEU openGWAS全基因组数据
生信分析 Seurat 单细胞标准流程;单细胞差异分析;GOKEGG;GSVA富集 ;EPIC、XCell、MCPCOUNTER、QUANTISEQ、IPS、ESTIMATE和TIMER联合分析免疫微环境机器学习 GBM、LASSO、XGBoost;ROC及AUC计算;孟德尔随机化
实验技术 体外细胞分析qRT-PCR;小鼠模型+免疫组化;实时定量PCR
  • 这篇文章看着图多,13张figure,其实是正常工作量,主要是三数据集验证,每个分析都triple。
  • 一篇很典型的单细胞联合BulkRNA分析思路,在最后验证 C1Q 的步骤加上了MR的分析收尾,非常值得大家学习和复现~
相关推荐
Blossom.1182 小时前
从虚拟现实到混合现实:沉浸式体验的未来之路
人工智能·目标检测·机器学习·计算机视觉·语音识别·vr·mr
lilye663 小时前
精益数据分析(63/126):移情阶段的深度潜入——从用户生活到产品渗透的全链路解析
数据挖掘·数据分析·生活
医只鸡腿子5 小时前
3.2/Q2,Charls最新文章解读
数据库·数据挖掘·数据分析·深度优先·数据库开发
王哥儿聊AI9 小时前
基于LLM合成高质量情感数据,提升情感分类能力!!
人工智能·分类·数据挖掘
小白—人工智能13 小时前
数据分析 —— 数据预处理
python·数据挖掘·数据分析
Blossom.1181 天前
使用Python实现简单的人工智能聊天机器人
开发语言·人工智能·python·低代码·数据挖掘·机器人·云计算
莫叫石榴姐1 天前
大模型在数据分析领域的研究综述
大数据·数据挖掘·数据分析
胡耀超1 天前
霍夫圆变换全面解析(OpenCV)
人工智能·python·opencv·算法·计算机视觉·数据挖掘·数据安全
人大博士的交易之路1 天前
今日行情明日机会——20250516
大数据·数学建模·数据挖掘·程序员创富·缠中说禅·涨停回马枪·道琼斯结构
Leo.yuan1 天前
基于地图的数据可视化:解锁地理数据的真正价值
大数据·数据库·信息可视化·数据挖掘·数据分析