PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!

生信碱移

bulk+单细胞重要细胞

PACells:使用单细胞结合 bulk 转录组临床表型信息筛选疾病/预后相关细胞,兼容 ATAC-seq 与转录组两种数据类型。

单细胞组学可以直接在单细胞级别研究疾病状态下的病理机制。除了大家都比较熟悉的转录组以外,还有单细胞转座酶可及染色质测序(scATAC-seq),后者能够分析不同细胞的染色质开放状态。尽管如此,常规分析往往还是三三两两个样本的差异比较,其实还是比较难泛化到大规模的人群队列中,很多高分文章也都是靠着大规模的数据量堆上来作为卖点发了不少 CNS。

bulk 测序具有更丰富的临床注释与更充足的样本量,不过是样本级别的数据因而缺乏单细胞分辨率。最近的一个热点那肯定是 bulk 与单细胞的联合分析,不过肯定不是差异+单细胞注释分群,而是直接意义上的通过算法建模两种数据。比如小编去年年底分享的 scSurv 算法,就是直接建模 bulk 预后与单细胞基因表达数据用来筛选预后相关的单细胞群体,感兴趣的铁子可以此处点击阅读

图:scSurv方法示意。

不过另外一个层面上,从染色质层面进行分析的单细胞 ATAC 数据就更加稀疏,可以说很难直接做表型关联。今天给各位佬铁分享一篇今年4月10日刚刚见刊 AJHG [IF 8.1] 的单细胞算法 PACell,能够通过 bulk 数据在 scATAC-seq 里,找到与临床表型的少数关键细胞状态,并且还能同时适用于单细胞转录组测序数据。

DOI: 10.1016/j.ajhg.2026.03.012

PACells 的算法原理其实还是比较好理解的,说白了其实就是通过相似性把 bulk 样本中的临床表型信息传递到单细胞层面。需要的输入数据是:单细胞矩阵、bulk 矩阵以及对应的表型信息。其中,相似性的计算是基于单细胞和 bulk 都有的信息。对于单细胞转录组,其实就是共有的基因;对于 ATAC 数据而言,则是把 bulk 和单细胞的 Peak 区域特征转换到共同的转录因子活性空间。

在此基础上,根据下面的流程构建 bulk 样本与每个单细胞之间的相似性矩阵,再衡量每个细胞与目标表型之间的关联强度,最后将候选细胞与表型一起构建一个回归模型,从而识别出与疾病状态、突变、预后或治疗反应相关的关键细胞群体。

图:PACells 框架概览及其在包含疾病与健康样本的 scATAC-seq 数据集中的表现。图 a 展示 PACells 通过整合 bulk 与单细胞数据识别关键细胞状态的总体思路;图 b 和图 c 展示输入数据类型,包括单细胞计数矩阵、带临床表型注释的 bulk 计数矩阵以及二分类、连续型或生存型表型;图 d 展示共享转录因子特征矩阵的构建;图 e 展示 bulk 样本与单细胞之间相似性矩阵的计算;图 f 展示基于相关性排序的候选细胞筛选过程;图 g 展示结合表型与候选细胞相似性矩阵的惩罚回归建模;图 h 展示通过正系数选出目标细胞状态的输出方式;图 i 展示下游应用,包括预测性分子特征、通路分析、基序分析与生存分析;图 j 比较 10 种方法识别出的细胞中疾病状态细胞所占比例,显示 PACells 整体表现更优。

分析层面,作者首先证明了 PACells 能够在阿尔兹海默症 (AD) 中识别出炎症相关的小胶质细胞亚群作为 AD 关联细胞群体,通路富集分析显示升高的NOD-like/TNF/MAPK 通路活性,在此基础上还进行了 motif 分析以及方法的比较:

图:PACells 在 AD 中的识别结果。图 a 展示 AD 小胶质细胞的 UMAP 分布,红色为 PACells 识别出的 AD 相关细胞;图 b 为目标细胞与背景细胞差异开放峰的火山图,显示显著上调与下调区域;图 c 展示这些差异峰关联基因的 KEGG 通路富集结果,突出炎症相关信号通路;图 d 比较不同方法分子特征在 4 个独立验证队列中区分 AD 与健康对照的统计显著性;图 e 展示 PACells 识别细胞与背景细胞之间前 30 个差异 TF 的活性热图;图 f 和图 g 分别展示代表性 TF 基序序列以及在目标细胞与背景细胞中的偏离分数分布,包括 SPI1、ETV5、ETS1 和 KLF15;图 h 展示 KLF15 在 4 个独立验证队列中的表达差异,提示其与 AD 具有稳定相关性。

除了疾病的有无这种表型,作者还在胶质母细胞瘤中,使用PACells 识别出与预后相关的细胞亚群,同样是富集以及 motif 的分析展示,不过还多了多队列的生存曲线:

图:PACells 对与较差预后相关的胶质母细胞瘤细胞状态的分析。图 a 展示胶质母细胞瘤细胞在 UMAP 空间中的分布,红色为与较差生存相关的目标细胞;图 b 为目标细胞与背景细胞差异开放峰的火山图,并标出代表性邻近基因;图 c 展示按 RGS3 与 LHFPL3 表达分组后的 3 个验证队列总体生存曲线;图 d 展示按 PACells 导出的预后分子特征分组后的总体生存曲线,说明该特征具有稳定的风险分层能力;图 e 为前 30 个差异 TF 活性热图;图 f 展示目标细胞中富集的代表性 TF 基序,突出 AP-1 相关信号;图 g 展示 FOSL2 高低表达分组后的生存曲线,支持间质样调控程序与不良预后之间的联系。

除了 ATAC 数据以外,作者也在黑色素瘤的单细胞转录组的数据中进行了示例分析,可以看到与其它方法相比更加联系的疾病关联细胞鉴定。具体来说,PACells 找到了一个与免疫治疗应答相关的 T 细胞亚群,其基因特征包括 CCL5, CCR5, CCL4, NKG7 (依旧常客)。

图:PACells 在转录组数据上的表现。图 a 和图 b 分别展示黑色素瘤微环境细胞的原始注释和不同方法识别出的目标细胞分布;图 c 比较各方法选出细胞的细胞类型组成比例,显示 PACells 结果主要集中于 T 细胞;图 d 展示 PACells 目标细胞与背景细胞之间的差异表达火山图;图 e 展示关键免疫相关基因在目标细胞中的表达升高情况,包括细胞因子和细胞毒性相关分子;图 f 展示差异表达基因的 KEGG 通路富集,突出免疫激活和细胞黏附相关信号;图 g 比较不同方法分子特征在独立免疫治疗验证队列中区分 ICB 应答者与非应答者的能力,显示 PACells 具有更好的整体外部预测性能。

使用的话其实还是蛮简单的,参数还是非常清晰,下面分别是ATAC-seq 和转录组的简单示例:

  • • 转录组

    library(PACells)

    sc_mat: genes x cells; bulk_mat: genes x samples

    sc_res_rna <- PACells.RNA(
    sc_dataset = sc_mat,
    bulk_dataset = bulk_mat,
    phenotype = phenotype,
    family = "binomial"
    )

    table(sc_res_rna$PACells_label)

  • • ATAC-seq

    library(PACells)

    Prepare TF motif set

    motifs <- getMotifs(species = "Homo sapiens")

    phenotype should be aligned to bulk samples (columns of bulk_dataset)

    sc_res <- PACells(
    sc_dataset = sc_dataset,
    bulk_dataset = bulk_dataset,
    phenotype = phenotype,
    motifs = motifs,
    family = "binomial"
    )

    table(sc_res$PACells_label)

作者其实提供了正文分析的例子,大家可以自行阅读学习:

还是很有价值的

看着是R语言的方法

用着可能舒服点

相关推荐
workflower1 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
智者知已应修善业1 小时前
【51单片机中的打飞机设计】2023-8-25
c++·经验分享·笔记·算法·51单片机
GitCode官方1 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT2 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造
流年似水~2 小时前
MCP协议实战:从零搭建一个让Claude能“看见“数据库的工具服务
数据库·人工智能·程序人生·ai·ai编程
jay神2 小时前
VisDrone2019-DET 无人机小目标检测数据集
人工智能·深度学习·yolo·目标检测·计算机视觉·毕业设计·无人机
乔江seven2 小时前
【李沐 | 动手学深度学习】17 深度学习硬件:CPU 和 GPU
人工智能·深度学习·深度学习硬件·cpu和gpu
深海鱼在掘金2 小时前
深入浅出 LangChain —— 第二章:环境搭建与快速上手
人工智能·typescript·langchain
哥布林学者2 小时前
深度学习进阶(十三)可变形卷积 DCN
机器学习·ai