120万细胞大整合(自测+公共数据):scRNA-seq 构建乳腺细胞图谱的完整思路(附生信复现资源)

为什么同样的年龄,有些人患乳腺癌的风险更高?生育经历和基因突变又是如何从细胞层面重塑乳腺环境的?

2024年3月28日,《Nature Genetics》杂志发表了来自剑桥大学Walid T. Khaled和John C. Marioni团队的研究,他们通过构建单细胞图谱揭示了成人乳腺在不同生理条件下细胞状态的稳态偏移。今天我们就来拆解一下这篇生信文章: A single-cell atlas enables mapping of homeostatic cellular shifts in the adult human breast

研究概述

乳腺癌具有高度异质性,目前尚不清楚乳腺亚型在偏离稳态时如何导致这种异质性。该研究利用单细胞转录组测序技术,对来自55名女性捐赠者的80多万个细胞进行分析,建立了人类乳腺细胞图谱(HBCA)。通过对上皮、免疫和基质部分的41个细胞亚群进行鉴定,研究人员绘制了年龄、生育状况及BRCA1/2生殖系突变对乳腺细胞组成的影响。研究发现,即使在非癌组织中,BRCA1/2突变携带者的免疫细胞也已表现出免疫耗竭的特征,这表明免疫逃逸机制可能在肿瘤起始的极早期就已经出现。

实验设计

研究队列包括55名捐赠者:22例缩乳术样本、27例预防性乳房切除样本(含BRCA1/2突变或强家族史者)以及6例BRCA1突变者的对侧乳房切除样本。组织被预处理为富集上皮和富集间质/免疫的两个部分,随后通过10x Chromium平台进行单细胞捕获。对于上皮部分,还利用荧光激活细胞分选(FACS)富集了腔内祖细胞(LASP)。此外,研究团队还对30名捐赠者的样本进行了多重免疫荧光(Ultivue)验证。

研究结果

图1 :建立了涵盖55名捐赠者、整合健康记录与生活方式信息的单细胞图谱框架。


图2 :在上皮、基质和免疫三大类中鉴定出41个不同的细胞亚群及其特异性标记基因。


图3 :分析显示年龄增长主要引起上皮细胞比例偏移,而生育经历则导致更广泛的间质和免疫微环境重塑。


图4 :BRCA1/2突变携带者乳腺组织中免疫细胞比例显著上升,并伴有促炎性CD8 TC1细胞的富集。


图5 :高风险捐赠者的上皮细胞和巨噬细胞中PDL1表达增加,且CD8 T细胞表现出TIGIT、LAG3等耗竭标志物上调。


图6 :通过整合七个大型公共数据集,构建出包含210万个细胞的集成乳腺细胞图谱(iHBCA),从而实现不同单细胞数据集的细胞类型注释比较。

数据分析

生信分析

该研究涉及的组学技术仅为单细胞RNA测序(scRNA-seq)。

分析流程
    1. 数据预处理:使用CellRanger进行条形码分配、解复用和UMI定量,通过Vireo区分 spike-in细胞,借助DropletUtils识别有效细胞,利用Scrublet结合过聚类方法去除双细胞,经过质量控制筛选出801,360个细胞用于后续分析。
    1. 批次校正与降维聚类:基于高可变基因,使用scVI工具进行批次校正并生成潜在维度,构建KNN图后通过UMAP进行降维,采用Leiden聚类实现细胞亚群划分。
    1. 细胞注释:依据已知标志基因、质量控制指标和差异基因分析结果,对聚类得到的细胞亚群进行注释,明确上皮、基质和免疫细胞区室的各细胞类型及亚群。
    1. 差异分析:使用edgeR进行差异基因表达分析,采用Milo进行细胞亚群丰度差异分析,探究不同风险因素下的基因表达和细胞组成变化。
    1. 其他分析:通过CellChat预测细胞间相互作用,利用inferCNV推断拷贝数变异,借助CellTypist构建分类器实现不同数据集的细胞类型映射,整合多个数据集形成iHBCA。

统计分析

    1. 差异表达分析采用edgeR的负二项广义对数线性模型,以FDR控制假发现率。
    1. 细胞丰度差异分析使用Milo的邻域丰度方法,通过广义线性模型校正年龄、生育史等混杂因素。
    1. 免疫荧光和多重免疫染色结果的统计检验采用单因素非参数Wilcoxon检验,计算P值评估差异显著性。

总结

研究意义

该研究构建了全面的人类乳腺细胞图谱,明确了年龄、生育史和BRCA1/2基因突变对乳腺细胞组成和状态的影响机制,发现了BRCA1/2突变携带者乳腺组织中免疫耗竭的早期特征,为乳腺癌风险评估、早期检测和预防策略的开发提供了重要的理论基础和资源支撑。

文章复现

这篇文章的原始数据和生信分析代码都公开了,非常全面。

原始数据:

生信分析代码:


推荐阅读

中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。

最佳Galaxy生信云平台教程:从入门到精通(图文版)

转录组分析流程和工具大全(最强总结)

全网最佳WGCNA分析教程,一键完成

一文搞懂GSEA富集分析

一文详解细菌耐药性生信分析:从下机数据到耐药基因鉴定

一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南

推荐课程

我们还为进阶用户提供高质量培训课程,欢迎参加:

RNA-seq数据分析实战 | 2026年第2期,开启你的生信学习之旅

相关推荐
无心水1 小时前
【任务调度:数据库锁 + 线程池实战】2、MySQL 8.0+ vs PostgreSQL:SKIP LOCKED 终极对决,谁才是分布式调度的王者?
java·人工智能·后端·面试·架构
wanghao6664551 小时前
向量相似度计算全解析
人工智能·机器学习
hqyjzsb1 小时前
企业采购AI培训服务的供应商评估体系与选型方案
人工智能·职场和发展·创业创新·学习方法·业界资讯·改行学it·高考
是小蟹呀^1 小时前
GAN(生成对抗网络):让AI学会“造假”的艺术
机器学习·生成对抗网络
Eloudy1 小时前
CHI 开发备忘 02 记 -- CHI spec 02 事务
人工智能·ai·arch·hpc
呆萌很1 小时前
上采样与下采样区别
人工智能
信创天地1 小时前
国产化分布式服务框架双雄:Dubbo与Spring Cloud Alibaba 服务调用解决方案全解析
人工智能·系统架构·开源·dubbo·运维开发·risc-v
Wect1 小时前
LeetCode 106. 从中序与后序遍历序列构造二叉树:题解+思路拆解
前端·算法·typescript
qq_454245031 小时前
上下文驱动的 ECS:一种反应式实体组件系统扩展
数据结构·算法·c#