120万细胞大整合(自测+公共数据):scRNA-seq 构建乳腺细胞图谱的完整思路(附生信复现资源)

为什么同样的年龄,有些人患乳腺癌的风险更高?生育经历和基因突变又是如何从细胞层面重塑乳腺环境的?

2024年3月28日,《Nature Genetics》杂志发表了来自剑桥大学Walid T. Khaled和John C. Marioni团队的研究,他们通过构建单细胞图谱揭示了成人乳腺在不同生理条件下细胞状态的稳态偏移。今天我们就来拆解一下这篇生信文章: A single-cell atlas enables mapping of homeostatic cellular shifts in the adult human breast

研究概述

乳腺癌具有高度异质性,目前尚不清楚乳腺亚型在偏离稳态时如何导致这种异质性。该研究利用单细胞转录组测序技术,对来自55名女性捐赠者的80多万个细胞进行分析,建立了人类乳腺细胞图谱(HBCA)。通过对上皮、免疫和基质部分的41个细胞亚群进行鉴定,研究人员绘制了年龄、生育状况及BRCA1/2生殖系突变对乳腺细胞组成的影响。研究发现,即使在非癌组织中,BRCA1/2突变携带者的免疫细胞也已表现出免疫耗竭的特征,这表明免疫逃逸机制可能在肿瘤起始的极早期就已经出现。

实验设计

研究队列包括55名捐赠者:22例缩乳术样本、27例预防性乳房切除样本(含BRCA1/2突变或强家族史者)以及6例BRCA1突变者的对侧乳房切除样本。组织被预处理为富集上皮和富集间质/免疫的两个部分,随后通过10x Chromium平台进行单细胞捕获。对于上皮部分,还利用荧光激活细胞分选(FACS)富集了腔内祖细胞(LASP)。此外,研究团队还对30名捐赠者的样本进行了多重免疫荧光(Ultivue)验证。

研究结果

图1 :建立了涵盖55名捐赠者、整合健康记录与生活方式信息的单细胞图谱框架。


图2 :在上皮、基质和免疫三大类中鉴定出41个不同的细胞亚群及其特异性标记基因。


图3 :分析显示年龄增长主要引起上皮细胞比例偏移,而生育经历则导致更广泛的间质和免疫微环境重塑。


图4 :BRCA1/2突变携带者乳腺组织中免疫细胞比例显著上升,并伴有促炎性CD8 TC1细胞的富集。


图5 :高风险捐赠者的上皮细胞和巨噬细胞中PDL1表达增加,且CD8 T细胞表现出TIGIT、LAG3等耗竭标志物上调。


图6 :通过整合七个大型公共数据集,构建出包含210万个细胞的集成乳腺细胞图谱(iHBCA),从而实现不同单细胞数据集的细胞类型注释比较。

数据分析

生信分析

该研究涉及的组学技术仅为单细胞RNA测序(scRNA-seq)。

分析流程
    1. 数据预处理:使用CellRanger进行条形码分配、解复用和UMI定量,通过Vireo区分 spike-in细胞,借助DropletUtils识别有效细胞,利用Scrublet结合过聚类方法去除双细胞,经过质量控制筛选出801,360个细胞用于后续分析。
    1. 批次校正与降维聚类:基于高可变基因,使用scVI工具进行批次校正并生成潜在维度,构建KNN图后通过UMAP进行降维,采用Leiden聚类实现细胞亚群划分。
    1. 细胞注释:依据已知标志基因、质量控制指标和差异基因分析结果,对聚类得到的细胞亚群进行注释,明确上皮、基质和免疫细胞区室的各细胞类型及亚群。
    1. 差异分析:使用edgeR进行差异基因表达分析,采用Milo进行细胞亚群丰度差异分析,探究不同风险因素下的基因表达和细胞组成变化。
    1. 其他分析:通过CellChat预测细胞间相互作用,利用inferCNV推断拷贝数变异,借助CellTypist构建分类器实现不同数据集的细胞类型映射,整合多个数据集形成iHBCA。

统计分析

    1. 差异表达分析采用edgeR的负二项广义对数线性模型,以FDR控制假发现率。
    1. 细胞丰度差异分析使用Milo的邻域丰度方法,通过广义线性模型校正年龄、生育史等混杂因素。
    1. 免疫荧光和多重免疫染色结果的统计检验采用单因素非参数Wilcoxon检验,计算P值评估差异显著性。

总结

研究意义

该研究构建了全面的人类乳腺细胞图谱,明确了年龄、生育史和BRCA1/2基因突变对乳腺细胞组成和状态的影响机制,发现了BRCA1/2突变携带者乳腺组织中免疫耗竭的早期特征,为乳腺癌风险评估、早期检测和预防策略的开发提供了重要的理论基础和资源支撑。

文章复现

这篇文章的原始数据和生信分析代码都公开了,非常全面。

原始数据:

生信分析代码:


推荐阅读

中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。

最佳Galaxy生信云平台教程:从入门到精通(图文版)

转录组分析流程和工具大全(最强总结)

全网最佳WGCNA分析教程,一键完成

一文搞懂GSEA富集分析

一文详解细菌耐药性生信分析:从下机数据到耐药基因鉴定

一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南

推荐课程

我们还为进阶用户提供高质量培训课程,欢迎参加:

RNA-seq数据分析实战 | 2026年第2期,开启你的生信学习之旅

相关推荐
AI周红伟5 小时前
All in Token, 移动,电信,联通,阿里,百度,华为,字节,Token石油战争,Token经济,百度要“重写”AI价值度量
大数据·人工智能·机器学习·百度·copilot·openclaw
AI周红伟5 小时前
Token经济学:AI时代的新货币战争,All in Token, 新时代的石油战争,华为,阿里,百度,字节的石油战争
大数据·人工智能·机器学习·百度·华为·copilot·openclaw
YUDAMENGNIUBI6 小时前
day20_逻辑回归
算法·机器学习·逻辑回归
XM_jhxx8 小时前
±0.03mm的精度怎么保证?翌东塑胶用AI赋能质量管控升级
人工智能
阿正的梦工坊9 小时前
深入理解 PyTorch 中的 unsqueeze 操作
人工智能·pytorch·python
澈20710 小时前
C++并查集:高效解决连通性问题
java·c++·算法
秦歌66610 小时前
DeepAgents框架详解和文件后端
人工智能·langchain
测试员周周11 小时前
【Appium 系列】第06节-页面对象实现 — LoginPage 实战
开发语言·前端·人工智能·python·功能测试·appium·测试用例
霸道流氓气质11 小时前
基于 Milvus Lite 的 Spring AI RAG 向量库实践方案与示例
人工智能·spring·milvus
旖-旎11 小时前
深搜练习(单词搜索)(12)
c++·算法·深度优先·力扣