The Tabula Muris Consortium., Overall coordination., Logistical coordination. et al. Single-cell transcriptomics of 20 mouse organs creates a Tabula Muris . Nature 562, 367--372 (2018).
论文地址:https://doi.org/10.1038/s41586-018-0590-4
代码地址:http://tabula-muris.ds.czbiohub.org
目录
摘要
在这里,我们展示了来自小鼠(Mus musculus)的单细胞转录组数据集,该数据集包含来自20个器官和组织的超过100,000个细胞。这些数据为细胞生物学提供了新的资源,揭示了在较少表征的细胞群体中的基因表达,并实现了在共享细胞类型(如来自不同解剖位置的T淋巴细胞和内皮细胞)之间基因表达的直接且受控的比较。大多数器官采用了两种不同的技术方法:一种是基于微流控液滴的3′端计数方法,能够以相对较低的覆盖度对成千上万的细胞进行调查;另一种是基于荧光激活细胞分选的全长转录本分析方法,能够高灵敏度和高覆盖度地表征细胞类型。这些累积的数据为转录组细胞生物学图谱奠定了基础。
引言
细胞是生物学中结构和功能的基本单位,多细胞生物已经进化出了具有专门功能的各种细胞类型。尽管细胞类型历史上通常通过形态学和表型进行表征,但分子方法的发展使得通过测量蛋白质或mRNA表达模式能够更加精确地描述它们的特性。技术进步还扩展了测量的多重化,使得高度并行的测序现在能够在单个细胞中列举几乎每个mRNA分子。这种方法为来自不同生物的细胞生物学和器官组成提供了新的见解。然而,尽管这些报告提供了对单个器官的宝贵表征,但由于不同实验室采用不同的实验技术,从不同动物收集的数据进行比较仍然具有挑战性。因此,尚不清楚这些数据是否可以合成作为生物学领域的更一般性资源。
在这里,我们报告了来自小鼠 Mus musculus 的细胞类型大全,我们将其称为 Tabula Muris,或"鼠类图谱"。 我们分析了来自同一只小鼠的多个器官,生成了一个在年龄、环境和表观遗传效应上都得到控制的数据集。这使得我们能够直接比较不同器官之间的细胞类型组成,并比较跨器官的共享细胞类型。该大全包含来自100,605个细胞的单细胞转录组数据,这些细胞来自三只雌性和四只雄性C57BL/6JN小鼠(3个月大,约相当于20岁的人类),涵盖了20个器官(图1a)。包括主动脉、膀胱、骨髓、大脑(小脑、皮层、海马和纹状体)、膈肌、脂肪(棕色脂肪、性腺脂肪、肠系膜脂肪和皮下脂肪)、心脏、肾脏、大肠、四肢肌肉、肝脏、肺脏、乳腺、胰腺、皮肤、脾脏、胸腺、舌头和气管等器官,这些器官来自同一只小鼠,并立即处理成单细胞悬浮液。所有器官都使用荧光激活细胞分选(FACS)进行单细胞分选,并且许多器官还加载到微流控液滴中(详见扩展数据和方法部分)。
所有数据、协议、分析脚本和一个交互式数据浏览器都公开可用(详情见"数据可用性"部分)。此次发布使得所有结果可以精确复制,便于深入分析(这些分析在此未完成),并为未来使用各种小鼠疾病模型的研究提供了比较框架。尽管这些数据绝不代表所有小鼠器官和细胞类型的完整表征,但它们为创建一个涵盖整个有机体的细胞多样性表示提供了初步草案。
定义器官特异性细胞类型
为了定义细胞类型,我们通过对细胞之间最具变异性的基因进行主成分分析(PCA),随后进行基于最近邻图的聚类分析,独立分析了每个器官 。然后,我们++使用已知标记物和在不同聚类之间差异表达的基因的聚类特异性基因表达来为每个聚类分配细胞类型注释++(扩展数据图1、2,补充表1)。我们为所有器官使用了标准注释方法;逐步的操作说明可以在补充材料《器官注释示例》中找到,以肝脏为例。每个器官的细胞类型描述和定义基因可在补充信息中查看。对于每个聚类,我们提供了细胞本体论(Cell Ontology)中的受控词汇注释,以促进跨实验的比较。这些细胞类型中的许多以前未曾在纯细胞群体中获得,我们的数据提供了有关其特征性基因表达谱的大量新信息。一些意外的发现包括Neurog3、Hhex和Prss53在成年胰腺中的潜在新作用、在四肢肌肉中表达Chodl的细胞群体、大脑内皮细胞的转录异质性、成年小鼠T细胞表达MHC II类基因,以及区分不同器官细胞类型的转录因子集。
方法学比较
我们使用两种方法进行单细胞RNA测序:基于FACS的细胞捕获和基于微流控液滴的捕获 (以下简称FACS方法和微流控液滴方法)。为了理解每种方法的技术偏差,我们在许多器官上都使用了这两种方法。总的来说,在质量控制后++,FACS方法保留了44,949个细胞++ ,++微流控液滴方法保留了55,656个细胞++。单细胞转录组被测序,FACS方法的平均测序深度为每个细胞814,488个读数,微流控液滴方法为每个细胞7,709个唯一分子标识符(UMIs)。方法比较显示了器官特异性的数据差异,包括分析的细胞数量(图1b,c)、每个细胞的读数(扩展数据图3a,c)和每个细胞的基因数(扩展数据图3b,d)。此外,在这两种方法中,最丰富的细胞类型是上皮细胞和白细胞,尽管FACS捕获了更多样化的细胞类型(扩展数据图4)。
任何单一的单细胞测序实验仅能提供细胞类型多样性和每个细胞类型基因表达的部分视图。我们通过将我们的两种测量方法与第三种方法(微孔井测序(microwell-seq))进行比较,展示了方法和实验之间预期的变异性。一个显著的特点是,不同器官和方法之间检测到的每个细胞的基因数存在变异。例如,膀胱中检测到的基因数中位数分别为:FACS方法约4,900个,微流控液滴方法约2,900个,微孔井测序约900个;而在肾脏中,分别为FACS方法1,400个、微流控液滴方法1,900个,微孔井测序方法500个。在膀胱、肝脏、肺脏、乳腺、气管、舌头和脾脏中,FACS方法每个细胞检测到的基因数几乎是微流控液滴方法的两倍,而在心脏和骨髓中,两种方法的检测基因数相当(扩展数据图5a)。这种差异可能不是由测序深度引起的,因为FACS和微流控液滴文库几乎都已饱和(扩展数据图5b)。在这些比较中,当一个基因被检测到时,如果有一个读数映射到该基因,我们将其视为"检测到",这是唯一可以将读数和UMI处理为等效值的标准。我们还发现,随着对可检测基因的读数或UMI阈值的提高,检测到的基因数量在不同器官之间类似地减少(扩展数据图6)。
接下来,我们调查了这三种方法在定义每个细胞聚类的基因时的一致性(方法部分)。正如预期的那样,FACS和微流控液滴方法显示出最接近的一致性,这可能是因为它们使用了相同的生物样本。然而,有几十个到几百个基因在所有方法中都能共同定义每个聚类(扩展数据图7,补充表2)。这表明,结合独立的数据集可以导致基因表达表征更加稳健。
脾脏和肾脏是我们没有进行基于标记分选的FACS实验的两个器官,这使我们能够比较不同方法之间细胞类型的数量和相对丰度。对于那些两种方法都能捕获的细胞类型,每种细胞类型的比例是相等的(皮尔逊相关系数:脾脏为0.99,肾脏为0.99)。然而,微流控液滴方法识别了FACS方法未能捕获的细胞类型,例如肾脏的系膜细胞和脾脏的树突状细胞及自然杀伤细胞。这部分可以通过细胞丰度和采样深度的差异来解释(微流控液滴方法为12,333个细胞,FACS方法为2,216个细胞,补充表1),也可能是方法之间细胞捕获和裂解偏差的结果。
由于FACS方法捕获的细胞较少,但每个细胞检测到的分子更多,我们进一步问了这两种方法是否在33种共享细胞群体的"整体"基因表达谱中达成一致(方法部分)。这些基因表达谱大体上具有相关性(皮尔逊相关系数:0.74--0.90),这表明尽管两种方法之间存在偏差,但两者都能够准确地再现细胞类型的平均基因表达谱。
跨器官的全局聚类
为了检测不同器官之间细胞的关系,我们通过t-SNE对所有FACS细胞进行了可视化,并采用无偏的图形聚类方法将它们分组(图2,扩展数据图8)。正如预期的那样,来自不同器官的细胞经常混合,54个簇中的25个包含来自不同器官的至少五个细胞(图3)。例如,簇3和簇48分别包含来自五个或更多器官的内皮细胞,而簇1和簇24包含来自四个或更多器官的间质和基质细胞。簇2包含来自脂肪、肢体肌肉、肺、脾脏、骨髓和肝脏的B细胞,还包括来自胸腺、心脏和肢体肌肉的注释为白细胞和淋巴细胞的细胞。这表明,细胞类型对基因表达的影响强于批次效应或解离协议的影响。
然而,仅仅通过簇内成员共存是无法得出不同器官的两个细胞群体代表相同或相似细胞类型的结论的;在任何给定的分辨率下,无偏聚类方法将相关的细胞分组的同时,也可能将不相关的细胞分在一起。因此,为了确定哪些簇由相关或不相关的细胞类型组成,我们计算了每个簇的异质性得分(方法),结果发现,前述生物学上合理的簇具有较低的得分(扩展数据图9)。相比之下,簇53中的星形胶质细胞和上皮细胞之间的异质性就像两随机细胞之间的差异。
除了这些异质群体,聚类还揭示了在同质群体中存在的小群体潜在的错误标注。例如,在簇3(由2,379个细胞组成)中,十个胸腺细胞被标注为"白细胞",但它们表达了Pecam1,这是一种内皮标志物。这是注释方案的一个可预测的伪影:因为在每个器官中,整个簇而不是单个细胞被注释,所以被算法归为更大群体的稀有细胞类型会被错误标注。这种情况似乎仅发生在小于大约30个细胞的群体中,这些群体占整体数据集的不到4%,并且代表了当前数据解释的灵敏度下限。
大多数相似细胞类型在跨器官和生物学重复实验中聚集在一起,这表明批次效应并不是数据集中变异的主要来源。我们的发现还表明,对于足够大的群体,手动注释细胞类型与无偏的转录组聚类是一致的。我们预计,随着多尺度比较算法的发展,将有助于发现普遍性和器官特异性的基因模块,进而识别这些共享的细胞类型。
为了展示跨器官共同细胞类型的研究示例,我们联合分析了所有注释为T细胞的FACS细胞,结果揭示了五个簇(图4)。簇0包含正在进行VDJ重排的胸腺细胞,特征是表达Rag1、Rag2和Dntt,并包括未承诺的双阳性细胞、T细胞(Cd4+和Cd8a+)。簇4主要包含增殖中的胸腺T细胞,这可能代表在VDJ重排后扩增的前T细胞。簇1-3主要包含单阳性T细胞(Cd4+或Cd8a+)。簇3包含Cd5hi胸腺T细胞,可能正在进行正选择,而簇2包含主要表达高亲和力IL2受体(编码基因Il2ra和Il2rb)的非胸腺T细胞,这表明它们已被激活。值得注意的是,它们还表达MHC II类基因(H2-Aa和H2-Ab1)。虽然在人的T细胞中已有已知发现,但在小鼠中MHC II类基因曾被认为仅限于专业抗原呈递细胞。最后,簇1也代表成熟的T细胞,但主要是脾脏中的。
全球转录因子分析
定义细胞身份的一个主要目标是理解其背后的调控网络。我们通过聚类每种细胞类型的平均基因表达谱,只使用数据集中表达的1,016个转录因子,来研究转录因子如何贡献于细胞类型身份(图5a)。结果树状图与使用所有表达基因生成的树状图非常相似,这表明转录因子可以用来重建已知的细胞本体关系(纠缠度=0.11;扩展数据图10a)。相比之下,当我们使用细胞表面标记、RNA剪接因子或这两组数据时,分析结果表明转录因子能够比其他因素更好地定义细胞类型。
我们随后分析了器官特异性的转录因子,通过对共享细胞类型的器官之间进行相关性分析(23),我们确定了136个转录因子,这些转录因子能够同时定义所有器官中的细胞类型(图5f,补充表3)。然后我们确定了能够区分每个单独细胞类型的转录因子集。这些集合的大小差异很大(从2个到813个转录因子),并且并不一定是每个细胞类型独特的(图5g--i,补充表4)。
这样的转录因子网络可能的一个应用是重新编程协议的设计。事实上,在已发布的方法中使用的转录因子在我们发现的细胞类型特异性转录因子集中也有出现(补充表5)。对于某些细胞类型,如肝细胞、卫星细胞和少突胶质细胞,这些重编程因子正是区分细胞类型的关键变量(图5g--i)。实际上,几乎所有重编程协议中使用的转录因子在我们的数据中也能指定目标细胞类型(补充表5),这表明我们的数据可以为新型重编程方案提供指导。
单细胞研究中的一个挑战:实验设计与技术选择
单细胞研究中的另一个挑战是如何在多种技术中选择合适的实验设计。基于液滴的技术在发现稀有细胞类型或状态方面具有一定的优势,特别是在需要大量细胞(数万)来重建整个有机体架构和发育谱系时25,26。FACS(荧光激活细胞分选)方法在小规模细胞群体(几十到几千个细胞)中提供较高的覆盖率,适用于富集特定或稀有细胞类型,并有助于研究低表达基因的细微异质性27、可变剪接15和序列变异分析28。两种方法的结合提供了潜力,例如通过将分选后的细胞放置于微流控液滴平台上,这可能同时满足细胞类型富集和成本因素的需求。
相关研究
最近,一项跨小鼠器官的互补性scRNA-seq研究已发表20。该数据集包含了四倍于我们数据的细胞数,并且包括一些我们数据中没有的样本类型,如新生儿和胎儿器官、细胞系、以及年轻成年小鼠的卵巢、外周血、胎盘、前列腺、小肠、胃、睾丸和子宫。然而,我们的FACS数据每个细胞包含的基因数是其四倍,并且我们分析了其他数据集中没有的多个器官20,例如主动脉、四个大脑区域、膈肌、四种脂肪类型、四个成人心脏腔室、成人休止期和生长期皮肤、舌头和气管。此外,我们研究的几个特点有助于复制和跨实验分析:所有数据、分析和代码均可免费获取;我们的网络门户网站可以同时查询所有器官的基因表达;我们使用标准的细胞本体术语注释细胞类型,从而实现跨器官和跨实验的分析;我们通过从同一小鼠收集所有器官来控制年龄和性别;所有器官在我们的数据中都有两个性别的代表;器官通过灌注处理,能够分析组织驻留免疫细胞;全长转录本数据使得转录因子、剪接变体和序列变异分析成为可能。
结论
总之,我们创建了一个涵盖20个小鼠器官的单细胞转录组数据集。这本《Tabula Muris》,或称"小鼠图谱",具有多种用途,包括发现新的假定细胞类型、在已知细胞类型中发现新的基因表达,并能够跨器官比较细胞类型。它还将作为健康年轻成年器官的参考,可用作当前和未来小鼠疾病模型的基线。尽管它并非对所有小鼠器官的详尽表征,但它提供了一个涵盖生物学中最广泛研究的器官的丰富数据集。《Tabula Muris》为小鼠中许多最重要的细胞群体提供了框架和描述,并为未来跨多种生理学学科的研究奠定了基础。