
转座酶可及性染色质测序(Assay of Transposase Accessible Chromatin sequencing,ATAC-seq)被广泛应用于染色质生物学研究,但目前尚未有对其分析工具的全面综述。
本文探讨了 ATAC-seq 数据分析的主要步骤、利用多组学数据重构转录调控网络的方法,以及单细胞 ATAC-seq(scATAC-seq)的潜力。
引言
哺乳动物 DNA 通过三个主要层级进行高度浓缩:第一层级是核小体,核小体进一步折叠形成染色质,最终构成第三层级 ------ 染色体 [1-6]。染色质可在转录活跃的常染色质和转录沉默的异染色质之间动态转换 [7,8]。DNA 浓缩的三个层级及其相互作用共同参与基因调控过程。
近年来,基因调控研究聚焦于表观遗传学领域。目前已开发出多种实验方法来解析表观遗传图谱,主要有:
-
• ATAC-seq,检测染色质可及性的转座酶可及性染色质测序;
-
• ChIP-seq,检测转录因子(TF)结合和组蛋白修饰的染色质免疫沉淀测序;
-
• DNase-seq,DNase I 超敏位点测序;
-
• FAIRE-seq,甲醛辅助调控元件分离测序;
-
• MNase-seq,检测核小体定位和占位的微球菌核酸酶测序。
ATAC-seq 自 2013 年首次被报道以来,已获得广泛应用。经过整理的 ATAC-seq 数据集和相关出版物数量呈指数级增长,这表明其在解决各类生物学问题中的价值(图 1a)。图 3a 展示了这一前沿技术在基础研究和转化研究中的应用示意图。简而言之,ATAC-seq 利用基因工程改造的高活性 Tn5 转座酶,该酶可同时切割开放染色质并产生 9 bp 的交错切口,同时将高通量测序接头连接到这些区域。在此过程中,切口会被修复,形成 9 bp 的重复序列 [30,31]。随后进行双端测序,以提高这些开放区域的独特比对率 [32]。

尽管 ATAC-seq 具有简便性和稳健性,但目前存在一个主要障碍:专门针对 ATAC-seq 数据开发的生物信息学分析工具较少 [32,36]。研究人员通常假设 ATAC-seq 数据特征与 ChIP-seq 和 DNase-seq 相似,因此直接采用后两种技术的分析工具 [37]。然而,这一假设尚未经过系统验证。
本综述将涵盖流程图(图 2)中列出的四个最重要步骤:
-
• 预处理(质量控制(QC)与序列比对);
-
• 核心分析(峰识别);
-
• 针对峰、基序、核小体和转录因子足迹的高级分析;
-
• 整合多组学数据以重构调控网络。
预处理:质量控制与序列比对
ATAC-seq 分析的第一步包括比对前质量控制、测序读数与参考基因组的比对,以及比对后质量控制与数据处理(图 2a)[32]。

比对前质量控制
可用的工具有:FastQC、Cutadapt、Trimmomatic 等;
序列比对
下机数据经过质控后,可以使用短序列比对工具将干净 reads 比对到参考基因组,可用软件:BWA、Bowtie2。
比对后处理与质量控制
序列比对后,为了后续分析结果更加可靠,减少假阳性,应该做如下处理:
-
• samtools 或 picard 收集比对结果 BAM 文件的基本指标:独特映射读数 / 比率、重复读数百分比和片段大小分布;
-
• 去除配对不当或映射质量低的读数;
-
• 线粒体基因组由于缺乏染色质包装而具有更高的可及性 [52],而 ENCODE 黑名单区域 [53,54] 通常具有极高的读数覆盖率,这些区域的读数也应被剔除 [33]。
-
• 重复读数可能源于 PCR 重复,去除这些读数可显著提高生物学可重复性 [48]。
还需要评估一些 ATAC-seq 特有的质量指标。通常,成功的 ATAC-seq 实验产生的片段大小分布图应显示出递减的周期性峰,这些峰分别对应:
-
• 核小体缺失区域(nucleosome-free region,NFR)(<100 bp);
-
• 单核小体、双核小体和三核小体区域(分别约为 200、400、600 bp)(图 1b)[9,55]。
预计 NFR(核小体缺失区域)的片段会在基因的转录起始位点(TSS)附近富集,而与核小体结合区域的片段则会在 TSS 处显著减少,同时在 TSS 两侧区域呈现轻微富集。可使用 ATACseqQC 工具 [55] 评估这些指标。
最后,为了校正 Tn5 转座酶切口修复产生的 9 bp 重复序列,并实现转录因子足迹和基序相关分析的碱基对分辨率,应对正链和负链的读数分别进行 + 4 bp 和 - 5 bp 的偏移 [9,33,56]。
总结一下,我们建议 ATAC-seq 数据处理的开始流程为:FastQC→trimmomatic→BWA-MEM→ATACseqQC。根据我们的经验,这一流程表现良好。

核心分析:峰识别
ATAC-seq 数据分析的第二个主要步骤是鉴定可及性区域(也称为峰),这是进行高级分析的基础。ChIP-seq [58,59] 和 DNase-seq [60] 的类似流程已得到全面综述。
目前,MACS2 是 ENCODE ATAC-seq 流程的默认峰识别工具。据我们所知,HMMRATAC 是唯一专门用于 ATAC-seq 的峰识别工具 [61]。尽管 HMMRATAC 的计算强度更大,但它的性能优于 MACS2 和 F-seq,同时还能提供额外的核小体定位信息。
其他所有工具均源自 ChIP-seq 和 DNase-seq,其开发假设是 ATAC-seq 的峰模式具有相同特性。
与 ChIP-seq 不同,ATAC-seq 的输入对照(其中 Tn5 转座酶随机切割无蛋白结合的 DNA)通常难以获得,因为获得相当覆盖率的测序成本较高。因此,需要输入对照的峰识别工具对于 ATAC-seq 并不实用。
此外,ATAC-seq 的双端片段直接堆积既代表无核小体区域,也代表核小体结合区域(图 3a)。可通过堆积来自无核小体区域的短片段或使用偏移 - 延伸方法(该方法尝试对通过延伸大小平滑后的切割事件进行计数)来检测开放染色质(图 3b,右侧框)[61,62]。这种方法更具通用性,因为它几乎可应用于所有 ChIP-seq 峰识别工具,且不受数据片段大小的影响。
其他需要考虑的因素包括峰识别工具是否校正 Tn5 切割偏倚,以及如何处理生物学重复样本。与 DNase-seq 类似,Tn5 的酶切作用会因结合偏好性而引入偏倚 [30,31,77],这种偏倚与 GC 含量相关,因此在峰识别时应进行校正 [22,56]。
生物学重复样本有助于提高可重复性并减少假阳性峰。大多数工具可通过合并原始读数或组合单个样本的峰集来扩展至重复样本分析。也可使用混合模型整合重复样本 [72]。
迄今为止,尚未有针对 ATAC-seq 峰识别工具的全面基准测试研究。我们建议使用得到积极支持的工具(如 MACS2 和 HOMER )进行峰识别;如果计算资源充足,可使用 HMMRATAC 进行 ATAC-seq 峰识别。
高级分析
峰分析
由于 ATAC-seq 本质上可揭示转录调控的多个方面,因此第三个主要步骤涉及从四个不同层面进行解读:峰、基序、核小体和转录因子足迹。
峰差异分析
目前,尚未开发出专门用于 ATAC-seq 数据的峰差异分析工具。一种直接的方法是找到候选区域(共有峰或基因组分箱),对这些区域的片段进行标准化和计数,然后通过统计方法与其他条件进行比较 [80]。这一过程可手动完成,也可使用自动化工具(如基于共有峰的工具或基于滑动窗口的工具)(图 4b)。
目前,大多数研究假设 ATAC-seq 在峰区域的读数分布符合负二项分布,与 RNA-seq 数据一致。然而,尚未有针对 ATAC-seq 数据的基于形状的差异分析工具。但我们认为整合形状信息将改善峰差异分析。
尽管如此,考虑到重复样本处理、对外部峰识别工具的依赖性以及后端统计方法,csaw 由于其易于解释的 edgeR 框架,值得作为首选工具进行尝试。
峰注释
获得峰集后,对峰进行注释可将染色质可及性与基因调控关联起来。通常,峰通过最近的基因或调控元件进行注释。HOMER、ChIPseeker [92] 和 ChIPpeakAnno [93] 被广泛用于将峰分配给最近或重叠的基因、外显子、内含子、启动子、5' 非翻译区(UTR)、3' 非翻译区(UTR)和其他基因组特征。
通常,ATAC-seq 的峰代表不同顺式调控元件的混合体,包括增强子和启动子 [12]。获得基因组特征列表(如最近的基因)后,可使用基因本体论(GO)[94]、京都基因与基因组百科全书(KEGG)[95] 和 Reactome [96] 等数据库进行功能富集分析。总体而言,峰注释可为进一步研究生成具有生物学意义和功能意义的结果。
基序分析
尽管峰注释提供了功能解读,但它并未直接解释潜在的机制。开放染色质可通过转录因子影响转录过程 ------ 转录因子通过识别并结合 DNA 上的特定序列来促进转录。这种序列被称为基序,结合位置被称为转录因子结合位点(TFBS)。
人类中约有 1600 种转录因子,其中超过一半的转录因子的基序已通过实验或计算方法获得 [97]。
大多数转录因子需要染色质处于可及状态才能结合,而某些先锋转录因子可结合到可及性较低的核小体 DNA 上 [98,99]。转录因子通过与组蛋白或非组蛋白竞争 [100,101] 以及与辅因子合作 [102] 来调控转录。
因此,了解基序的使用或活性变化可能有助于解析潜在的调控网络,并识别关键调控因子 [104]。基于基序或转录因子的分析方法主要有两类:基于序列的基序频率或活性预测,以及基于足迹的转录因子占位分析(下一节将讨论)。
基序数据库与扫描
常用的数据库有:
-
• JASPAR [105])包含多个物种的基序信息;
-
• 包含真核生物转录因子基序的 CIS-BP [108] 和 TRANSFAC [109]
-
• 专注于人类和小鼠的 HOCOMOCO [110]
-
• 专门针对大肠杆菌的 RegulonDB [111]
然而,遗憾的是,目前尚无包含全面且一致的基序信息的中央数据库。
基序富集与活性分析
基于上述基序搜索工具,可获得每个峰区域中基序的位置和频率,并将其与随机背景或其他条件进行比较。
迄今为止,所有提到的工具均通过峰区域内的序列间接预测潜在转录因子结合位点。此类转录因子结合位点可能包含大量假阳性,且可能不完整并存在混淆。这是因为并非所有转录因子都已鉴定出基序,且同一家族的转录因子可能共享非常相似的基序 [125]。此外,预测的富集或活性变化可能具有微小的生物学意义,这会阻碍对基于序列的基序分析结果的解读。
足迹分析
解析转录因子调控的另一种方法是利用足迹分析。在 ATAC-seq 中,足迹指活跃转录因子结合 DNA 后,在其结合位点内抑制 Tn5 酶切割所形成的模式。这会在开放染色质区域留下相对稀疏的信号(图 3a)[47, 126, 127]。因此,通过活跃结合转录因子的足迹,可构建特定样本专属的调控网络。
然而,ATAC-seq 足迹分析面临诸多挑战。首先,在预处理步骤中,为了准确检测足迹,需要对原始读数进行偏移,以校正 Tn5 转座酶切口修复产生的 9 bp 重复序列 [9,33]。其次,由于 Tn5 的结合偏好性 [32,128] 和瞬时转录因子结合的弱信号 [129],足迹检测在实验和计算方面都具有一定难度 [130]。
DNase-seq 足迹分析也面临类似挑战,不同之处在于酶切偏倚。然而,仅有少数足迹分析工具已在 ATAC-seq 中进行了测试,且尚未进行系统评估 [48,131,132]。
足迹分析工具主要分为两类:从头方法和基序中心方法。从头方法根据典型足迹模式(峰 - 谷 - 峰)预测峰中的所有足迹位点。然后,这些潜在足迹位点用于匹配已知基序或识别新基序。相反,基序中心方法需要输入先验转录因子结合位点,并使用有监督或无监督方法将这些位点区分为结合位点或非结合位点(表 1)。
核小体定位
核小体由组蛋白八聚体和大约 147 bp 的 DNA 组成(图 3a),并通过改变染色质可及性来影响转录因子结合 [2,103,148]。在标准 ATAC-seq 文库中,较长的片段对应于核小体相关区域(图 3a)[9]。
已有研究开发出用于检测这些核小体相关片段富集区域的分析工具。然而,Schep 等人表明,由于开放染色质区域之外的读数覆盖率较低,ATAC-seq 中的核小体检测比 MNase-seq 数据更具挑战性 [149]。目前,两种有用的 ATAC-seq 核小体检测专用工具是:HMMRATAC 和 NucleoATAC。
整合多组学数据以重构调控网络
除了我们迄今为止阐述的 ATAC-seq 数据分析的特定要求外,将 ATAC-seq 与其他高通量测序技术(如 RNA-seq 和 ChIP-seq)相结合,以理解基因调控,正受到越来越多的关注。
与 ChIP-seq 的整合
由于开放染色质是大多数转录因子结合的先决条件,ATAC-seq 峰通常与转录因子 ChIP-seq 峰重叠,但通常更宽。因此,在同一实验系统中,转录因子 ChIP-seq 和 ATAC-seq 可相互验证彼此的质量和可靠性 [157]。
与 RNA-seq 的整合
研究人员还感兴趣的是,通过 RNA-seq 定性或定量地将染色质可及性变化与基因表达变化相关联。直观地说,研究人员可发现差异表达基因(DE 基因)在其相应转录起始位点周围是否也具有显著的差异染色质可及性 [159]。此外,可推断差异表达基因受开放染色质中与特定基序或足迹相关的转录因子调控。
重构调控网络
虽然 ATAC-seq 可同时检测数百种转录因子基序的出现或足迹,但通过将足迹 / 基序与下游基因关联,有可能重构细胞特异性调控网络。类似方法已在 DNase-seq 中得到证实(图 3c)[104,163]。
ATAC-seq 数据的分析流程
对整合分析流程的需求日益增长,已有研究开发出多个分析流程,但这些流程通过整合前面讨论的工具,在下游分析方面有不同的侧重点。
例如,esATAC [170] 和 CIPHER [171] 侧重于峰注释,而图形用户界面(GUI)工具 GUAVA [172] 侧重于差异峰检测和功能注释。ATAC2GRN [48] 是另一个专门针对足迹分析优化的流程。
这些流程将为编程技能有限的研究人员提供有用且便捷的切入点,以探索 ATAC-seq 数据。然而,这些流程的一个普遍问题是参数调整缺乏灵活性。大多数参数是根据经验硬编码的,因为随着工具数量的增加,参数组合呈指数级增长,这使得流程难以针对任何给定场景进行修改。
总体而言,带有可视化和用户界面的流程更适合非编程人员探索数据。
编者注:这里不得不提 Galaxy 平台的 ATAC-seq 流程了,流程化的界面设计,方便无编程经验的人员使用,如下图。
单细胞 ATAC-seq
当前,尽管单细胞 ATAC-seq 技术优势显而易见,但仍面临挑战。成本和时间高效的单细胞技术以及生物信息学工具仍是活跃的研究和开发领域。
未来展望与结论
近年来,ATAC-seq 发展迅速,已成为研究染色质可及性的首选方法。目前已有优化的实验方案,适用于单细胞、血液样本和冷冻组织,并具有更高的信噪比 [26,33-35,178]。尽管实验方案取得了进展,但生物信息学分析工具的发展较为缓慢,尚未确定全面的分析流程。这对 ATAC-seq 结果的解读构成了当前和持续的障碍。
总之,ATAC-seq 是一种信息丰富的实验方法,迫切需要专用的生物信息学分析工具,以进一步探索染色质状态、转录因子足迹、核小体定位和调控网络重构。
作为起点,我们建议研究人员可构建一个有效的工作流程:
-
• 预处理使用 FastQC、trimmomatic 和 BWA-MEM
-
• 峰识别使用 MACS2
-
• 对于高级分析
-
-
• 建议使用 csaw 进行峰差异分析
-
• 使用 MEME 套件进行基序检测和富集分析
-
• 使用 ChIPseeker 进行注释和可视化
-
• 使用 HMMRATAC 进行核小体检测
-
• 使用 HINT-ATAC 进行足迹分析
-
• 如果有 RNA-seq 数据,可使用 PECA 方法重构调控网络
-
然而,研究人员始终可参考本综述,为每个步骤选择替代工具,我们建议根据实验系统和收集的数据选择合适的工具。
推荐阅读
中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。我们还为进阶用户提供高质量课程培训:
