
摘要:
解析调控复杂性状的机制对于推进作物改良至关重要。在此,我们提出了一个全面的水稻(Oryza sativa)调控组图谱,涵盖了来自三个代表性品种的23种不同组织的染色质可及性。我们的研究揭示了117,176个独特的开放染色质区域(OCRs),占水稻基因组的约15%,这一比例显著高于之前在植物中的报告。通过整合匹配组织的RNA-seq数据,我们自信地预测了59,075个OCR到基因的联系,其中增强子构成了这些关联的69.54%,包括许多已知的增强子到基因的联系。利用这一资源,我们重新评估了全基因组关联研究的结果,并发现了一个之前未知的功能:OsbZIP06在种子萌发中的作用,我们随后通过实验验证了这一发现。我们优化了深度学习模型以解码调控语法,实现了对组织特异性染色质可及性的稳健建模。这种方法使得我们能够从基因组序列中预测跨品种的调控动态,揭示了顺式调控分歧和品种间形态差异的遗传基础。总的来说,我们的研究为水稻功能基因组学和精准分子育种建立了一个基础性资源,为调控复杂性状的机制提供了宝贵的见解。
引言
水稻(Oryza sativa)不仅是世界上最重要的农作物之一,也是研究植物生长和发育的杰出模式物种。在过去的二十年中,人们付出了巨大的努力来理解水稻中重要农艺性状的遗传基础。全基因组关联研究(GWAS)在这一探索中发挥了关键作用,帮助将遗传变异与表型多样性联系起来。这些研究鉴定出大量有望用于性状改良的候选基因。然而,尽管取得了这些进展,我们对水稻中复杂性状的调控机制的理解仍然不完整。
基因调控网络(GRNs)主要由顺式调控DNA序列决定,例如启动子和增强子,这些序列被特定的转录因子(TFs)结合。解析这些调控序列中的调控密码,并将调控序列与目标基因联系起来,对于重新构建用于作物改良和性状优化的基因调控网络至关重要。然而,目前在水稻中对调控组(包含基因组中所有调控元件)的分析仍然受到限制。这些努力往往集中在特定组织上,忽视了整个发育阶段和组织的全面景观。同样,建立调控区域与其目标基因之间联系的努力在水稻中也受到限制。
与此同时,许多与水稻农艺性状相关的功能性遗传变异位于非编码调控区域(例如qSH1、DROT1和FZP),这使得它们的解释变得具有挑战性,并强调了对调控序列进行系统剖析的必要性。鉴于不同的性状在不同的发育阶段和组织中表现出来,目前由于缺乏跨越各种组织和生长阶段的全面表观基因组图谱,水稻中非编码调控变异的系统注释受到了阻碍。
为了弥合这些差距,我们利用UMI-ATAC-seq方法(一种改良的ATAC-seq协议,由我们实验室开发)系统地绘制了三种代表性水稻品种整个生命周期中各种组织的染色质可及性图谱。通过对145个ATAC-seq数据集的分析,我们总共获得了117,176个独特的开放染色质区域(OCRs),占水稻基因组的约15%。通过整合匹配组织的RNA-seq数据,我们根据基因表达和邻近染色质可及性在组织间的相关性,预测了OCRs的潜在目标基因。通过转录因子足迹分析,我们推断了组织或阶段特异性的调控网络,并通过比较籼稻和粳稻亚种之间的调控图谱,识别了品种多态性/性状相关的OCRs。值得注意的是,我们的分析揭示了GWAS相关变异在组织特异性OCRs中的偏好,利用这一OCR图谱,我们能够识别出209个复杂农艺性状与非编码调控变异之间的因果关联。利用优化的深度学习模型,我们通过对组织特异性染色质可及性的建模和基于序列的跨品种预测,解码了调控语法。这种建模方法揭示了导致顺式调控分歧的关键遗传变化。总体而言,这些数据不仅为植物研究界提供了一个基石资源,还为精准分子育种提供了宝贵的调控变异。
结果
1.绘制水稻染色质可及性的参考图谱
为了生成水稻(Oryza sativa)中全面的染色质可及性景观,我们利用了一种改进的ATAC-seq协议(UMI-ATAC-seq,该技术通过引入独特分子标识符来提高常规ATAC-seq技术的定量和足迹分析的准确性),对水稻整个生命周期中的23种组织/器官进行了染色质可及性分析。这些代表性组织包括愈伤组织、胚根、胚芽、叶片、叶鞘、根、顶端分生组织(AM1/AM2)、休眠芽(DBuds)、茎顶端分生组织(SAM1/SAM2/SAM3)、穗颈节(PNN)、茎、幼穗(Panicle1/Panicle2/Panicle3/Panicle4)、颖壳、内稃、雌蕊、雄蕊和种皮(Seed1/Seed2/Seed3)。实验在三种代表性水稻品种中进行,分别是日本晴(NIP;粳稻亚种)、明恢63(MH63;籼稻亚种II型)和珍汕97(ZS97;籼稻亚种I型),每个实验至少包含两个生物学重复(见图1a和补充数据1)。总共生成了145个全基因组染色质可及性数据集,平均测序深度约为3070万条reads。我们应用了ENCODE标准来建立分析流程(见方法部分)。与存储在ChIP-Hub数据库中的已发表植物ATAC-seq数据集相比,我们的数据展现出显著更高的信噪比(见补充图1)。通过对三种栽培品种的相应参考基因组进行数据分析,我们平均识别出每个实验有40,676个(范围从28,991到49,737)可重复的开放染色质区域(OCRs,其不可重复发现率[IRDR]小于0.05)(见图1b)。正如预期的那样,所有实验中识别出的OCRs主要位于转录起始位点(TSS)的近端上游区域或远端基因间区域(见图1b、f,补充图2和补充数据2),分别类似于启动子或增强子。值得注意的是,来自基因内区域的OCRs所占比例相对较小(约为15.7%),而这些OCRs大多来自内含子区域(见补充图2b)。这些观察结果表明,绝大多数OCRs源自水稻基因组的非编码区域。
我们估计大约15%的水稻基因组可以被注释为OCRs,并且在每个品种中都观察到了一致的模式(见图1c),并且这种估计似乎在水稻中已经达到了饱和(见图1d)。OCRs包含多个转录因子结合位点,并且负责调控目标基因的表达。我们收集了56种不同转录因子的公开可用的ChIP-seq数据(见补充数据3),并从ChIP-Hub数据库中预测了458种转录因子的DNA基序,并表明OCRs显著富集了转录因子结合位点(见图1e)。此外,我们发现与侧翼基因组区域相比,OCRs在进化上受到高度限制(见图1g),支持了之前的研究结果,即保守的非编码序列(CNSs)可以预测植物中的OCRs。
接下来,我们评估了不同品种和组织之间染色质可及性的整体相似性和差异性。我们基于从同一参考基因组(即日本晴)中鉴定出的合并开放染色质区域(OCRs,共117,176个)对所有数据集进行了量化,并利用t分布随机邻域嵌入(t-SNE)技术对其全局模式进行了可视化。t-SNE结果的第1和第2维度通常反映了籼稻(MH63和ZS97)和粳稻(NIP)亚种之间的差异,而第2和第3维度主要区分了不同组织类型的独特簇(图1h)。例如,NIP的营养组织和生殖组织的染色质可及性模式被分成了不同的簇,而幼穗和愈伤组织的模式则表现出相似性,无论它们来自何种品种。我们进一步根据Jensen-Shannon散度(JSD)指数计算了每个OCR的组织特异性。显然,远端OCR的特异性得分显著高于近端OCR(图1i和补充图3a、b),这与之前的发现一致。
总之,水稻中全面的染色质可及性景观为作物功能基因组学研究提供了一个有价值的资源。
图1 | 水稻开放染色质景观的特征分析。
a. 在水稻的三个品种(日本晴、明恢63和珍汕97)中,对各种组织进行了整个生命周期的ATAC-seq和RNA-seq实验。样本收集的详细描述见补充数据1。整个图中使用了一致的组织颜色编码。
b. 柱状图显示了在三个水稻品种的每种组织中鉴定出的可重复开放染色质区域(OCRs)的数量。根据OCR峰顶到最近转录起始位点(TSS)的距离,将OCRs分为三类:远端(>1 kb)、近端(<=1 kb)和基因内。没有SAM3(日本晴)、Seed1(珍汕97)和茎(珍汕97)组织的数据。
c. 在本研究中,被注释为开放染色质区域(OCRs)的水稻基因组的比例。
d. 每种组织中独特的OCRs的累积数量,通过排除与OCR超集重叠的OCRs来计算。
e. 密度图显示了在日本晴(NIP)中,围绕OCRs的转录因子结合位点(TFBSs)的富集情况。TFBSs是通过56种不同转录因子的ChIP-seq数据集(左侧)或458种转录因子的DNA基序(右侧)预测的,这些数据来自ChIP-Hub数据库。两侧的侧翼区域为1 kb。
f. 在三个水稻品种中,OCR峰顶到其最近TSS的距离分布。包括了已发表的水稻(日本晴)开放染色质数据进行比较。基于该分布,使用1 kb的截止值(虚线)来区分近端和远端调控OCRs。
g. 围绕日本晴OCRs的保守性PhastCons评分的分布。
h. t-SNE图显示了对不同样本的染色质可及性进行无监督聚类分析的结果。每个点代表一个重复样本。颜色编码与a相同。
i. 盒须图显示了基因内(n=14239)、近端(n=29524)和远端(n=57153)OCRs的组织特异性评分的分布(左侧),或每个组织的中位数评分。P1=4.01e-39,P2=2.13e-96,P3=1.23e-95。所有P值均通过近端和远端OCRs的特异性差异的双侧Mann--Whitney U检验计算得出。组织颜色编码与a相同。盒须图显示了中位数(水平线)、第二至第三四分位数(盒)和Tukey式须(盒外)。源数据以源数据文件形式提供。
2.将开放染色质区域与目标基因联系起来
为了破译这些开放染色质区域(OCRs)可能调控哪些基因,我们在每种水稻品种中为研究的组织生成了匹配的RNA-seq数据集(见补充图3c和补充数据4)。我们采用了一种策略,基于所有样本中OCR可及性与基因表达之间的相关性分析来预测OCR到基因的联系(见图2a;详细方法见方法部分)。基因可以通过染色质相互作用被多个OCRs(包括启动子和增强子)调控,这些相互作用被认为发生在拓扑相关域(TADs)内。根据Hi-C数据,水稻基因组中TADs的大小估计在35千碱基对(kb)到45 kb之间,因此我们将分析范围限制在40 kb内(即从转录起始位点(TSS)上游20 kb到下游20 kb),以预测OCRs的目标基因。使用绝对皮尔逊相关系数|R|≥0.4和P < 0.05作为阈值,我们总共获得了59,075个OCRs(n = 38,437,占所有OCRs的32.8%)和基因(n = 18,781,占注释基因的48.1%)之间的独特联系(见补充图4a、b和补充数据5)。正如预期的那样,OCR到基因的联系更倾向于发生在近端OCRs中,因此基因表达与染色质可及性之间的相关性在近端联系中更高(见补充图4c--f)。
OCRs中的遗传变异可以通过表达数量性状位点(eQTL)影响基因表达水平。 我们将本研究中鉴定的OCR到基因的联系与已发表的水稻eQTL数据进行了共定位分析,发现OCR到基因的联系与eQTL基因对之间存在显著的重叠(卡方检验,P < 1.55e-06)(见补充图4g)。正如预期的那样,与eQTL共定位的OCR到基因的联系的相关系数显著高于那些没有共定位的联系(Wilcoxon检验,P = 4.11e-38;见补充图4h)。我们鉴定出许多已知的调控变异,这些变异影响与农艺性状相关的基因的表达。例如,qSH1的一个远端调控区域(约12 kb上游)中的变异调节了其表达动态,从而改变了水稻的落粒性9。相应地,在各种组织中,尤其是顶端分生组织(SAM)中基因表达增加的情况下,这个增强子的可及性与qSH1的表达之间存在正相关(R=0.47,P < 0.013)(见补充图4i,l)。同样,OsLG1与上游调控区域紧密相连,这些区域与与穗形性状相关的强QTL共定位27(见补充图4j,l)。IPA1的增强子活性与基因表达之间显示出显著的正相关(R = 0.84,P < 2.95e-8),在与产量相关的组织中表达增加(见补充图4k,l),这证实了IPA1在塑造水稻理想株型(IPA)以及提高谷物产量方面的重要作用28。综上所述,预测的OCR到基因的联系为水稻农艺性状发育提供了调控方面的见解,并突出了可用于基因组编辑的重要基因的可靶向OCRs。
代表性组织的全面染色质可及性图谱为我们提供了揭示组织特异性调控语法的机会。我们利用JSD评分量化了OCR(开放染色质区域)的组织特异性,从而能够根据上述预测的OCR-基因链接,将目标基因从管家基因(例如GAPDH29和OsGOGAT130)区分为组织特异性基因(例如OsYABBY531和OsWRKY4732)(补充图5和补充数据6)。我们特别关注分析高度组织特异性的OCR(n = 6686,JSD > 0.08的截止值,约占所有OCR的7%),因为它们可能编码组织特异性调控语法。这些OCR进一步被注释为启动子(n = 2322)或增强子(n = 4364),根据它们与转录起始位点(TSS)的基因组距离。通过基于OCR-基因链接对染色质可及性和目标基因表达进行联合聚类分析,我们识别出20个不同的OCR簇(图2b和补充数据7)。每个簇包含200~500个在特定组织中高度激活的OCR-基因链接,并且与相应组织的已知生物学特征高度一致(图2b-d)。例如,簇5(C5)中的稃片和颖片特异性链接包含位于GW8基因座的启动子-增强子相互作用,GW8是一个已知的控制水稻粒重的基因(图2c)。相应地,GW8在雌蕊、颖片和稃片中高表达。利用C5中的基因进行基因本体(GO)富集分析显示,"花粉-雌蕊相互作用"和"授粉"等生物学过程被过度代表(图2d)。同样,我们在C19中识别出许多在分生组织样组织(包括幼穗和茎顶端分生组织)中高度且特异性可及的OCR,相关目标基因在功能上显著富集于"生殖系统发育"、"花发育"和"茎系统发育"(图2b、d)。值得注意的是,RFL,一个对植物结构和开花时间至关重要的调节因子,是这些目标基因之一(图2c)。有趣的是,我们观察到,与组成性OCR(12.3%)相比,组织特异性OCR中有更高比例(28.9%)来自远端基因间区域。相比之下,大约85%的组成性OCR来自近端启动子区域(图2e)。
为了描述可能结合这些组织特异性OCR的转录因子(TF),我们使用了GimmeMotifs工具,这是一个多功能工具,可以通过比较多个实验中的TF结合活性来检测组织特异性TF结合基序。我们将分析限制在每个组织中特异性测量(SPM)评分最高的前2500个OCR。预测的调控基序在匹配的组织类型中显示出显著的组织特异性富集(补充图6和补充数据8)。我们将重点缩小到每个组织类型中富集度最高的调控因子,并发现许多推断的链接对应于已知的调控关系(图3a)。例如,OsIDS1在塑造花序结构和建立花分生组织中起着重要作用,在幼穗中表现出相对较高的活性。OsbZIP72在胚芽组织中富集,已被发现通过调节脱落酸(ABA)信号传导来调节胚芽长度,并促进种子萌发。值得注意的是,种子和雌蕊组织显示出关键调控因子的共富集模式,这些调控因子参与花和种子发育,包括MADS基因家族的MFO1和MADS6342-44(图3a)。对于每种组织类型,我们进行了系统分析,计算TF家族内调控因子的相对偏好。我们的分析揭示了不同的组织特异性TF结合模式,表明不同组织对特定调控因子有明确的偏好(图3b)。例如,TCP转录因子家族在茎、雄蕊和穗颈节点(PNN)组织中表现出富集偏好。这一观察结果与TCP基因的已知生物学功能一致,特别是它们在发育组织中调节细胞增殖的作用。
通过足迹分析(footprinting)分析时间序列的ATAC-seq数据,可以帮助识别控制发育进程和转变的关键调控因子,例如先锋因子。我们从幼穗(这是决定水稻产量的关键器官)的四个连续发育阶段(<1mm、1--2mm、3--5mm和5--10mm;图1a)生成了时间序列的开放染色质数据。我们努力识别那些在幼穗发育阶段的富集上表现出正相关或负相关的调控基序,使用动态变化的OCR(开放染色质区域,n = 9244;图3c、补充图7a和补充数据9)。富集度最高的调控因子主要表现出正相关,表明它们作为转录激活因子的功能。相反,一部分因子表现出负相关,暗示它们具有抑制作用。在这方面,DL(编码OsYABBY49)、OsSPL950和OsSPL1451被鉴定为水稻幼穗发育过程中的代表性正向调控因子(图3d和补充图7b)。然而,需要进一步的实验数据来验证这些转录因子在幼穗发育中的潜在参与。
总体而言,上述结果为研究组织特异性基因调控的候选关键调控因子提供了一个宝贵的资源。
3.系统定位GWAS变异在组织特异性调控DNA中的位置
全基因组关联研究(GWAS)已经识别出许多与水稻各种农艺性状相关的自然变异。为了系统地将GWAS相关变异与上述注释的调控元件共定位,特别是那些来自非编码调控区域的元件,我们从最近的全基因组关联荟萃分析研究以及NGDC GWAS图谱数据库中整理了一个全面的水稻GWAS目录。总体而言,我们收集了4831个显著(P < 1e−5)且具有代表性(仅考虑主要SNP)的关联,这些关联涉及209个不同的数量性状,这些性状可以分为七个主要类别:形态特征、生理特征、产量性状、种子质量、抗性、色泽和其他(图4a和补充数据10)。简而言之,这些GWAS SNP主要位于基因间非编码区域(图4b和补充图8a),其中24.5%的SNP要么位于非编码OCR(开放染色质区域)内(21.1%),要么与邻近OCR中的SNP处于连锁不平衡(LD)状态(3.4%)(图4c)。此外,与蛋白编码序列相比,OCR中GWAS SNP的富集度显著更高(图4d),这突显了调控变异在决定表型特征中的关键作用。
此外,我们的研究结果表明,含有GWAS SNP的OCR表现出更强的组织特异性(图4e、f和补充图8b-d)。例如,一个含有GWAS主要变异vg072467105553(C/T,GWAS P < 9.27e−8)的OCR与穗数显著相关。该OCR在幼穗组织中表现出高度特异性的可及性,其可及性与GW7基因表达之间存在正向OCR-基因关联(R = 0.59,P < 9.14e−5;图4g)。在另一个例子中,GWAS主要变异vg0431427332与叶片宽度显著相关(P < 1.58e−8),它位于一个分生组织/幼穗特异性的OCR中,正向调控NAL1基因的表达(R = 0.72,P < 1.16e−6)(图4h)。先前的研究已经表明,NAL1不仅与叶片宽度有关,还与产量有关,并且其表达水平存在自然变异。更多经过验证的OCR相关关联的例子在补充图8e中展示。
组织特异性调控变异解释农艺性状关联
开放染色质区域(OCRs)内的DNA序列变异在通过改变染色质状态和基因表达模式推动表型创新方面发挥着重要作用,而这种改变通常是组织特异性的。为了研究与农艺性状相关的遗传变异与组织特异性OCR之间的关系,我们以组织特异性的方式计算了OCR内遗传变异的富集情况。结果表明,显著的GWAS SNP经常富集在与性状相关的组织的OCR中(图4f和补充图8d)。例如,与小穗性状相关的GWAS变异在分生组织1(SAM1)、雌蕊和幼穗组织特异性的OCR中高度富集。受此观察结果的启发,我们使用一种称为CHEERS的SNP富集方法,对来自不同组织的OCR中的GWAS鉴定的SNP进行了富集分析(补充图9)。在209个整理的与GWAS相关的性状中,约78%(209中的163个)的表型性状在至少一个组织中显示出GWAS SNP的富集(补充图10和补充数据11)。
观察到的与农艺性状相关的变异在调控元件中的富集高度特异性于组织类型,并且这种关联在很大程度上与我们对组织功能的当前理解一致(图5a)。例如,在各种GWAS研究中,与株高相关的调控变异在茎相关组织中富集;而与种子相关的性状(如种子厚度、宽度、长度、每株瘪谷数和每株饱满粒数)的遗传关联在种子、颖片、雌蕊和雄蕊组织特异性的OCR中高度富集(图5a)。同时,我们发现与根长相关的变异主要富集在根组织中。具体而言,一个显著的SNP(vg080620195758,P < 3.98e-8)位于OsHAK12基因的根特异性增强子中,该基因已被证明参与根中的钾离子吸收(补充图11a)。