Autopolyploidization‐Induced Chromatin Remodeling Regulates Leaf Size Variation in Brassica rapa
同源多倍化诱导的染色质重塑调控白菜叶片大小的变异

摘要
全基因组复制是影响基因调控与性状发育的关键进化机制;然而,连续基因组复制如何在全基因组水平重塑染色质并进而驱动表型创新,目前仍不明确。为解析基因组加倍对染色质动态、基因表达及相关性状差异的影响,本研究构建了具有相同遗传背景的白菜单倍体、二倍体及同源四倍体株系,并结合 ATACseq、ChIPseq(H3K4me3、H3K27ac、H3K27me3)与 RNAseq 开展整合分析。通过建立这一统一的倍性系列材料,本研究揭示了同源多倍化过程中非线性、时期特异性的染色质与转录重编程。倍性升高会重塑染色质可及性,表现为近端区域收缩、远端区域扩张,且该效应在单倍体向二倍体转变过程中尤为显著。转录起始位点附近 H3K4me3 修饰的相应改变,介导了全基因组水平的基因表达变化。本研究鉴定到多个转录因子编码基因,其中BrGRF13 与BrARF11 是叶球发育过程中调控叶片大小与极性的关键因子。综上,本研究阐明了倍性变异驱动染色质重塑与表型分化的分子基础,为揭示基因组复制如何塑造植物性状、指导多倍体作物遗传改良提供了新见解。
关键词 :同源多倍化;白菜;BrGRF13;BrARF11;染色质重塑;组蛋白修饰

1. 引言
全基因组复制(WGD)是一股关键的进化动力,在各生物类群中反复塑造了基因组进化 [1,2,3]。值得注意的是,被子植物普遍经历过至少一次全基因组复制事件,部分类群甚至经历了多轮复制 [4,5]。例如,十字花科植物经历了两次全基因组复制 [6],而芸薹属植物还发生了一次特有的全基因组三倍化(WGT)事件 [7]。随后,全基因组复制和 / 或三倍化为基因组提供了冗余遗传资源,这往往会促使新基因与新表型的产生 [8,9],从而为植物在多变环境中适应、生存与繁衍提供了更多可能 [10,11,12]。
多倍体通常分为异源多倍体与同源多倍体。传统上,全基因组复制的相关研究多集中于异源多倍体。然而,异源基因组剂量差异与互作带来的改变,会使对复制效应的解析变得复杂。天然存在与人工诱导的同源多倍体,已越来越多地被用于精准评估全基因组复制效应 [13,14,15],其中人工诱导材料具有更为均一的基因组背景 [16,17,18]。迄今为止,大多数植物全基因组复制相关研究仅局限于二倍体与同源四倍体之间的比较。此外,在经历连续多倍化的纯合材料中,能够更准确地评估全基因组复制带来的影响 [19,20]。
单倍体是植物育种中不可或缺的工具,可用于快速创制纯合株系、加速性状固定,并实现精准的基因功能解析 [21,22]。尤为重要的是,单倍体为解析从单倍体到二倍体转变过程中同源多倍化的表观遗传效应提供了独特平台。单倍体向二倍体转变过程中,同源多倍化带来的表观基因组后果及其与表型变异的功能关联,目前仍不明确。此外,这些变化如何在连续多倍化事件中发生演变,也尚未被探究。
表观遗传为应对全基因组复制引发的 "基因组冲击" 提供了高效且灵活的调控方式 [14,23]。目前相关表观遗传研究主要集中于异源多倍体作物,如棉花 [15]、甘蓝型油菜 [14,24]、普通小麦 [25] 和人参属植物 [26],以及部分人工诱导的同源多倍体物种,包括水稻 [27]、拟南芥 [17,18] 和白菜 [28]。例如,动态的 DNA 甲基化可增强同源四倍体水稻的抗逆性 [29],而 H3K27me3 修饰在调控拟南芥开花时间中发挥关键作用 [17]。这些研究凸显了表观遗传变化对植物性状发育关键过程的影响。然而,这些表观修饰是否以及如何由同源多倍化诱导产生,在很大程度上仍不明确。
大白菜(Brassica rapa L. ssp. pekinensis ,AA,2n=20)是一种营养丰富的蔬菜作物,与拟南芥亲缘关系密切,具有重要经济价值 [7,30]。其基因组相对较小(<500 Mb)且经历过全基因组三倍化,是研究全基因组复制效应的理想模式材料。在全基因组三倍化之后,大白菜基因组被划分为 LF、MF1 和 MF2 三个亚基因组,三者在基因保留与表达水平上存在显著差异 [7,31]。根据与拟南芥基因的同源关系,大白菜基因可划分为单拷贝同源基因、双拷贝同源基因与三拷贝同源基因三类。
在本研究中,我们构建了来源于同一基因组的白菜单倍体、二倍体和同源四倍体株系。这些材料在结球特性、叶片形态等关键农艺性状上存在显著差异。通过多组学数据挖掘,我们解析了连续两次全基因组复制事件 ------ 单倍体到二倍体、二倍体到同源四倍体 ------ 对染色质重塑、全基因组转录及性状发育的影响。与多数采用不同遗传背景多倍体材料的研究不同,本研究所有材料均共享同一基因组,使我们能够将观察到的表观基因组与转录组变化直接归因于倍性转变,而非遗传背景差异。我们揭示了单倍体、二倍体与同源四倍体中全基因组复制如何以倍性依赖的方式重塑表观遗传格局。多组学分析还鉴定出在不同倍性水平上呈现特异表达模式的基因集,包括叶片发育的关键调控因子,为解析全基因组复制如何驱动植物表型变异提供了新见解。综上,本研究结果为阐明基因组加倍驱动表观遗传与表型多样性的机制提供了独特的理论支撑。
2. 结果
2.1 单倍体、二倍体与同源四倍体大白菜的表观基因组特征
单倍体、二倍体与同源四倍体植株均来源于同一基因组(见实验方法部分)[32]。不同倍性植株的叶片大小存在明显差异,这主要由细胞数量与细胞大小共同决定(图 1A;附图 S1A、B)。在结球期,二倍体与四倍体植株的叶片表现出明显的弯曲与抱合特征,而单倍体叶片则相对平展(附图 S1C)。

单倍体、二倍体与同源四倍体大白菜中动态的表观染色质景观。
(A)大白菜全基因组复制(WGD)过程中的叶片形态变化。在叶球开始形成的转折期拍摄整株及单叶照片,并对叶片切片进行拍照以显示细胞形态变化。标尺依次为 200、25 和 0.5 mm。
(B)主成分分析(PCA)显示 5 组组学数据集的重复性。
(C)14 个不同聚类(S1--S14)中染色质可及性与组蛋白修饰的分布概率,及其对应的基因组位置与表达水平。
(D,E)单倍体(M)、二倍体(D)与同源四倍体(T)样本中,染色质开放区域(ACRs)到基因及转录起始位点(TSS)的中位距离。
(F)ACRs 分布及峰型特征。
为进一步解析上述表型差异的分子机制,我们对多组学数据进行了系统分析。生物学重复间的组学数据具有高度可重复性(附图 S2A、S3;附表 S1)。主成分分析(PCA)结果显示,二倍体与同源四倍体样本的组蛋白修饰表观特征紧密聚类,而与单倍体明显区分。值得注意的是,61%--98% 的表观遗传变化发生在单倍体向二倍体转变阶段,而二倍体与同源四倍体之间的变化仅占 2%--12%,表明不同倍性水平的表观遗传变化呈现非线性模式(图 1B)。
为进一步解析同源多倍化过程中的染色质动态变化,我们发现约 7.21% 的基因组区域与染色质开放区域(ACRs)和 / 或组蛋白修饰相关。在这些区域中,约 6.61% 的基因组区域被划分为 S1--S8 聚类,在三个倍性水平间表现出保守的分布模式。与之相对,S9--S13 则呈现出倍性特异性的染色质特征,主要分布于转录起始位点(TSS)或转录终止位点(TTS)上下游约 2000 bp 区域及基因间区(图 1C)。对 S10 和 S13 的进一步分析表明,同源四倍体保留了二倍体的大部分染色质特征,但与单倍体存在显著差异。
由于染色质可及性是调控元件的核心特征,我们分别在单倍体、二倍体和同源四倍体中鉴定出 26 665、27 098 和 26 956 个 ACRs(附表 S2--S14)。值得注意的是,超过半数的 ACRs 位于 TSS 附近,其中位距离分别为 3246、4267 和 4792 bp(图 1D,E),提示远端 ACRs(dACRs,指距 TSS>2 kb 且距 TTS>0.5 kb 的 ACRs)比例可能有所上升。二倍体中 dACRs 比例较单倍体提升 7.63%,同源四倍体较二倍体进一步提升 4.42%。同时,基因间区的 ACRs 也对基因表达具有调控作用(附图 S2B)。值得关注的是,基因间区 H3K27ac 修饰峰的比例略有上升,但这一变化幅度不及 ACRs 中的染色质可及性变化(图 1F)。此外,H3K27ac 的上升与 H3K27me3 的下降相关性较低,表明 H3K27ac 的上调在一定程度上具有相对独立性(附图 S4)。以上结果表明,在人工诱导的同源多倍化过程中,远端调控元件可能发生更显著的变化,反映了基因组的动态调控特性。具体而言,dACRs 表现出向更远端基因间区偏移的趋势,且这类变化在单倍体向二倍体转变阶段尤为突出。
2.2 三倍化基因通过表观重编程对同源多倍化做出快速响应
同源多倍化在全基因组水平诱导系统性的转录组重编程 [33]。在 46 479 个蛋白编码基因中,共有 4550 个基因呈现差异表达(|log₂FC|≥1,FDR≤0.05,附表 S15--S20),其中单倍体与二倍体间表达变化的基因数量最多(3246 个),而二倍体与同源四倍体间仅有 85 个差异基因(附图 S5)。随后,我们将差异表达基因(DEGs)分为两组:DTvM(1485 个在二倍体与同源四倍体中表达更高的基因)和 MvDT(3065 个在单倍体中表达更高的基因)。MvDT 基因数量是 DTvM 的两倍(图 2A;附表 S21--S22),表明单倍体与二倍体间差异更为显著。基因本体(GO)富集分析显示,DTvM 基因主要参与核糖体生物发生过程,而 MvDT 基因则富集于光合作用相关通路(图 2B)。

基因组复制过程中的亚基因组再平衡。
(A)单倍体、二倍体与四倍体植株中差异表达基因(DEGs)的聚类。差异基因总体分为两类:M vs DT,即单倍体表达量高于二倍体和四倍体;DT vs M,即二倍体和四倍体表达量高于单倍体。
(B)M vs DT 与 DT vs M 基因的 GO 富集分析。
(C)对单拷贝(n=8690;差异基因数 = 654)、双拷贝(n=11442;差异基因数 = 956)和三拷贝(n=4986;差异基因数 = 463)基因分组进行统计分析。两两比较结果显示:单拷贝基因 p=0.0024,双拷贝基因 p=0.60,三拷贝基因 p=0.0034(Fisher 精确检验;p≤0.05 为显著;ns,p>0.05)。
(D)将同源基因三联体分为 7 类并以箱线图展示其表达水平:平衡型(n=427)、LF 显性型(n=225)、LF 抑制型(n=159)、MF1 显性型(n=150)、MF1 抑制型(n=211)、MF2 显性型(n=158)、MF2 抑制型(n=271)(Mann--Whitney U 检验;p<0.05 为显著;***p<0.001;ns,p>0.05)。
(E)7 种状态下同源三联体基因的数量。
(F)从单倍体到二倍体、二倍体到四倍体过程中,基因在 7 种状态间的转换情况。
(G)白菜单倍体与二倍体间差异基因的聚类。中间展示表达量与表观修饰的相关性,右侧为 GO 富集结果。
为验证上述结论的普遍性并排除单一遗传背景的潜在影响,我们构建了更全面的转录组数据集,包含 3 个独立的白菜单倍体基因型、3 个二倍体基因型和 1 个四倍体材料,并整合了已发表的二倍体与四倍体转录组数据 [34]。整合分析一致表明,无论遗传背景如何,单倍体向二倍体转变伴随的转录组重编程远强于二倍体向四倍体的转变,提示基因组加倍对转录组重构的影响高度依赖于所处的倍性阶段(附图 S6)。
为探究同源多倍化后亚基因组偏好性与组蛋白修饰的关系,我们将 25118 个基因定位到 LF、MF1 和 MF2 亚基因组(附图 S7A;附表 S23)。在所有倍性水平下,LF 亚基因组均表现出更高的表达水平,同时伴随更强的染色质可及性以及 H3K4me3 和 H3K27ac 富集,而 H3K27me3 水平则维持较低水平(附图 S7B、C)。这一趋势在单倍体、二倍体与同源四倍体中均保持稳定,表明亚基因组显性效应在同源多倍化早期阶段得以维持。
值得注意的是,与全基因组中不同拷贝数基因的占比相比,"一对一" 型差异基因比例下降,"一对二" 型差异基因比例基本不变,而 "一对三" 型差异基因比例显著上升(图 2C)。这表明 "一对三" 型基因更易对同源多倍化做出响应,并进而发生新功能化或亚功能化。进一步评估三联体表达偏向基因与表观修饰的关系后,我们将其分为 7 类(附图 S7D)。在单倍体、二倍体与同源四倍体中,"平衡型" 基因数量最多,平均为 464 个,占全部三联体基因的 27.9%。相比之下,其余 6 类基因数量较少,在 100--300 个之间。在 LF 显性亚基因组中,LF 显性基因数量平均比 LF 抑制基因高 31.7%;而在 MF1 和 MF2 亚基因组中,显性基因比例平均比抑制基因低约 68.2%(图 2D、E)。以上结果表明,同源多倍化后,大多数三联体基因表现出一定程度的表达同步性,提示同源三联体基因的表达与功能可能存在遗传层面的协同调控。
在单倍体--二倍体转变过程中,25.8%(429/1662)的基因发生表达状态改变;在二倍体--四倍体转变中,这一比例为 14.8%(246/1662)(图 2F)。聚类分析将单倍体--二倍体差异基因分为 6 个功能组(C1--C6)(图 2G)。其中,单倍体中高表达的基因主要参与含氧酸代谢、跨膜运输与细胞代谢调控,而二倍体中高表达的基因则富集于核苷酸合成、代谢调控与胁迫响应通路。进一步分析显示,C1--C3 和 C6 组与 H3K4me3 修饰高度相关,而 C4--C5 组主要受染色质可及性调控。总体而言,染色质结构与表观修饰在不同亚基因组的基因表达调控中发挥关键作用,表明同源多倍化不仅诱导基因表达改变,还可通过染色质重塑实现精准的选择性激活或抑制。
2.3 全基因组复制通过 H3K4me3 与 H3K27ac 修饰协同调控转录重编程
全基因组复制后,染色质可能发生表观重组,进而影响基因表达 [15,35,36]。高表达差异基因常富集于带有 H3K27ac、H3K4me3 等活跃组蛋白修饰的染色质开放区域(ACRs),表明这些表观标记在维持高转录活性中至关重要(图 3A)。抑制性标记 H3K27me3 在单倍体中稳定存在,但并不总是与差异基因的 mRNA 水平相关。值得注意的是,二倍体与同源四倍体之间 ACR 分布及组蛋白修饰水平差异有限,这与二者间鉴定到的差异基因数量较少相一致。这表明同源多倍化引发的主要转录组重编程主要发生在单倍体向二倍体转变阶段。在各类组蛋白修饰中,H3K4me3 与差异基因表达变化的相关性最高(图 3B),凸显其在同源多倍化诱导的转录调控中的核心作用。

大白菜基因组复制过程中的转录组变异与表观修饰改变相关。
(A)单倍体、二倍体与四倍体植株中,DTvM 和 MvDT 两类差异表达基因(DEGs)的染色质可及性及 H3K4me3、H3K27ac、H3K27me3 修饰水平。
(B)差异基因表达水平与染色质可及性、H3K4me3、H3K27ac、H3K27me3 的相关性,展示单倍体与二倍体间的表达及表观修饰差异。
(C)表观标记与差异基因的重叠数量。
(D)维恩图展示差异基因、组蛋白修饰差异相关基因与染色质开放区域差异(ACR)相关基因之间的重叠关系。(Fisher 精确检验;p ≤ 0.05 为显著)。
在鉴定到的 3266 个差异表达基因中,绝大多数均与染色质可及性、H3K4me3 或 H3K27ac 修饰变化相关,其中与 H3K4me3 关联的基因数量最多(732 个)。重要的是,大量差异基因同时受到 H3K4me3 和 H3K27ac 的共同调控(图 3C、D;附表 S24)。上述结果表明,H3K4me3 与 H3K27ac 在同源多倍化诱导的转录调控网络中具有协同作用,并提示同源多倍化可通过特异性组蛋白修饰重塑精细调控基因表达,进而促进功能协调与基因组稳定性。
2.4 同源多倍化通过生长调控因子(GRF)介导的细胞增殖调控大白菜叶片大小
同源多倍化使大白菜产生了大量表型变化与新性状(图 1A;附图 S1)。为揭示同源多倍化影响大白菜发育的遗传与表观基础,我们分别在单倍体 vs 二倍体、二倍体 vs 同源四倍体中鉴定了差异染色质开放区域(diffACRs),并整合转录组数据对这些区域的基序富集及相关转录因子(TFs)的表达变化进行分析。共获得 7413 个 diffACRs,其中 6182 个来自单倍体 vs 二倍体比较组(mdACRs 和 dmACRs),1231 个来自二倍体 vs 同源四倍体比较组(dtACRs 和 tdACRs)(图 4A)。
差异染色质开放区域定位结果显示,同源多倍化后,基因间区在 dmACRs 和 tdACRs 中显著富集,其数量接近 mdACRs 和 dtACRs 的两倍。这表明从单倍体到二倍体再到同源四倍体,基因间区的开放程度呈逐步上升趋势。此外,同时存在远端与近端差异的 ACRs,对基因表达的影响大于仅在近端或远端存在差异的 ACRs(图 4B),凸显了基因间区在响应同源多倍化中的重要作用。
进一步对 diffACRs 进行基序鉴定发现,乙烯响应因子(ERF)、生长素响应因子(ARF)与生长调控因子(GRF)在差异区域中显著富集(图 4C)。同时,我们还观察到单指锌指蛋白(DOF)家族转录因子的 DNA 结合基序在受同源多倍化抑制的 ACRs 中富集。值得注意的是,DOF 转录因子参与胁迫响应、植物生长以及器官(叶、花、维管组织)发育过程 [37]。

大白菜基因组复制过程中 GRF 转录因子的激活。
(A)与基因组复制相关的差异染色质开放区域(diffACRs)的基因组分布。mdACRs 指单倍体相较于二倍体特异开放的 ACRs;dmACRs 指二倍体相较于单倍体特异开放的 ACRs;dtACRs 指二倍体相较于四倍体特异开放的 ACRs;tdACRs 指四倍体相较于二倍体特异开放的 ACRs。
(B)箱线图展示远端差异 ACRs(diffdACRs)、近端差异 ACRs(diffpACRs)以及同时存在远端与近端差异的 ACRs(diffdACRs & diffpACRs)所关联基因的表达变化。样本量分别为 n=546、544 和 57。(Mann--Whitney U 检验;p ≤ 0.05 为显著)。
(C)气泡图展示单倍体到二倍体、二倍体到四倍体转变过程中,不同 diffACRs 组内的转录因子结合基序富集情况。p < 1e-5。
(D)二倍体 vs 单倍体、二倍体 vs 四倍体之间差异表达转录因子(TFs)的比较,以及各转录因子家族中差异表达因子占家族总数的比例富集分析。差异表达转录因子数量越多,对应家族字体越大。
(E)拟南芥与大白菜生长调控因子(GRF)家族的系统发育树。右侧展示这些 GRF 基因的表达水平。星号(*)表示表达差异显著(倍数变化≥2,FDR ≤ 0.05)。
(F)IGV 截图展示 6 个差异表达 GRF 基因在大白菜不同倍性材料中的染色质可及性与组蛋白修饰水平。
(G)单倍体--二倍体转变过程中上调转录因子的互作调控网络。
本研究共鉴定到 229 个差异表达转录因子(附表 S25),其中GRF 家族显著富集(图 4D)。17 个 GRF 转录因子中有 16 个在二倍体中表达量显著高于单倍体,其中 6 个呈显著上调(图 4E)。这些 GRF 转录因子的表达与H3K4me3、H3K27ac 修饰呈正相关,与染色质可及性也存在一定程度的正相关(图 4F)。进一步分析表明,这些基因可分为两个亚家族:一个包含 BrGRF1、BrGRF5 和 BrGRF9;另一个包含 BrGRF6、BrGRF11 和 BrGRF13,均为拟南芥 AtGRF3 的同源基因(图 4E)。AtGRF3 是调控叶片大小的关键因子,主要通过促进细胞增殖发挥作用 [38,39]。在转录因子调控网络中,我们观察到 GRF 家族与 HB33 之间的互作显著富集(图 4G),提示 GRF 家族可能通过与 HB33 协同参与叶片发育调控。
2.5 BrGRF13 与 BrARF11 在大白菜结球过渡期叶片形态变异中发挥重要作用
为更精准地鉴定同源多倍化过程中调控叶片形态建成的关键转录因子,我们重点关注从不结球的单倍体到开始结球的二倍体转变阶段中富集的转录因子结合位点,及其对应基因表达的上调情况。共鉴定到 68 个转录因子,其中生长素响应因子家族成员 BrARF11与 6 个 GRF 家族成员(BrGRF1、BrGRF5、BrGRF6、BrGRF9、BrGRF11、BrGRF13)显著富集,且这些基因在二倍体中的表达量显著高于单倍体。
随后,我们选取AtGRF3 的同源基因 BrGRF13[38,39] 开展进一步研究。BrGRF13 在二倍体植株中的表达量最高,且位于三联体基因的显性亚基因组 LF 上。我们将CaMV 35S 启动子驱动的 BrGRF13 过表达载体转化拟南芥 Col-0,获得两个过表达株系(图 5A、B):OE-1、OE-2。半定量 RT-PCR 结果显示,正常生长条件下,OE-1 和 OE-2 株系中 BrGRF13 的表达水平显著高于未转化的野生型 Col-0。随后测定叶片大小发现,OE-1 和 OE-2 株系的叶片长度与宽度分别增加约 30% 和 50%(图 5C)。上述结果表明,BrGRF13 正向调控植物叶片大小,这与大白菜中二倍体叶片大于单倍体的表型观察结果一致(图 1A;附图 S1A)。

BrGRF13 调控叶片大小,BrARF11 调控叶片极性
(A)拟南芥中 2×35S‑Pro::BrGRF13 过表达株系的构建,以及转基因植株与未转化野生型植株间 BrGRF13 表达水平的半定量 RT‑PCR 比较,上方数字为 BrGRF13 过表达植株的株系编号。
(B)野生型拟南芥与 BrGRF13 过表达植株的表型。标尺 = 50 mm。
(C)Col‑0 与 2×35S‑Pro::BrGRF13 转基因植株的叶片长度与宽度测定(每种基因型 n=12 株)。数据以平均值 ± 标准差表示(双尾非配对 t 检验;p ≤ 0.05 为显著)。
(D)BrARF11 病毒诱导基因沉默(VIGS):pTY‑BrARF11 为顺式沉默植株,pTY 为空载体转化植株,pTY‑PDS 为转入 PDS 白化基因的植株。下方叶片展示表型叶片的弯曲状态。标尺 = 30 mm。
(E)BrARF11‑VIGS 植株的叶片表型,表现为近轴面卷曲。标尺 = 30 mm。
同样,调控叶片极性的 AtARF11 同源基因BrARF11在大白菜二倍体中高表达 [40]。我们从大白菜突变体库中鉴定到株系 S169 [41]。与野生型大白菜 A03 不同,突变体 S169 存在一个 G→A 的点突变,影响 BrARF11 前体 mRNA 的可变剪接,表现为不结球表型(附图 S8)。此外,通过病毒诱导基因沉默(VIGS)下调 BrARF11 后,BrARF11‑VIGS 植株表现为叶片远轴面卷曲(图 5D、E;附图 S9A、B),与二倍体结球期叶片向内卷曲的表型相反。这表明高表达的 BrARF11 可促使叶片向近轴面卷曲,而低表达则导致叶片向远轴面卷曲,提示BrARF11 参与同源多倍化过程中的叶片极性建成。
3. 讨论
全基因组复制(WGD)如何在进化过程中影响基因表达与表型(新性状)形成,是生物学中长期存在的核心科学问题之一。同源多倍化在二倍体与同源四倍体间对全基因组转录调控的影响通常被认为较为有限。例如,在经历 WGD 的酵母中仅鉴定到少量差异表达基因 [42]。类似现象也在水稻 [16]、马铃薯 [19]、玉米 [20] 及本研究中的大白菜中被观察到。然而出乎意料的是,从单倍体到二倍体的同源多倍化过程引发了大白菜显著的染色质重塑与转录调控改变,进而促使新表型的建立。对 3 个单倍体、3 个二倍体和 1 个四倍体基因型的差异表达基因进一步分析表明,转录组重编程主要发生在单倍体向二倍体转变阶段。尽管二倍体与四倍体间的差异基因数量相较于其他同源多倍体材料略有上升,但仍远低于单倍体与二倍体间的数量(附图 S6)。这表明多倍化对基因表达的影响并非简单的线性累积,而是在特定倍性阶段尤为显著。相比之下,二倍体到四倍体的基因组加倍对整体转录组的扰动相对较小,可能反映了第一轮基因组加倍后二倍体基因组已建立起稳定性与缓冲机制。上述结果也提示,多倍化主要在一个 "敏感窗口期" 影响新性状形成,而非仅仅通过基因剂量的简单增加实现。多倍化对全基因组基因表达的遗传与表观调控效应,以及由此引发的表型变化后果,可能在以往研究中被低估。此外,本研究结果表明,同源多倍化以倍性依赖的方式影响基因转录与性状发育。通过对同一遗传背景下三个倍性水平的大白菜同源多倍化系统进行研究,本研究深化了对同源多倍化的理解,并为在作物育种中利用单倍体材料提供了表观遗传与分子基础。
染色质可及性重编程已在包括作物在内的多种植物中被广泛研究,但同源多倍化响应的染色质重塑模式仍知之甚少。本研究分析了来源于同一基因组背景的单倍体、二倍体与同源四倍体大白菜的染色质动态,发现基因组剂量可驱动远端染色质开放区域(dACRs)的出现,并改变 dACRs 与近端 ACRs(pACRs)的比例,进而调控邻近基因的表达。因此,即使基因组大小未发生改变,同源多倍化仍可通过影响远端调控元件的比例来调控基因表达。这与以往认为 dACRs 出现可能与基因组大小相关的观点不同 [43]。棉花异源多倍化后 dACRs 比例上升的研究结果也支持本发现 [44]。此外,随着同源多倍化发生,染色质可及性与 H3K27ac 水平均上升。尽管远端 H3K27ac 区域数量也有所增加,但其变化幅度未超过染色质可及性的变化。部分 H3K27ac 上升区域与 H3K27me3 丢失相关,但大多数 H3K27ac 改变独立发生,表明同源多倍化过程中 H3K27ac 与 H3K27me3 的修饰变化在很大程度上相互独立。
芸薹属植物一个显著的基因组特征是核染色体伴随多个亚基因组存在,并表现出亚基因组显性效应。在大白菜中,低重复亚基因组(LF)相较于高重复亚基因组(MF1、MF2)的基因表达水平显著更高,从而确立 LF 为优势亚基因组,即 LF 显性效应 [7]。这种 LF 显性与转座子及其对应 24‑nt 小 RNA 的偏向性分布密切相关,而后者又与 RNA 介导的 DNA 甲基化相关 [31]。然而,同源多倍化是否以及如何塑造同源多倍体中的亚基因组显性效应,在很大程度上仍不清楚。本研究发现,在单倍体、二倍体与同源四倍体大白菜中,LF 亚基因组均表现出 H3K4me3 与 H3K27ac 显著富集、H3K27me3 明显降低以及染色质可及性显著增强的特征,表明LF 显性受表观修饰调控。此外,亚基因组显性一旦在同源多倍体中建立,短期的同源多倍化事件不会显著改变其优势地位。这表明 LF 显性的建立可能是一个渐进过程,不同于异源多倍体中转座子活性与亚基因组间遗传不亲和导致的快速亚基因组分化。同源多倍化后,三拷贝基因的差异表达比例显著高于单拷贝基因。多拷贝基因表达的这种动态变化可能打破原有表达平衡,进而形成新的转录组特征或基因功能 [45]。这提示三拷贝基因尤其易受基因组剂量效应影响,其表达变化可能反映了基因组的调整与适应过程,从而推动同源多倍化后新物种的进化。
同源多倍化后驱动 dACRs 区域偏向性分布的内在机制仍不明确。但本研究发现,同源多倍化过程中的差异染色质开放区域(diffACRs)主要定位于与 ERF、ARF、BPC 和 GRF 家族基因相关的转录调控元件。事实上,多个 GRF 家族基因表现出表达改变。值得注意的是,在杨树中已有研究报道 PpnGRF6 调控二倍体与三倍体的叶片大小 [46],表明 GRF 家族基因可能在不同植物物种中均受多倍化事件影响。在大白菜中,同源多倍化可同时影响与 AtGRF3 同源的 GRF 家族成员 BrGRF6、BrGRF11 和 BrGRF13,这可能与这些同源基因在芸薹科进化过程中的空间邻近性相关 [47]。尽管如此,本研究结果证实,GRF 家族基因参与叶片形态建成与结球过程,表明同源多倍化介导的染色质重塑可通过影响基因表达促使大白菜形成新性状。
综上,本研究以单倍体、二倍体与同源四倍体大白菜为独特实验系统,结合多组学分析,深化了对同源多倍化如何以倍性依赖方式改变全染色体组蛋白修饰、整体染色质可及性与转录组谱的理解。这些改变共同参与大白菜基因表达的表观调控、亚基因组显性维持、基因组进化与新性状形成,相关结论对其他植物物种也具有潜在参考意义。
4. 实验部分
植物材料与培养条件
单倍体材料通过对自交系'85‑1'进行游离小孢子培养获得 [32]。随后,用秋水仙碱处理单倍体植株诱导染色体加倍,获得二倍体植株;再以二倍体为材料,经秋水仙碱进一步处理获得同源四倍体植株。为保证不同倍性材料生长条件一致,所有植株上一代均通过组织培养同步繁殖,移栽前统一经生根培养基处理。2021 年 8 月 10 日,所有实验材料同时移栽至河北农业大学试验站塑料大棚(中国河北省保定市,东经 115.47°,北纬 38.87°N)。
在结球过渡期(播种后 60 天)[48],于上午 10:00--11:00 采集由内向外第 2 或第 3 片幼嫩叶片。用于表观基因组分析的样品,每个倍性设置2 个生物学重复,每个重复由对应倍性的 5 株植株混合而成。所有样品采集后立即液氮速冻,‑80 °C 保存备用。
另将 3 个独立单倍体基因型、3 个二倍体基因型和 1 个四倍体基因型在 MS 培养基上培养,选取大小一致的叶片,每个样品由 3 株相同基因型植株混合取样,立即‑80 °C 保存用于 RNA 提取,设置 2 个生物学重复。
RNA‑seq、ATAC‑seq 与 ChIP‑seq 文库构建与测序
总 RNA 使用 TRIzol™ 试剂(Invitrogen, 15596‑026)提取。RNA‑seq 文库由北京贝瑞基因构建,在 Illumina NovaSeq 6000 平台测序,数据为 150 bp 双端读长。
3 个独立单倍体、3 个二倍体及 1 个四倍体基因型的 RNA‑seq 文库使用 VAHTS Universal V10 RNA‑seq Library Prep Kit(Vazyme)按说明书构建,为每个样品添加标签序列。文库使用 VAHTS DNA Clean Beads 纯化,浓度用 Qubit 3.0 荧光计检测,片段大小分布用 Agilent 2100 检测(浓度 > 2 nM),双端标签文库在 SURFSeq 5000 平台(基因梦生物)测序。
ATAC‑seq 采用本实验室已建立的实验流程 [49]。取 1 g 冻样在 1 mL 冰上裂解缓冲液(15 mM Tris‑HCl pH 7.5,20 mM NaCl,80 mM KCl,0.5 mM 精胺,5 mM β‑巯基乙醇,0.2% Triton X‑100)中充分研磨。含细胞核的匀浆液经 40 µm 滤膜过滤 2 次。加入 DAPI(Sigma, D9542)标记的粗提细胞核上流式细胞仪(BD FACSCanto)分选。离心收集细胞核沉淀,用 Tris‑Mg 缓冲液(10 mM Tris‑HCl pH 8.0,5 mM MgCl₂)洗涤,加入 40 µL TTBL 缓冲液(Vazyme, TD501)配制的 Tn5 转座体,37 °C 孵育 30 min。
随后用 NEB Monarch DNA 纯化试剂盒回收整合产物,以 NEB Next Ultra II Q5 Master Mix 进行文库扩增,扩增后文库使用 Hieff NGS Selection Beads 纯化。
ChIP‑seq 采用已发表方法,抗体分别为抗 H3K27me3(Abcam, ab6002)[50]、抗 H3K4me3(Millipore, 07--473)、抗 H3K27ac(Abclonal, A7253)。文库使用全式金试剂盒(TransGen Biotech, KP201‑02)构建,由安诺优达完成测序,所有文库在 Illumina NovaSeq 6000 平台产生 150 bp 双端读长。
数据预处理
RNA‑seq、ATAC‑seq、ChIP‑seq 原始下机数据使用 fastp(v0.21.0)质控去接头 [51]。
RNA‑seq 读段用 HISAT2(v2.1.0)比对到参考基因组 [52]。
ATAC‑seq / ChIP‑seq 读段用 Bowtie2(v2.11.1)比对 [53],Picard(v2.16.0)去除 PCR 重复,SAMtools(v1.3.1)保留比对质量 MAPQ >10 的读段 [54]。
ATAC‑seq 与 ChIP‑seq 峰鉴定
使用 MACS2(v2.2.7.1)call peak [55],生物学重复之间的重叠峰视为可靠峰。
差异峰与差异染色质开放区域(diffACRs)
合并后的峰以 200 bp 窗口、50 bp 步长滑动划分。对 Tn5 插入计数或 ChIP 覆盖度进行标准化,使用 DESeq2 鉴定差异峰,阈值为倍数变化 > 1.5、峰长度≥200 bp [56]。
RNA‑seq 差异表达分析
使用 Stringtie 定量基因表达水平(TPM),featureCounts 计数 [57,58],DESeq2 鉴定差异表达基因,阈值为 | log₂FC|>2、FDR<0.01。
下游分析
diffACRs 的转录因子结合基序富集分析使用 MEME 软件,以 Jaspar 数据库为参考 [59,60],随机序列作为背景。
使用 ChIPseeker 根据与最近转录起始位点(TSS)的距离,将峰或 ACRs 注释到靶基因 [61]。
以 TSS 为中心的富集图谱使用 deepTools(v3.5.1‑1)的 computeMatrix 生成 [62]。
染色质状态注释
基于 H3K27me3、H3K4me3、H3K27ac 组蛋白修饰与 ATAC‑seq 信号的组合模式,使用 ChromHMM 划分染色质状态 [63],构建14‑状态模型,该模型稳定性好且便于下游生物学解释。
基因表达聚类
对差异表达基因进行 k‑means 聚类,鉴定样本间主要表达模式。
基因拷贝数分类
根据与拟南芥基因的同源关系,将大白菜基因分为三类:
1:1(单拷贝同源)、1:2(双拷贝同源)、1:3(三拷贝同源)。
拟南芥遗传转化
构建 BrGRF13 过表达载体,以引物 BrGRF13‑forward(5′‑ATGAACTATACAAAGGCGCGCCAATGGATTTGCAACTGAAGCAT‑3′)和 BrGRF13‑reverse(5′‑GATCGGGGAAATTCGAGCTCTCAATGAAAGGCTGTGTGGA‑3′)PCR 扩增全长 cDNA,插入含 CaMV 35S 启动子的 pMDC43 载体,获得 35S:BrGRF13 过表达载体。以不含插入片段的空载体作为阴性对照。
将重组质粒与对照分别转化农杆菌 GV3101,采用农杆菌介导法转化拟南芥 [64]。在含 18 mg/mL 潮霉素的 1/2 MS 平板筛选转基因植株,使用纯合 T3 代株系进行表型与分子鉴定。
大白菜病毒诱导基因沉默(VIGS)
植株在 22 °C、光周期 16/8 h、相对湿度 50% 的培养箱培养。两周后通过基因枪轰击将含目的片段的 pTY 载体导入幼苗,以 pTY 空载体和 pTY‑PDS 作为对照 [65]。
将 1 µg 质粒 DNA 包裹金粉,依次加入 50 µL 2.5 M CaCl₂和 20 µL 0.1 M 精胺,冰上静置 20 min,振荡 30 min。随后用 70% 乙醇洗涤 1 次、无水乙醇洗涤 2 次,保留 10 µL 悬液。使用 PDS 1000/He 基因枪(BioRad)轰击。
轰击后植株立即移入基质,暗培养 24 h,随后转入 22 °C、16/8 h 光周期温室培养。观察幼苗表型,qRT‑PCR 检测目的基因沉默效率。
统计分析
除特殊说明外,所有统计分析与绘图均在 R 软件(4.2.2 版)中完成。实验数据以平均值 ± 标准差(mean ± SD)表示。
具体统计方法:
图 2C、3D 分类数据采用Fisher 精确检验;
图 2D、4B、附图 S6B、S7B 采用Mann‑Whitney U 检验;
图 5C 采用Student's t 检验;
附图 S1B 采用单因素方差分析 + Tukey HSD 事后检验。
除特殊标注外,显著性水平设为 p ≤ 0.05。