The enigma of transposable element abundance: lessons from Arabidopsis
转座元件丰度之谜:来自拟南芥的启示

亮点
转座元件是遗传变异的重要来源。它们常被视作基因组中的双刃剑 :既能促进适应性进化,又会对基因组稳定性构成威胁。有效种群大小 是决定自然种群中转座元件最终演化命运的核心驱动力。参与转座元件转座的各类因子 ------ 包括遗传与表观遗传调控因子,以及环境胁迫 ------ 共同塑造了转座元件的丰度变异。阐明活性转座元件的进化机制,对于破解转座元件丰度之谜、推动转座元件在基因组工程中的应用至关重要。
摘要
转座元件(TEs)是多种生物基因组的重要组成部分,可产生效应显著的突变并影响适应性进化。尽管转座元件在诸多进化过程中发挥重要作用,但其丰度变异的调控机制仍属未解之谜。本文综述了拟南芥自然种群中转座元件进化动态的现有研究进展,重点阐述驱动转座元件丰度变异的作用力。此外,我们着重探讨表观遗传因子与环境胁迫对转座元件活性的影响,并总结自然种群中转座元件转座的遗传结构。最后,本文梳理了对活性转座元件(转座元件丰度的主要贡献者之一)的鉴定、表征及应用研究进展,并提出未来研究方向。总体而言,本文旨在通过梳理潜在驱动因素,解析转座元件丰度之谜。
转座元件:遗传多样性的动力引擎
正如麦克林托克最初提出的观点 1,转座元件(TEs)是一类广泛存在的重复 DNA 序列,其核心特征是能够在基因组内部发生移动 2。作为基因组突变的重要来源,转座元件的动态活动是自然种群中大量遗传多样性形成的基础 3,4,5。转座元件的进化问题长期悬而未决,要破解转座元件丰度之谜 (见术语表),就必须全面理解调控转座元件多态性的进化动力与分子机制,并阐明其在自然种群中的最终命运 ------ 是被固定保留还是被清除淘汰。遗传变异主要包括单核苷酸变异(SNV)、小片段插入缺失变异(indel)以及结构变异(SV)。转座元件插入是结构变异的主要类型,在拟南芥中已鉴定的结构变异里,超过 60% 均由 TE 插入造成 6。因此,持续发生的 TE 转座是自然种群遗传变异的核心来源之一 7。
拟南芥在全球广泛分布,且种群结构研究较为清晰 8。其丰富的基因组资源与明确的种群演化历史,使其成为研究 TE 拷贝数与分布如何影响不同遗传背景下生物适合度的理想模式系统。本文结合其他代表性物种,对拟南芥中调控 TE 丰度变异的进化动力与影响因子提出新见解。
转座的影响:一把双刃剑
TE 的转座是产生大效应突变的重要来源 9。尽管不同物种自然生态型间特定 TE 家族的转座活性存在差异,全基因组分析显示,TE 整体插入速率(见框 1)与单核苷酸替换速率大致处于同一水平 15。转座作用犹如一把双刃剑:一方面为植物适应环境提供有益突变的额外来源,另一方面也会提升有害突变风险,进而降低生物适合度 15。
框 1 不同遗传变异的进化速率
突变是遗传变异的根本来源,也是生物进化的核心动力。因此,研究进化需要明确自发突变速率以及新突变对适合度的影响。本文将 TE 转座速率与其他遗传变异(包括 SNV 和 indel)的突变速率进行比较,以评估其对遗传负荷与适应潜力的作用。通过对拟南芥突变积累(MA)株系的分析,SNV 的突变速率约为每世代每个位点 7×10⁻⁹,小片段插入缺失(indel)为 1.3×10⁻⁹10,11。而在拟南芥 MA 株系中未检测到新的 TE 插入事件 11,12,这一现象可归因于拟南芥中 TE 在表观遗传沉默作用下自发转座频率极低 13。表观遗传重组近交系(epiRILs)数据显示,TE 插入速率为每供体每世代 0.15--0.81 次,与小片段 indel 突变速率接近 13。但一旦转座启动,其速率会呈指数级上升,并迅速超过小尺度突变速率 13。相比之下,短串联重复序列(STR)的突变速率为每 STR 位点每世代 5.55×10⁻³,比 SNV 和 indel 高出六个数量级 14。
MA:突变积累(mutation accumulation)
转座元件的有害效应
目前普遍认为,绝大多数转座事件对宿主基因组有害,并与适合度下降相关(见框 2)。这一观点主要有三方面证据支持。首先,TE 在基因组区域的分布具有偏向性:TE 大量富集于着丝粒或近着丝粒区域,而在基因密集区域显著匮乏 15,22。这一模式支持如下假说:TE 最初在基因组中随机插入,但插入并破坏基因的 TE 会被纯化选择高效清除 22。因此,系统解析 TE 的有害性还需考虑其固有的插入偏好,仅依据分布模式进行推断可能产生偏差。近期插入(即较年轻)的 TE 在基因组中的分布有助于揭示这类固有插入偏好,因为它们受纯化选择的影响较小 23。通过校正插入偏好,能够更清晰地评估作用于 TE 的选择压力及其潜在有害效应(图 1Ai)。
框 2 TE 插入降低宿主适合度的主要途径
TE 插入主要通过四条途径降低宿主适合度。第一条途径是破坏基因或基因表达 16。插入编码区的 TE 可通过产生新的可变剪接位点,导致包含 TE 的外显子跳读,或引入提前终止密码子进而产生截短蛋白产物,从而改变转录本结构 17。其次,TE 可转录产生 RNA 或翻译出蛋白质,对宿主造成有害影响。在基因 - 转座子嵌合转录本中,需要更为复杂的调控机制(如表观遗传调控)维持 RNA 稳定性与环境响应 18。第三,非等位 TE 拷贝之间的异位重组会引发有害的染色体重排 19,20。最后,也是讨论相对较少的一点,是TE 的表观遗传沉默 21。宿主基因组通常通过施加抑制性表观遗传修饰来抑制 TE。尽管该机制可限制 TE 增殖,总体上对宿主有利,但 TE 区域的抑制性表观修饰可能扩散至邻近功能基因,进而影响宿主适合度 21。
综上,TE 插入可通过多种方式降低宿主适合度。

图 1. 转座元件对宿主的影响
(A)转座元件的有害效应。TE 富集于着丝粒或近着丝粒区域、在基因密集区域匮乏,这一分布特征表明 TE 具有有害性(i)。在近期未发生 TE 爆发的前提下,与近中性位点(四倍简并位点)相比,TE 插入的位点频率谱(SFS)中稀有等位基因过量,提示这类插入通常具有有害性(ii)。适合度效应分布(DFE)值也可用于量化 TE 的有害程度,DFE 值引自文献 15。基因区 250bp 内 TE(Genic250 TEs)指插入在基因上下游 250bp 范围内的 TE(iii)。(B)选择作用的鉴定方法。以近中性位点为参照,若 TE 呈现 U 型位点频率谱且高频率插入过量,可能提示部分 TE 插入受到正选择。(C)转座元件的适应性作用。TE 插入可促进植物对环境的适应(i),并可被宿主驯化以行使有益的生物学功能(ii)。(D)TE 与其他几类遗传变异的有害程度比较。数据引自文献 24。蓝色代表有害程度较低,红色代表有害程度较高。本图绘制于https://BioRender.com。
其次,在自然种群中,TE 通常以低频形式存在,这进一步支持其潜在的有害属性 15。纯化选择会降低携带有害 TE 插入个体的频率,进而塑造自然种群中 TE 的位点频率谱(图 1Aii)。尽管 TE 位点频率谱偏离中性预期常被视作纯化选择的证据,但近期 TE 活性爆发也可短暂产生相似的频谱模式 25,26。因此,基于位点频率谱准确评估 TE 有害性时,需要考虑转座速率的变化。为此,研究者已建立一种校正年龄后的 TE 插入位点频率谱与中性位点频谱比较的方法,该方法可有效抵御近期 TE 爆发造成的干扰 26。将该方法应用于拟南芥的研究显示,TE 插入的有害程度介于有害非同义单核苷酸变异与功能丧失(LoF)突变之间 24(图 1D)。在果蝇中,TE 插入同样表现出显著的有害效应,其位点频率谱向低频倾斜的程度最为强烈,表明其负面影响甚至超过功能丧失突变 27。这一差异或许可以解释,为何果蝇中有害 TE 相较于拟南芥呈现出更显著的协同上位效应 24,27。未来可将年龄校正的 TE 插入位点频率谱方法应用于果蝇或其他物种,以更稳健地估算其有害程度。
第三,TE 插入的适合度效应分布(DFE)为评估其有害影响提供了另一种直接的定量手段(图 1Aiii)。该指标同时依赖有效种群大小(N ₑ)与选择系数(s ),量化形式为二者的乘积N ₑs 28。通过对比假定中性位点(如四倍简并位点)与受选择位点(如基因区 TE)的位点频率谱,可推断适合度效应分布。以−N ₑs > 1 作为受选择位点有害的判定标准,在拟南芥中,超过 99% 位于基因内部或邻近区域的 TE 插入被预测为有害,这一比例高于错义突变和无义突变 15(图 1Aiii)。有害 TE 插入的普遍存在表明,TE 积累可能在自然种群中造成可观的适合度代价。
转座元件的适应性作用
尽管如此,越来越多的证据表明部分 TE 能够为宿主带来适应性收益。一方面,位点频率谱分析显示,某些 TE 在自然种群中呈现正选择信号 29,30(图 1B)。例如,对 201 份拟南芥生态型的全基因组扫描发现,约 2.3% 的多态性 TE 受到正选择 29。另一方面,TE 插入正被越来越多地认为是快速遗传与表型变异的重要驱动因子,助力生物适应多变环境。例如在拟南芥中,KNAT3 启动子区域的一个 Helitron 转座子插入,被认为参与了对强高原光照辐射的适应过程 31(图 1Ci)。在红花荠菜(Capsella rubella )中,研究证实开花位点基因 FLC 的 3′非翻译区(UTR)近期发生的一次 TE 插入影响了 mRNA 稳定性,使其稳态表达水平下降,进而促进早花 32。FLC 位点的 TE 插入可能推动了红花荠菜对地中海气候的快速适应,通过提早开花避开干热的夏季 32(图 1Ci)。此外,在果蝇 33,34 和人类 35 等其他物种中,也有 TE 与适应性相关的类似报道。
TE 还可被宿主招募或驯化,以行使有益的生物学功能 36,37,38。在拟南芥中,源自转座酶(类 Mutator 转座子)的转录因子 FHY3(远红光下胚轴伸长 3)与 FAR1(远红光响应缺陷 1)共同调控光信号通路,以优化植株生长发育 36(图 1Cii)。在作物中,TE 的驯化为遗传改良与育种计划提供了潜在应用方向,可用于提升农艺性状。一个典型案例是水稻中的 PANDA 基因,该基因起源于 Harbinger 转座子的驯化,在协调水稻穗数与粒型方面发挥关键作用 37。
驱动转座元件负荷变异的进化动力
TE 的进化动态受其固有属性(如转座速率)、基因组调控机制以及环境或胁迫相关因子影响。然而,TE 的最终进化命运很大程度上由种群水平过程决定,而这一点常被忽视。本节将讨论各类进化动力如何导致 TE 负荷变异,尤其聚焦于自然种群间的差异。阐明不同种群间 TE 负荷变异的机制,对于破解转座元件丰度之谜至关重要。
遗传漂变
鉴于大多数 TE 插入具有有害性,自然选择倾向于快速清除那些具有直接有害效应的插入 5,39,40。但为何轻度有害的 TE 在自然种群中仍普遍存在?漂变屏障假说提供了机制性解释:自然选择虽可提升某些性状的适应性,但这一优化的边界会受到遗传漂变强度的限制 41。遗传漂变是一种随机过程,可使特定 TE 的频率上升或下降,甚至在种群内完全固定或丢失。自然选择与遗传漂变的相对效率受有效种群大小(N ₑ)影响。在规模大、连通性好的种群中,自然选择能更高效地清除有害 TE 插入。与之相反,在小型或隔离种群中,弱有害或中性的插入可通过遗传漂变频率上升,甚至在种群中固定(图 2Ai)。

图 2. 驱动转座元件负荷变异的进化动力
(A)遗传漂变。种群历史动态(如瓶颈效应)可通过增强遗传漂变、降低纯化选择效率促进 TE 积累(i)。拟南芥(ii)24 与果蝇(iii)34 中 TE 负荷与有效种群大小N ₑ的相关性。(B)转座元件转座速率。转座与剪切并不处于平衡状态,转座速率通常远高于剪切速率(i)。种群水平更高的转座速率可促进 TE 积累(ii)。(C)重组率。重组清除 TE 的简要过程(i),以及 TE 通过降低交换(CO)发生进而影响重组图谱变异的方式(ii)。TE 与重组的关联:箭头方向代表可能的因果关系,"+" 为正相关,"−" 为负相关,"/" 为无相关性(iii)。(D)连锁选择与搭车效应。强硬性选择扫荡可快速将有益 TE 插入及其连锁等位基因在种群中推向固定(i)。软性选择扫荡作用于已存在的 TE 或多个新 TE,携带有益 TE 的多种单倍型可被扫荡至中等频率(ii)。背景选择可清除有害 TE 及其连锁的中性或弱有害等位基因(iii)。
一项近期针对拟南芥的研究发现,N ₑ与 TE 负荷呈显著负线性相关,为突变危害假说 提供了进一步支持,其中N ₑ可解释约 62% 的 TE 负荷变异 24(图 2Aii)。在斑翅果蝇(Drosophila suzukii )中,N ₑ同样可解释 90% 的 TE 含量变异 34(图 2Aiii)。与之相反,在动物类群中长期演化尺度的跨物种分析中,N ₑ与 TE 含量的关系仍存在争议,二者并未表现出明确相关性 43。这一争议可能源于不同研究所采用方法的差异。例如,不同演化支系间的异质性干扰会削弱 TE 含量与长期N ₑ之间的关联 43。因此,更合适的研究思路或许是在同一物种内或近缘物种间分析N ₑ与 TE 含量的相关性。
种群历史动态
由种群瓶颈、种群扩张等种群历史过程驱动的 TE 频率变化,能够解释自然种群中观察到的一大部分 TE 含量变异(图 2Ai)。这类变化同样主要归因于N ₑ的改变。例如,在琴叶拟南芥(Arabidopsis lyrata )中,经历极端瓶颈事件的北美种群(包括异交与自交类群),其固定的 TE 插入数量约为欧洲异交种群的五倍 30。类似地,入侵种群如斑翅果蝇与小麦叶枯病菌(Zymoseptoria tritici )在定植瓶颈后也表现出 TE 含量上升 34,44。
转座速率
另一个影响 TE 丰度的重要因素是转座速率 3。不同 TE 家族甚至同一家族内不同拷贝的转座速率均存在差异 13。早期理论模型认为,转座产生的新 TE 拷贝与剪切清除的拷贝数处于平衡状态 45。而事实上,TE 数量往往由该平衡状态的偏移所塑造(图 2Bi)。一旦 TE 转座被激活,转座频率会呈指数增长,导致新插入事件快速积累 13。在拟南芥中,长江流域种群 TE 负荷偏高的驱动因素之一便是更高的转座速率 24(图 2Bii)。
然而,转座速率对 TE 负荷的贡献并非总是表现为拷贝数上升。例如,在果蝇 P 元件入侵的平稳期,转座速率对拷贝数的影响仅处于次要地位 46。因此,转座速率对 TE 负荷的作用并非一成不变,其效应在不同物种、TE 家族及种群历史背景下存在差异 46,47。
重组率
重组率在不同基因组区域及自然种群间存在差异,进而造成基因组演化的异质性。TE 可通过重组被清除(图 2Ci)。在拟南芥中,全基因组水平的 TE 含量与重组率并未观察到显著相关,但按 TE 超家族划分后,则出现明显的家族特异性关联 48。例如,Gypsy 反转录转座子富集于着丝粒、基因稀疏且低重组的区域 48。在这些区域中,TE 插入更倾向于中性,因此被纯化选择清除的效率更低,从而得以积累 49,50,51。特别地,基因密度与 TE 含量呈显著负相关,提示当 TE 位于基因内部或邻近区域时具有有害性,易被纯化选择清除。综上,在拟南芥中,基因密度而非重组率 是塑造 TE 动态的主要因素 48,52(图 2Ciii)。
在果蝇中,TE 含量与重组率呈负相关 53(图 2Ciii)。与之相对,如前文所述,重组率似乎并非影响拟南芥 TE 含量的主要因素,这一差异可能源于交配系统的不同 19。自交物种中,同源位点上的 TE 存在等位配对,降低了异位重组发生的可能性。相应地,重组率在拟南芥 TE 含量塑造中的作用预期较弱 19。
TE 积累不仅是低重组率的结果,反过来也可能影响重组率。在果蝇中,TE 积累也可作为抑制重组的因果因素 52,54(图 2Cii)。综上,近期研究支持 TE 积累与低重组率之间存在双向作用,二者在一定程度上协同演化 52。
连锁选择与搭车效应
此外,TE 负荷还受连锁选择影响,包括提升有益 TE 插入频率的选择性扫荡(硬扫荡与软扫荡),以及清除有害 TE 的背景选择 55(图 2Di、iii)。这些过程通常伴随搭车效应,通过连锁不平衡改变中性或弱有害 TE 的频率 56。具体而言,当一个新的有益 TE 在种群中出现时,其频率可快速上升直至固定,并在种群中完成 "扫荡"。这类强硬性选择扫荡会通过搭车效应使与有益 TE 连锁的等位基因一同固定,即便这些位点本身不产生适合度效应(图 2Di)。软性选择扫荡则涉及对种群中已处于中等频率的选择等价等位基因的固定(包括对已有 TE 或多个新 TE 的选择)57,58(图 2Dii)。近期一项研究表明,选择性扫荡是拟南芥分布扩张过程中驱动 TE 负荷变异的动力之一 24。具体而言,TE 自身受到正选择、搭车效应,或二者共同作用,导致了长江流域种群的高 TE 负荷 24。
参与转座元件转座的调控因子
遗传与表观遗传调控因子,以及环境胁迫共同塑造了从转录激活到转座发生的 TE 动态。这些因子维持着 TE 转座与沉默之间的动态平衡,从而保障基因组稳定性。本节将讨论表观遗传组分与环境胁迫如何影响拟南芥个体内的 TE 转录与转座,并进一步解析拟南芥种群间 TE 丰度变异的遗传结构。
表观遗传调控
对 TE 沉默与激活的表观遗传调控涉及 DNA 甲基化、小 RNA 与组蛋白修饰 59,60。在植物中,TE 甲基化发生于三种序列环境:CG、CHG 与 CHH(H 代表 A/T/C),并常与组蛋白标记 H3K9me2 相关联 61。这两种表观遗传标记均能抑制 TE 转录与转座,从而维持基因组稳定。此外,TE 的转录激活可触发 siRNA 生成,进而通过非经典 RNA 介导 DNA 甲基化(RdDM)通路在同源位点启动从头 DNA 甲基化 62(图 3A)。一旦 TE 的初始甲基化建立,经典 RdDM 通路会强化 TE 沉默并维持甲基化状态 63。这类维持机制主要发生在常染色质区域,且对短 TE 尤为明显 65。与之相对,异染色质区内长 TE 的 DNA 甲基化维持需要染色质重塑因子 DDM1,其作用是使 DNA 甲基转移酶能够进入富含 H1 的异染色质区域 65,66(图 3A)。DDM1 与 RdDM 通路同时缺陷会导致 TE 广泛重新激活与转座爆发,表明二者共同维持 TE 沉默并保护基因组稳定性 67(图 3A)。

图 3. 参与 TE 转座的调控因子
(A)TE 沉默过程中非经典 RdDM、经典 RdDM 及组蛋白修饰通路。更详细内容参见综述 62,63,64。当 DDM1 与 RdDM 通路受损时,TE 会被重新激活。(B)响应环境胁迫(尤其是非生物胁迫,包括氮饥饿、UVB 和高温)的 TE 转录与转座激活过程。(C)从种群数据中解析 TE 负荷变异潜在的顺式作用元件 与反式调控因子 的研究策略。本图绘制于https://BioRender.com。
在拟南芥中,大量研究表明破坏表观遗传修饰组分可激活 TE 68,69,70。例如,同时敲除全部五种已知 DNA 甲基转移酶可获得无甲基化植株,进而触发多个 TE 的转录激活与转座,包括 AT1TE42210(ATENSPM3)、AT1TE49860(ATREP18)、AT2TE20205(ATENSPM3)、AT2TE42810(VANDAL21)和 AT5TE65370(ATCOPIA21)68。
除人工解除表观遗传沉默外,部分 TE 也可通过多种机制自发逃逸沉默,例如位置依赖性激活 、TE 序列突变以及抗沉默蛋白的产生 71。位置依赖性激活指当 TE 插入常染色质基因间区或必需基因邻近区域时,可因邻近基因表达而被激活,活跃染色质标记会结合在这些 TE 上并阻止其沉默 71。TE 序列突变指 TE 序列积累突变,降低宿主沉默通路对其识别能力,从而逃避抑制 71。在抗沉默蛋白方面,拟南芥中已发现 VANDAL 转座子编码的 VANC DNA 结合蛋白(VANC6 和 VANC21)可作为抗沉默因子发挥作用 72,73。VANC6 和 VANC21 可诱导 TE 区域广泛的 DNA 甲基化丢失,且与靶序列的协同进化使 TE 在对宿主损伤最小的前提下实现增殖。
种群水平的表观遗传学研究近年来成为新热点,为自然种群中的 TE 动态提供了全新视角 74,75。Bifrons 是拟南芥自然生态型中的一类 TE,其特征是在 DNA 甲基化与 H3K27me3 之间发生表观遗传切换,从而在 TE 生命周期的不同阶段均保持沉默状态 61。综上,这些来自种群表观遗传学的证据深化了我们对 TE 演化轨迹的理解。
环境胁迫
尽管环境胁迫通常作为表观遗传切换的触发因素,但也存在不伴随表观遗传改变的案例 76。为揭示环境胁迫在 TE 活性中的作用,本文总结了拟南芥中胁迫诱导 TE 激活的现有证据,涵盖依赖表观遗传与不依赖表观遗传两种情形。生物与非生物胁迫(如病原菌侵染 77、氮饥饿 78、UVB 信号 79 和高温 80,81,82,83,84)均可诱导拟南芥 TE 广泛激活。这类激活包括转录水平与转座水平的活性。然而,转录激活与转座激活在很大程度上并不等价。即便在无甲基化植株中,也仅有一小部分转录水平的激活与转座相关 68。
环境胁迫可影响 TE 的转录。例如,细菌胁迫可触发反转录转座子Évadé/EVD (ATCOPIA93)的转录 77。此外,氮饥饿可诱导拟南芥全基因组 TE 转录激活,且未检测到 DNA 甲基化及其他经典表观遗传通路的改变,但该研究未观察到转座现象 78(图 3B)。不仅如此,UVB 通过光受体 UVR8 信号直接拮抗从头 DNA 甲基转移酶 DRM2,导致 TE 富集区域 CHH 低甲基化,进而使 TE 转录去抑制 79。该响应涉及 TE 甲基化组与转录组的整体改变,而非仅 TE 转录激活 79(图 3B)。
此外,环境胁迫还可影响 TE 的转座。这一现象主要发生在一类热响应的 Copia 反转录转座子 ------ONSEN(ATCOPIA78)中(图 3B)。近期研究表明,当热胁迫与宿主表观抑制解除同时发生时,ONSEN 可在拟南芥中发生转座,而植物则通过主动强化表观 "刹车" 机制抵御潜在爆发 84。这类制动系统在植物物种中保守存在,有助于平衡基因组稳定性的短期维持与长期适应 84。
总体而言,环境胁迫可诱导 TE 转录激活,甚至触发转座。胁迫响应型 TE(如 ONSEN)反过来可促进植物适应性性状的产生,从而提升其在新环境中的适应潜力与适合度 82,85。
遗传结构
为解析自然种群中 TE 变异的遗传结构,全基因组关联分析(GWAS)已成为有效策略(图 3C)。具体而言,可将各 TE 家族的 TE 表达量与拷贝数变异作为 GWAS 的数量性状,分别代表转座的起始(转录)与最终结果,从而挖掘 TE 变异的调控因子 24。
调控 TE 转录的遗传因子多种多样。例如,RdDM 通路中的 RNA 依赖 RNA 聚合酶RDR2 在 GWAS 中与拟南芥 ATHILA4D 家族的表达相关,提示RDR2 的等位变异可能是 ATHILA4D 家族转录活性的调控因子 24。RDR2 的非参考单倍型在长江流域种群中普遍存在,这可能与该自然种群较高的 TE 负荷相关 24。
TE 转座的调控因子也得到了广泛研究。基于拟南芥种群 TE 拷贝数变异矩阵的 GWAS,鉴定出影响 TE 转座的潜在顺式作用元件 (TE 自身)与反式调控因子 (蛋白编码基因、miRNA 基因或非编码 RNA)15,22,24。值得注意的是,在解读关联峰时,应排除自身关联的 TE 以避免由存在 / 缺失变异(PAV)导致的顺式效应干扰;仅对固定 TE 进行分析可消除这类 PAV - 顺式干扰,尽管固定 TE 的序列变异仍可产生顺式调控效应 24。基于该策略,共鉴定出 64 个 GWAS 关联峰,包含 651 个基因与 9 个 TE,作为 TE 家族拷贝数变异的候选因果位点。以 ATCOPIA68 家族成员 AT1TE62960 的序列变异为例,该 TE 可能是导致该家族拷贝数变异的因果元件 24。
此外,部分影响 TE 拷贝数变异的因子并不在传统的顺式 / 反式调控框架内。广义线性模型显示,ATCOPIA78 家族的转座活性与降水季节性、昼夜温差等环境调控因子相关 15。在斑翅果蝇中,有 2000 个基因组区域在 GWAS 中与 TE 丰度相关 34。但尚无证据表明这些区域中的转录因子编码基因或 PIWI 互作 RNA(piRNA)通路基因与 TE 活性存在互作。一种可能的解释是,这些区域参与 TE 耐受性调控,而非直接控制其活性 34。
除 TE 表达与拷贝数变异外,基于 TE 甲基化变异的 GWAS 也揭示了与 TE 转座调控相关的遗传基础 86,87。同类研究还表明,TE 位点 H3K27me3 与 DNA 甲基化之间的表观遗传切换在遗传上与顺式元件及反式因子相关 61。尽管基于 GWAS 的正向遗传学可挖掘与 TE 负荷相关的候选顺式及反式调控因子,但其遗传基础大概率呈多基因性且高度复杂,仍需进一步整合与实验手段进行精细定位 15,24,87,88。
活性转座元件:TE 丰度变异的主要直接驱动力
活性 TE 是产生 TE 丰度变异最重要、最直接的引擎。目前有两种理论模型解释 TE 活性的演化:短期模型 认为 TE 活性受宿主等位基因演化影响;长期模型 则认为宿主与 TE 协同演化,常被描述为演化军备竞赛 5,89。扩增、分化、沉默与重新激活构成了 TE 的完整生命周期 71。在生命周期的沉默阶段,部分被重新激活的 TE 能够成功逃逸抑制,这类逃逸者被称为活性 TE ,它们可持续转座,并在多个物种中得到详细表征。
代表性物种中活性转座元件的鉴定
在拟南芥中,已报道的活性 TE 仅在表观遗传调控受损的条件下被观察到。本文将这类 TE 称为环境依赖型活性 TE ,与之相对的是水稻、果蝇、人类等物种中在自然条件下仍保持活性的 TE(详见下文)。
目前已构建两个拟南芥表观遗传重组近交系(epiRIL)群体,分别源自野生型(等基因)与met1 或ddm1 纯合突变体的杂交后代 90,91。epiRIL 群体为解析拟南芥活性 TE 提供了理想模型。在met1 突变体及met1 来源的 epiRIL 中,少数 TE 家族被激活,包括 ATCOPIA93、Pack-CACTA、VANDAL21、VANDAL6、Pack-MULE 和 ATENSPM2A 70,92,93。相比之下,ddm1 功能缺失可触发更为广泛的 TE 转座 94。在ddm1 突变体及ddm1 来源的 epiRIL 中,ATCOPIA13、ATCOPIA21、ATCOPIA31、ATCOPIA51、ATCOPIA63、ATCOPIA93、ATGP2N、ATGP3、ATRE1、VANDAL21、ATENSPM3 和 ATMU5 等家族均表现出活性 13,94。有趣的是,其中部分活性家族在 RdDM 通路缺陷突变体及完全缺失 DNA 甲基转移酶的植株中也被鉴定到 68,95。此外,绝大多数转座事件集中在三个家族:ATCOPIA93、ATENSPM3 和 VANDAL21,而其他家族的转座仅在极少数个体中观察到 13(图 4A)。在 107 个ddm1 来源 epiRIL 的 F8 代中,特有插入事件以 ATCOPIA93 为主(64.4%),其次为 ATENSPM3(22.5%)和 VANDAL21(11.2%)13。除表观遗传通路受损外,部分 TE 的转座还需要热激诱导,尤其是 ONSEN(见 "环境胁迫" 小节)。因此,拟南芥中的活性 TE 始终由遗传、环境或二者共同决定。

图 4. 四种代表性物种中的活性转座元件及活性 TE 检测方法
(A)拟南芥中的活性 TE 通常在表观遗传突变体和表观遗传重组近交系(epiRIL)中被观察到。红色标注家族活性最强;绿色高亮家族(又称 ONSEN)的转座不仅需要表观遗传通路受损,还需热激诱导。(B)水稻中mPing 的转座需要两个关键蛋白:ORF1 和 ORF2,二者均由Ping 编码。(C)果蝇中的 P 元件因第三个内含子的可变剪接而在生殖系中保持活性。在生殖系中,内含子 3 的可变剪接可跳过 TGA 终止密码子,使 P 元件的四个开放阅读框共同编码具有活性的转座酶以驱动转座。相反,在体细胞中,提前终止会产生抑制蛋白。(D)L1 反转录转座的简化过程。ORF1 编码具有核酸分子伴侣活性的 RNA 结合蛋白 ORF1p;ORF2 编码兼具核酸内切酶与逆转录酶活性的蛋白 ORF2p。ORF1p 与 ORF2p 均为 L1 反转录转座所必需。(E)可结合新插入事件 与eccDNA 检测 证据共同鉴定活性 TE。本图绘制于https://BioRender.com。
与拟南芥不同,水稻、果蝇和人类中活性 TE 的作用机制各具特点。在水稻中,mPing 是首个被鉴定的活性 DNA 转座子,也是所有生物中发现的第一个活性微型反向重复转座元件(MITE);它是由自主型转座子Ping 缺失变异而来的非自主元件 96。Ping/mPing 家族在近一个世纪内发生过多次爆发,至今仍保持活性,尤其在 EG4、HEG4、A119、A123 等近期驯化的水稻品系中更为明显 97,98。Ping/mPing 家族能够成功爆发主要源于两点:第一,尽管mPing 偏向插入基因区,但其偏好插入富含 AT 的靶位点,而水稻外显子富含 GC,因此对宿主的危害极小 99;第二,由于mPing 是Ping 的非自主缺失衍生物且不包含任何编码序列,宿主通过 RdDM 通路识别mPing 并不会沉默Ping 的表达 100。值得注意的是,Ping 较低的拷贝数使其能够逃逸宿主沉默 101。与之相符,Ping 带有活跃组蛋白修饰 H3K4me3 标记,使其保持转录活性并持续产生转座酶,催化mPing 发生大规模转座 100(图 4B)。与其近缘亲属Pong 相比,Pong 拷贝数更高且带有抑制性组蛋白修饰 H3K9me2 标记,因此转录沉默,无法催化mPing 转座 100。
在 TE 生命周期中,偶尔发生的 ** 水平转移(HT)** 进入新宿主,为 TE 提供了逃逸长期沉默的途径。经水平转移入侵后,TE 通常会在新宿主中发生转座爆发,随后被宿主防御系统抑制,恢复低活性状态,直至新一轮循环启动 5,71。一个典型案例是 P 元件,它是果蝇中研究最为透彻的活性 DNA 转座子 102。P 元件的入侵最初因其在生殖系中的活性导致表型效应而被发现,例如引发杂种不育(HD)103。种群研究表明,P 元件在 20 世纪 50 至 80 年代间通过从Drosophila willistoni 的水平转移,快速入侵了果蝇自然种群 104。宿主与 TE 的博弈随后限制了 P 元件的增殖,使入侵进入平稳期 105。即便如此,种群内的沉默并不完全,部分个体仍保留高活性 P 元件 46。P 元件的活性通过第三个内含子的可变剪接被严格限制在生殖系中(图 4C),从而最大程度减少对体细胞的损伤 106。
人类基因组中的活性 TE 主要来自长散在核元件(LINE)和短散在核元件(SINE)的三个家族。LINE-1(L1)是人类基因组中丰度最高且唯一具有自主活性的 TE(图 4D)。在人类 hg38 参考基因组约 7000 个全长 L1 元件中,目前仅有约 100 个仍具活性 107。另外两个活跃家族Alu 和 SVA 是非自主 SINE 元件,需借助 L1 的蛋白机器完成反转录转座 5。有趣的是,近期从 102 个后生动物基因组中预测出 130 个潜在活性 TE,其中 40 个可在人类细胞中表现活性 108。
综上,活性 TE 的分子机制具有高度物种特异性与家族特异性。这些案例展现了多样化的活性 TE 模式:拟南芥中依赖环境条件的激活、水稻中自主 / 非自主元件的协作、果蝇中水平转移入侵--宿主防御循环,以及人类中长期存在但数量稀少的自主元件。然而,除这些经典案例外,如何在不同物种或种群中高效鉴定并利用新型活性 TE,仍是重要且有待深入探索的开放性问题。
活性转座元件的检测方法
早期,TE 活性主要通过子代相较于亲本的表型异常来推断。例如,在果蝇子代中观察到的杂种不育综合征,推动了生殖系中活性 P 元件的发现 103。
随着高通量测序技术的发展,目前主要有两种检测活性 TE 的策略。第一种也是应用最广泛的方法,是利用种群水平重测序鉴定 **TE 插入多态性(TIP)** 或 TE 的存在 / 缺失变异(PAV)。近缘物种或个体间存在多态性插入,通常提示该元件具有活性。该方法已在拟南芥研究中得到成熟应用 15,22,24。然而,基于 TIP 检测非参考 TE 插入受限于短读长重测序,而 PAV 分析存在参考序列偏差。因此,基于组装的泛基因组正逐渐成为更可靠的 TIP 检测框架(图 4E),已在拟南芥 6,31、水稻 109,110 和果蝇 111 等多个物种中应用。该策略也可用于不同物种间 TE 的全基因组比较,但需注意,此类分析限定在共线性区域内更具生物学意义。
除全基因组测序(WGS)外,另一种可高效追踪潜在活性 TE 的全基因组策略是 ** 染色体外环状 DNA(eccDNA)** 检测 112。植物中已知可产生 eccDNA 的重复序列区域主要是长末端重复反转录转座子(LTR-RT),因此该方法目前常用于检测活性 LTR-RT(图 4E)。例如,通过大量 eccDNA 信号,在野生型水稻种子中鉴定出一个新型活性 LTR-RT,命名为 PopRice 112。LTR-RT 的活性也可通过染色体外线性 DNA(eclDNA)鉴定和病毒样颗粒分离来评估 113,114。近期,eccDNA 证据也已用于活性 DNA 转座子的检测 95,115。值得注意的是,eccDNA 的存在可作为 TE 活性的指征,但并不直接等同于转座事件 116。在 LTR-RT 生命周期中,转录与逆转录会产生 eclDNA;这些线性中间体既可作为新插入位点整合到宿主基因组,也可通过同源重组或非同源末端连接环化形成 eccDNA 112。因此我们认为,将 eccDNA 证据与基于 WGS 的 TIP 鉴定相结合,能更可靠地识别活性 TE 与真实转座事件。
基于活性转座元件的基因组工程技术
目前已开发多种基于 TE 的技术并在拟南芥中广泛应用,为基因组工程带来新突破 64。第一,利用 TE 在基因组中从一个位置转座到另一位置的特性,活性 TE 可用于诱变或激活标签。例如,两个玉米转座子系统(En-I 与 Ac/Ds)已在拟南芥中用于基因标签,助力多个生长发育相关基因的鉴定 117,118。第二,近期基于 TE 关联的 CRISPR/Cas 基因组编辑系统得到发展并应用于基因组工程 119。例如,通过共表达具有催化活性的 CRISPR/Cas 与水稻Pong 转座子,建立了转座酶辅助的靶位点整合系统,并在拟南芥中实现了转座酶介导的mPing 靶向插入 119。第三,源自细菌的 TE 也可用于可编程基因组编辑。IS200/IS605 转座子编码的 TnpB 蛋白被认为是 Cas12 核酸酶的可能祖先 120,并已在拟南芥中用作基因组编辑器 121。
综上,这些技术展现了活性 TE 在植物功能基因组学、合成生物学与基因组工程中的广阔应用前景 122。
总结与未来展望
作为遗传变异的主要来源,TE 不仅对基因组组成与稳定性贡献巨大,还推动拟南芥的适应性进化。尽管 TE 已从 "垃圾 DNA" 转变为公认的基因组功能关键参与者,但诸多进化问题仍未解决(见重要科学问题)。从自然种群视角揭示驱动 TE 丰度变异的动力,对于理解 "垃圾 DNA" 的进化意义至关重要。
尽管已开发多种基于短读长的 TE 检测优化算法(包括机器学习方法 123),但 TE 多态性的精准检测仍是主要技术挑战。如今,随着第三代测序技术的发展,基于组装的图泛基因组极大提升了 TE 多态性鉴定的准确性。除 TE 外,短串联重复(STR)、着丝粒卫星重复等其他类型重复序列的进化动态,也可借助泛基因组在自然种群中解析 14,49,50。
目前已有多种评估 TE 有害效应的策略,但在单基因座分辨率下精准量化 TE 有害性仍无法实现。未来基于人工智能的模型有望实现 TE 位点特异性评分,更精确评估其有害或有益潜力,深化对其功能角色的理解。
尽管本文综述了驱动 TE 负荷变异的几大主要动力,但基因流等其他动力是否同样发挥作用,仍是有待进一步研究的开放性问题。未来一个重要方向是构建整合多种 TE 负荷驱动因子的定量模型,评估其相对贡献。这类研究在多倍体系统中同样具有重要意义,基因组加倍可能使 TE 动态更为复杂。有趣的是,小麦等物种基因组包含大量 TE,这可能源于多轮 TE 扩张或 TE 清除效率降低 124。例如,同源多倍体Arabidopsis arenosa 的研究显示,相较于二倍体,TE 过量积累由纯化选择放松驱动,而非转座爆发 125。
参与 TE 转座的因子包括遗传决定因子、表观遗传修饰与环境胁迫。表观遗传组分的变异可驱动获得性性状遗传,为 TE 进化研究开辟新方向 126。更广泛、更系统的 TE 种群表观遗传研究,可阐明自然种群中更完整的 TE 调控网络。尽管环境胁迫可诱导 TE 转录激活,但氮饥饿等胁迫能否直接引发 TE 转座,仍是未来值得探索的重要课题 78。
随着对代表性物种中活性 TE 多样化激活机制的理解不断深入,一个显而易见的问题是:活性 TE 能否或如何被开发为基因工程与作物改良的创新工具。尽管已利用活性 TE 开发出多种技术,但仍可挖掘更多此类元件以提升其在功能基因组学、合成生物学与基因组工程中的应用效率。未来,阐明 TE 相关功能基因组学机制并拓展其在植物中的应用尤为重要。此外,TE 在着丝粒动态中扮演重要角色,并最终参与物种形成 49,127,128,但着丝粒反转录转座子的具体功能仍有待探索。作为新的研究热点,全面解析着丝粒偏好转座子动态与真核生物着丝粒快速序列演化的关系具有重要意义 129。综上,本文提出的这些思路将为未来研究提供富有价值的方向。
重要科学问题
- TE 转座事件能否作为植物未来适应潜力的预测标记?
- 如何利用更先进的算法在单基因座分辨率下评估 TE 插入的有害或有益效应?
- 哪些尚未被探索的动力可以解释自然种群间的 TE 负荷差异?
- 如何将驱动 TE 负荷变异的动力整合到定量模型中,以评估各自贡献?
- 如何更有效地将种群水平表观基因组数据与 TE 介导的遗传调控相结合,构建完整调控网络?
- 活性 TE 是否存在时空异质性?若存在,哪些机制调控其活性动态?
- 如何利用活性 TE 进行遗传改良与作物育种?
Acc:accession,生态型
COs:crossovers,交换
DFE:distribution of fitness effects,适合度效应分布
DN:deleterious nonsynonymous,有害非同义
dnSNVs:deleterious nonsynonymous single‑nucleotide variations,有害非同义单核苷酸变异
DSB:double-strand break,双链断裂
eccDNAs:extrachromosomal circular DNA molecules,染色体外环状 DNA
eclDNA:extrachromosomal linear DNA,染色体外线性 DNA
epiRILs:epigenetic recombinant inbred lines,表观遗传重组近交系
GWAS:genome-wide association study,全基因组关联分析
HR:homologous recombination,同源重组
HT:horizontal transfer,水平转移
IVS:intervening sequences,间隔序列
L1:LINE-1,长散在核元件 1
LoF:loss of function,功能丧失
MA:mutation accumulation,突变积累
Ne:effective population size,有效种群大小
NHEJ:nonhomologous end joining,非同源末端连接
ORF1 / ORF2:open reading frame 1 / 2,开放阅读框 1/2
phyA:photoreceptor phytochrome A,光受体光敏色素 A
piRNA:PIWI-interacting RNAs,PIWI 互作 RNA
RdDM:RNA-directed DNA methylation,RNA 介导 DNA 甲基化
SFS:site frequency spectrum,位点频率谱
siRNAs:small interfering RNAs,小干扰 RNA
SNV:single-nucleotide variation,单核苷酸变异
STR:short tandem repeat,短串联重复序列
SV:structural variation,结构变异
TE / TEs:transposable element /elements,转座元件
TIP:TE insertion polymorphism,TE 插入多态性
TIR:terminal inverted repeat,末端反向重复序列
tnSNVs:tolerated nonsynonymous single‑nucleotide variations,耐受型非同义单核苷酸变异
UTR:untranslated region,非翻译区