Phased telomere-to-telomere super-pangenome: definitive reference genome in plants
分型端粒到端粒超级泛基因组:植物领域的终极参考基因组

摘要
随着测序成本持续下降与生物信息分析算法不断革新,植物基因组学研究正迎来全新范式变革。单倍型分型的端粒到端粒完整基因组组装 与超级泛基因组 相结合,已然成为植物研究领域所需的终极参考基因组体系,可为基因遗传解析、分子设计育种及种质资源保护研究建立黄金研究标准。

图 1 分型端粒到端粒(T2T)基因组组装流程与评估指标 (A)测序技术与基因组组装技术发展历程;(B)核心组装评价指标,包含组装总长度、Contig N50、碱基质量值以及着丝粒、端粒等重复区域的组装解析水平;(C)端粒到端粒基因组组装分析流程。 缩略词 :BUSCO(通用单拷贝同源基因评估);LAI(长末端重复序列组装完整性指数);NGS(二代测序);TGS(三代测序)。
玉米 Mo17 基因组研究充分彰显了端粒到端粒组装技术的优势(图 1B)。以往玉米 B73 基因组组装存在超十万个序列缺口,而最新 Mo17 端粒到端粒组装基因组总长达到 2178.6 Mb,完整解析了全部重复区域结构,其中包含一段长度达 235 千碱基对的连续 TAG 三核苷酸重复序列,以及含有 2974 个 45S 核糖体 DNA 拷贝、总长 26.8 兆碱基对的核仁组织区。
甜瓜栽培品种 821 的分型端粒到端粒组装成果,进一步体现该组装策略的优越性:研究成功组装获得两套单倍型基因组,单倍型 1 全长 373.31 Mb,Contig N50 为 10.26 Mb;单倍型 2 全长 364.05 Mb,Contig N50 为 11.86 Mb。通过鉴定保守的 7 碱基端粒基序,科研人员在单倍型 1 的 12 条染色体上鉴定出 24 个端粒,在单倍型 2 中鉴定出 22 个端粒。
草莓品种夏威夷 4 号端粒到端粒基因组仅由 7 条 Contig 构成,总长 220.8 Mb,完整组装出全部 14 个端粒与 7 个着丝粒;其 BUSCO 基因组完整度提升至 98.8%,新增 1153 个基因结构注释,首次让蔷薇科植物基因组达到无缺口组装标准,实现近完整的端粒到端粒组装水平。
各类物种基因组组装的碱基精准度指标均实现稳步提升。玉米 Mo17 端粒到端粒基因组整体碱基准确率达 99.99%,碱基质量值为 42.33,K-mer 分析验证其序列正确占比达 99.92%。利用 Merqury 软件评估甜瓜 821 组装结果,单倍型 1 碱基质量值为 47.62,单倍型 2 为 45.86,远超传统基因组组装质量标准。
端粒到端粒组装技术实现了重复区域组装解析的重大突破(图 1C)。在甜瓜 821 单倍型 1 亚基因组中,鉴定出总长 250.66 Mb 的重复序列,占基因组比例达 61.85%,远高于以往甜瓜基因组研究报道结果。玉米 Mo17 组装完整破译 10 个着丝粒的全部结构,划分出高、低 CentC 重复序列含量两类着丝粒类型,厘清了这类以往难以解析的基因组 "暗区" 复杂结构。
端粒与亚端粒区域的精准组装也带来全新结构认知:玉米 Mo17 端粒平均长度为 26.1 千碱基对,长度区间介于 16 至 48 千碱基对之间,其中 1 号染色体短臂端粒最长,达 49.0 千碱基对,8 号染色体长臂端粒最短,为 17.4 千碱基对;亚端粒区域长度差异极大,平均长度 92.57 千碱基对,跨度为 1.78~357.13 千碱基对,最长与最短长度相差可达 200 倍。
从泛基因组到超级泛基因组:构建物种全域遗传图谱
传统泛基因组旨在依托单一参考基因组囊括群体遗传变异,但受限于样本数量不足存在明显局限。近期研究整合 11 个物种共 13 套染色体水平番茄基因组,构建属级尺度超级泛基因组;研究发现,在 40457 个泛基因家族中,仅有 54.0% 为跨物种保守核心基因,38.4% 为可变基因,7.6% 为物种特有基因。相较于以往栽培番茄泛基因组,该研究界定的核心基因数量缩减约 20%,表明跨物种基因组比对能够挖掘出大量以往被忽视的遗传变异(图 2A)。

图 2 分型端粒到端粒(T2T)超级泛基因组在挖掘隐性基因、捕获结构变异及育种转化中的应用
(A)属级超级泛基因组中的核心基因、可变基因与物种特有基因家族,显示跨物种抽样时核心基因收缩现象;(B)典型发现案例:玉米 ZmNRT3.1 基因缺失外显子的恢复与优化、水稻着丝粒功能基因 OsMAB 的鉴定,以及番茄中与性状关联的结构变异和野生特有基因(影响产量的结构变异与细胞色素 P450 基因);(C)转化应用流程:从基于图形的基因分型、单倍型定位,到功能验证(敲除 / 过表达 / 启动子检测),再到育种应用(基因渗入、基因编辑、基因组选择);(D)分型端粒到端粒超级泛基因组的应用场景。该整合框架支持基于结构变异的全基因组关联分析、基因挖掘、微进化与代谢分析,助力分子育种、作物改良与进化研究。
在玉米研究中,超级泛基因组成功找回玉米ZmNRT3.1 基因此前缺失的第 3 外显子,完善了基因结构注释。大豆泛基因组研究从构建 26 个图谱结构化泛基因组(鉴定出 28679 个可变基因家族),到整合多年生野生种质并挖掘出 64124 个(58.4%)多年生特有基因,揭示了跨物种与不同生活史策略下的大规模遗传创新。水稻研究中,基于 251 份核心种质构建的超级泛基因组,结合端粒到端粒参考基因组,功能验证了 12 号染色体着丝粒区的OsMAB 基因;该基因启动子区 6758 碱基对片段的缺失会显著影响分蘖数,发掘出隐藏在重复序列中的功能基因。
番茄研究中,整合野生与栽培种质的超级泛基因组显示,单核苷酸多态性全基因组关联分析仅能捕获 5.2% 的性状关联信号,而 21.3% 的信号依赖结构变异检测(如与芳香物质含量相关的 347 碱基对缺失);同时鉴定出野生特有细胞色素 P450 基因Sgal12g015720 ,其 244 碱基对缺失导致基因功能丧失,过表达该基因可增加分枝数并提高果实产量(图 2B)。
分型端粒到端粒组装 + 超级泛基因组:终极参考基因组
真正的 "终极参考基因组" 需兼具个体水平的完整性(分型端粒到端粒组装)与物种水平的遗传多样性(超级泛基因组) ,实现从 "单点" 到 "全域" 的全景解析。科研人员对西瓜属 7 个物种的 27 份基因型材料完成分型端粒到端粒组装,获得每份材料的无缺口全长基因组,构建的属级基因库规模扩大至原来的 1.5 倍,新增 11225 个基因。该组合策略可在精准单倍型背景下追溯农艺性状的进化轨迹。
多倍体物种亚基因组间高度同源,显著增加基因组组装与变异检测难度。未来研究策略可融合三代长读长测序与高精度短读长测序,辅以单细胞或染色体特异性测序及图形建模技术,实现多倍体背景下的精细单倍型解析。同时,开发适配多倍体的图形泛基因组算法,对解析其复杂进化过程与性状遗传机制至关重要。人工智能驱动的学习系统正逐步应用于基因组组装、注释与图形建模,在提升准确性与可扩展性的同时降低计算成本,推动自动化超级泛基因组研究体系的建立。
分型端粒到端粒组装与超级泛基因组的深度融合,突破了传统参考基因组在结构完整性与遗传多样性上的局限,在功能基因挖掘、结构变异分析与复杂性状解析中具备独特优势,实现从 "单一基因组" 到全景式 "基因组图谱" 的跨越。此外,将 "分型端粒到端粒 + 超级泛基因组" 研究范式从示范案例推广为可持续、可动态更新的研究资源,需依托充足且经济的高性能计算资源、可扩展的开源软件生态,以及人工智能驱动的自动化图形泛基因组构建与功能注释工具(图 2C)。
大型基因组端粒到端粒组装与超级泛基因组构建的挑战及实用策略
尽管分型端粒到端粒组装与超级泛基因组的整合是植物基因组学的前沿方向,但在实际应用中,测序成本、数据体量与计算可扩展性仍构成制约,小麦、甘蔗等超大基因组或多倍体物种尤为突出。正如 Gladman 等人强调,即便 PacBio HiFi 与 ONT 超长测序技术已成熟,实现完全无缺口组装仍需高测序覆盖度、大内存计算资源及多层 Hi-C 或光学图谱数据,对大基因组作物而言成本门槛极高。近期研究提出务实的成本控制策略:结合高保真测序读长与参考引导挂载技术,或采用部分 Hi-C / 光学图谱数据;例如 RagTag 软件已成功应用于多个物种,仅需少量辅助数据即可构建染色体水平组装。这类混合策略与图形化方法,无需投入全额端粒到端粒组装成本,即可灵活提升基因组连续性。
从应用层面看,成本与准确性的平衡主要取决于研究目标:开展功能基因挖掘或性状关联结构变异检测时,高完整性组装与超级泛基因组图谱通常足以揭示具有生物学意义的变异;而在多倍体进化、亚基因组剂量效应或染色体重排研究中,完整分型端粒到端粒组装仍是实现精准单倍型解析的必要条件。Garg 等人指出,将分型端粒到端粒参考基因组与跨物种超级泛基因组整合,不仅能提升变异解读准确性,还可加速基于结构变异的全基因组关联分析、等位基因特异性表达及代谢适应性分析等下游应用(图 2D)。
对育种与种质保护的启示
这一研究范式变革兼具学术价值与农业、生物多样性保护的现实意义。在分子设计育种 中,分型端粒到端粒组装可解析基因剂量效应与等位基因调控机制,结合超级泛基因组的遗传多样性,支撑精准性状预测与靶向基因编辑;超级泛基因组能挖掘野生近缘种中的功能基因,将其导入优良品种的同时,最大程度减少连锁有害等位基因的影响。例如,从野生番茄中鉴定的细胞色素 P450 基因,在栽培番茄中过表达后,果实产量提升 67.1%,为利用野生种质多样性实现育种增益提供了直接路径。
在种质保护与利用 领域,超级泛基因组绘制濒危物种与野生种质的遗传图谱,为资源保护提供科学指引。为应对气候变化与极端环境挑战,整合野生种质多样性的超级泛基因组,为基因编辑、转基因育种与基因组选择提供精准靶点,助力快速培育气候适应性品种。
在技术进步与研究需求的双重驱动下,植物基因组学正从单一参考基因组时代,迈向分型端粒到端粒组装与超级泛基因组融合的新时代。这一全新研究基础将重塑植物基因组学研究标准,并在未来十年成为遗传学、分子设计育种与植物保护领域的核心驱动力。我们呼吁植物科学界将 **"分型端粒到端粒 + 超级泛基因组"** 确立为植物基因组学研究的标准参考范式。