The water lily genome and the early evolution of flowering plants
睡莲基因组与被子植物早期演化

摘要
睡莲隶属于被子植物睡莲目。无油樟目、睡莲目与木兰藤目共同构成被子植物ANA 基部类群 ,该类群是现存类群中最早与核心真双子叶等中生被子植物演化支分化的孑遗类群。本文报道蓝睡莲(Nymphaea colorata )大小为 409 Mb 的基因组序列。系统发育基因组分析表明:无油樟目与睡莲目依次为其余所有现存被子植物的姊妹支。结合蓝睡莲基因组及另外 19 个睡莲转录组数据,本研究在睡莲目物种中鉴定出一次全基因组复制(WGD)事件,该复制为睡莲科共有,且可能在莼科中同样发生。此次全基因组复制后保留的基因中,包含调控成花转变与花器官发育的同源基因。蓝睡莲中花器官 ABCE 同源基因呈广谱表达,佐证早期被子植物祖先的花器官决定遵循广谱活化的原始 ABCE 模型。睡莲演化出与中生被子植物趋同的花香、花色等吸引传粉者的花部性状,本研究在蓝睡莲基因组中筛选到上述性状的候选合成基因;花香组分与对应合成基因的演化特征表明,睡莲花香通路与中生被子植物花香通路为平行演化 。凭借独特的系统发育地位,蓝睡莲基因组为解析被子植物早期演化提供了关键依据。
正文
许多睡莲物种(尤以睡莲属为代表)花大艳丽,隶属于被子植物(又称有花植物),其优美的花姿深受法国印象派画家克劳德・莫奈等知名艺术家青睐。睡莲花的花被片(花外部器官)分化程度较低,但雌雄蕊俱全,且花香、花色类型丰富,性状特征与多数中生被子植物(核心被子植物,包含真双子叶、单子叶与木兰类)相近(补充说明 1)。此外,部分睡莲生长周期短、结籽量大,是研究 ANA 基部被子类群、解析被子植物早期演化事件的理想模式植物。其中蓝睡莲(Nymphaea colorata )基因组偏小(二倍体 2n=28,基因组约 400 Mb),花瓣呈独特蓝色,在育种工作中被广泛应用(补充说明 1)。
本研究依托 PacBio RSII 单分子实时(SMRT)测序技术完成蓝睡莲基因组测序组装:最终得到 1429 条 contig(contig N50 为 2.1 Mb),基因组总长 409 Mb,拼接为 804 条 scaffold;其中 770 条 scaffold 锚定至 14 条假染色体(扩展数据图 1、扩展数据表 1)。基因组完整度评估达 94.4%。本研究共注释 31580 个蛋白编码基因,预测重复序列总长 160.4 Mb,占基因组总长 39.2%(补充说明 3)。
依托蓝睡莲基因组数据,可厘清无油樟目、睡莲目与其余现存被子植物的系统发育关系(图 1a)。研究选取 6 种真双子叶、6 种单子叶、蓝睡莲、无油樟,依次分别以银杏、挪威云杉、火炬松 3 种裸子植物作为外类群,筛选得到 2169、1535、1515 个低拷贝直系核基因(LCN 基因)(图 1b)。以银杏为外类群、基于核苷酸序列构建低拷贝核基因进化树时,**62%(475 棵树中 294 棵)** 的基因树以高于 80% 的自展支持度显示:无油樟目为剩余所有现存被子植物的姊妹支(II 型拓扑,图 1c);改用挪威云杉、火炬松作为外类群时,分别有 57%、54% 的基因树支持该拓扑结构。基于氨基酸序列构建的低拷贝核基因树,系统发育结论与上述结果一致(补充说明 4.1)。

a 被子植物各大演化支三种主流拓扑进化关系。b 基于 6 种真双子叶、6 种单子叶、蓝睡莲、无油樟与 3 类裸子植物核苷酸序列,统计不同自展支持度(BS)对应的低拷贝核基因(LCN)进化树数量。c 依次选用不同裸子植物作为外类群,对比分别支持三种进化拓扑的基因树占比;占比 = 自展>80% 的 Ⅰ/Ⅱ/Ⅲ 型树数目 ÷ 有效总树数。d 115 种植物的系统发育树与分化时间标尺,分支节点蓝色横条代表分化时间估算值 95% 置信区间。e 图 d 分析所用 20 份睡莲目取样物种的花形态实拍图。
为降低物种取样稀疏带来的分析偏差,本研究整合 44 个基因组 + 71 个转录组序列重构被子植物物种树,取样覆盖 ANA 基部类群、真双子叶、木兰类、单子叶,外类群选用多种裸子植物(买麻藤、银杏、挪威云杉、火炬松)(方法部分)。后续构建 115 物种进化树时,依据筛选标准得到 5 套低拷贝核基因集(基因数依次 1167、834、683、602、445);五组数据集构树结果拓扑高度一致:无油樟目、睡莲目依次为其余所有现存被子植物的姊妹支 (图 1d、e,补充说明 4.2)。
依托 101 个严谨筛选的低拷贝核基因、结合 21 项化石标定开展分子钟定年:被子植物冠群分化时间为 2.34~2.63 亿年前;单子叶与真双子叶分化于 1.71~2.03 亿年前;睡莲科与莼科分化时间在 1.47~1.85 亿年前(图 1d)。
基因组共线性分析证实蓝睡莲经历过一次全基因组复制(WGD)(扩展数据图 1f、2a,补充说明 5.1)。蓝睡莲旁系同源基因的同义替换率(\(K_s\))分布在\(K_s≈0.9\)处出现特征峰,其余睡莲科物种也在相近\(K_s\)位置出现峰值,证明该次古老全基因组复制为睡莲科共同事件(图 2a,补充说明 5.2)。将蓝睡莲旁系\(K_s\)(物种内复制)与蓝睡莲 - 其他睡莲目 / 八角 / 无油樟直系同源\(K_s\)(物种分化)比对,提示本次 WGD 发生在睡莲科与莼科分化之后;但对共线性来源旁系同源基因家族的系统发育分析又表明:该 WGD 为睡莲科、莼科共有事件(图 2b,补充说明 5.4)。若后者结论成立,卡罗莱纳莼保留的复制基因极少,这也解释了莼自身旁系\(K_s\)曲线无明显复制峰的现象(补充说明 5.2)。考虑睡莲目不同支系替换速率存在分化,对蓝睡莲复制基因的绝对定年显示:该次 WGD 发生时间介于睡莲科 - 莼科分化前夕或分化临近节点(扩展数据图 2d,补充说明 5.3)。另一种合理假说:该 WGD 印记源自异源多倍化事件 ------ 睡莲科、莼科祖先支分化不久后发生跨支系杂交多倍化,形成睡莲科基干演化支(莼科未参与此次多倍化)(图 2d,补充说明 5.4)。

a 蓝睡莲共线性区块锚定旁系同源基因的\(K_s\)分布,以及蓝睡莲与若干睡莲目、被子植物物种间直系同源基因的\(K_s\)分布;红色箭头、黄色箭头分别代表蓝睡莲--萍蓬草 、蓝睡莲--卡罗莱纳莼 分化时间被低估、高估。b 全基因组复制系统发育基因组分析;括号内数字为保留莼复制基因、支持该复制事件的基因家族数目;分支下方数值是以\(K_s\)为单位的分支长度;双向箭头代表从标注节点至蓝睡莲的累积同义替换距离;以银杏(虚线分支)作为外类群;红点代表蓝睡莲绝大多数共线性锚定基因对的聚合分化节点;所有标注的复制事件在基因树中自展支持度均≥80%。c 左:WGD 发生于睡莲科与莼科分化之前的演化假说(黄色四星标注复制事件);右:该假说对应的基因树,卡罗莱纳莼丢失其中一个复制拷贝;两处红点代表蓝睡莲锚定同源对的分化聚合位点。d 左:睡莲科基干支系发生异源四倍体化 WGD 的演化假说(绿色四星):睡莲科、莼科祖先支分化后,两支祖先亲本杂交形成异源四倍体,其中一个亲本亲缘更近于莼;右:该假说对应的基因树;红点含义同 c。
睡莲演化支是被子植物早期分化类群之一,分化时间早于中生被子植物的大规模辐射演化,因此该类群是解析被子植物(尤其花器官)早期演化的关键材料。本研究在蓝睡莲中鉴定出 70 个 MADS-box 基因,包含花器官决定 ABCE 模型全套同源基因:AP1/FUL、AGL6(A 型,调控萼片、花瓣发育);AP3、PI(B 型,调控花瓣、雄蕊);AG(C 型,调控雄蕊、心皮);SEP1(E 型,协同 ABC 蛋白行使功能) 。对 MADS-box 基因及其上下游基因组区段的共线性与系统发育分析表明:种子植物分化前发生一次古老串联复制,诞生 A 型(FUL)与 E 型(SEP)基因的共同祖先(扩展数据图 3,补充说明 6.1)。受睡莲目共有 WGD 事件影响,蓝睡莲 C 功能基因 AG 产生旁系拷贝AGa 、AGb (扩展数据图 4)。同理,本次 WGD 产生的复制基因还包含心皮、雄蕊发育相关基因、成花节律调控基因、受生长素调控的昼夜开合相关基因的同源拷贝(扩展数据图 4--6,补充说明 6.2--6.4)。
蓝睡莲 ABCE 同源基因的表达模式基本匹配其推定的花器官建成功能(图 3a)。其中:蓝睡莲AGL6 主要在萼片、花瓣表达,FUL 主要在心皮表达,说明AGL6 在睡莲中承担 A 型基因功能 ;两个 C 功能拷贝AGa、AGb 分别高富集于雄蕊、心皮,且AGb 额外在花被片表达,提示 WGD 后二者发生亚功能分化,甚至新功能化 。另外,相较于真双子叶模式物种,蓝睡莲 ABCE 同源基因在花器官中的表达域整体更广(图 3b)。结合早期分化真双子叶、部分单子叶与木兰类中部分 ABCE 基因同样存在广谱表达的已有结论,推论:原始被子植物遵循广谱表达的祖先 ABCE 花发育模型 ;在中生被子植物(尤其核心真双子叶)演化进程中,ABCE 基因表达与功能逐步特化、通路趋稳(渠限化)。该结论也能解释睡莲目萼片、花瓣分化程度低的特征,与 "被子植物祖先花仅具一类花被器官" 的演化假说吻合。

a 蓝睡莲不同组织中 MIKCc 型 MADS 基因的表达模式。依据 II 型 MADS-box 基因的表达特征将基因划分为 3 个类群,营养器官与各类花器官分别和对应基因表达模式匹配。表达量采用\(\boldsymbol{\log_2(\text{FPKM}+1)}\)标准化;FPKM 即每百万比对 reads 中比对到外显子每千碱基的片段数。b 依托图 a 的基因表达丰度(柱高),提出蓝睡莲决定花器官属性的 ABCE 成花模型。
花香是吸引昆虫传粉者的嗅觉信号。无油樟花不产生香气,而蓝睡莲花朵可释放 11 种挥发性组分,包含萜类(倍半萜)、脂肪酸衍生物(癸酸甲酯)与苯环类化合物(图 4a)。蓝睡莲基因组共注释 92 个候选萜类合酶(TPS)基因,分属被子植物已知 4 个 TPS 亚家族:TPS-b、TPS-c、TPS-e/f、TPS-g;缺失负责中生被子植物倍半萜合成的 TPS-a 亚家族 (图 4b)。其中 TPS-b 亚家族在蓝睡莲扩张至 80 余个基因,NC11G0123420 在花组织特异高表达(扩展数据图 7),是蓝睡莲倍半萜合成的关键候选基因。癸酸甲酯在单子叶、真双子叶植物花香组分中均未见报道,蓝睡莲中该物质由 SABATH 甲基转移酶家族催化合成。蓝睡莲拥有 13 个 SABATH 同源基因,其中 12 个构成睡莲目特有分支(附图 41);NC11G0120830 在花瓣中表达量最高(图 4c),体外重组酶活证实:该蛋白为脂肪酸甲基转移酶,以癸酸为底物时催化活性最优(图 4d,补充说明 7.1)。上述结果表明:蓝睡莲花香合成通路的关键酶系,与中生被子植物花香合成途径为独立平行演化 (图 4e)。

a 蓝睡莲花挥发性香气组分气相色谱图;乙酸壬酯为内标(IS)。蓝色标注:甲酯类物质;红色标注:萜类物质。花香检测独立重复 3 次,结果一致。b 蓝睡莲与代表性植物萜类合酶(TPS)系统发育树,展示 a~h、x 共 8 个 TPS 亚家族。c 蓝睡莲 SABATH 基因表达谱,NC11G0120830 在花瓣中表达量最高。d 大肠杆菌异源表达 NC11G0120830 蛋白,以 6 种脂肪酸为底物测得相对酶活;以癸酸的催化活力定为基准值 1.0,数据为三次独立重复试验的平均值 ± 标准差。e 被子植物四大演化支中倍半萜、癸酸甲酯两类花香组分及其合成关键基因的有无分布(+ 检出 /−未检出);DAMT:癸酸甲基转移酶。
蓝睡莲因花瓣呈现罕见蓝色而极具观赏价值,该蓝色性状在观赏花卉中十分稀缺。为解析花瓣蓝色形成的分子机制,本研究明确 ** 翠雀素 - 3′-O-(2″-O - 没食子酰基 - 6″-O - 乙酰 -β- 半乳糖吡喃糖苷)** 是花瓣主要蓝色花青素(扩展数据图 8a--c)。比对蓝睡莲蓝瓣、白瓣两个栽培品种花青素合成通路基因的表达差异,筛选得到花青素合酶与翠雀素修饰酶编码基因,二者在蓝花瓣中表达量显著高于白花瓣;这两种酶催化花青素合成最后两步反应,是蓝色素合成的关键功能酶(扩展数据图 8d、e,补充说明 7.2)。
相较于无油樟及部分中生被子植物,蓝睡莲免疫与逆境应答相关基因发生显著扩张,包括 NLR 抗病蛋白、蛋白激酶、WRKY 转录因子编码基因(扩展数据图 9,补充说明 8)。睡莲是 ANA 基部类群中唯一全球广布类群,可在我国北方、加拿大北部等寒冷区域生存,推测上述基因家族扩张助力睡莲适应全球多样生境。
综上,蓝睡莲基因组可为比较基因组学、厘清 ANA 基部类群与中生被子植物深层演化关系提供参考;本研究在睡莲目中鉴定出一次特有全基因组复制事件,并从花器官建成、花香与花色等关键创新性状角度,深入解析被子植物早期演化规律。
材料与方法
基因组与转录组测序
选取幼嫩叶片提取基因组总 DNA 用于基因组测序;采集 18 种睡莲材料的叶片 RNA:蓝睡莲、芡实、莼、克鲁兹王莲、黄睡莲、多育睡莲、白睡莲、沼生睡莲、蓝埃及睡莲、红花睡莲、午夜睡莲、秋拉普睡莲、帕拉美睡莲、森林蓝女神睡莲、巨型睡莲'阿尔伯特・德・莱斯唐'、巨型睡莲杂交一号、通甘加纳睡莲、萍蓬草;另取蓝睡莲多组织样品开展转录组测序:成熟叶、成熟叶柄、幼花、幼叶、幼叶柄、心皮、雄蕊、萼片、花瓣、根。
PacBio 测序构建约 20 kb 插入片段的 SMRTbell 文库,依托 P6-C4 试剂在 PacBio RSII 平台上机,总计 34 个 SMRT 测序芯片,获得 550 万条 reads,测序数据总量 49.8 Gb。所有转录组文库采用 Illumina 平台双端测序。Hi-C 挂载文库以蓝睡莲嫩叶制备:甲醛固定叶片后裂解细胞,交联 DNA 经MboI 酶切过夜;粘性末端生物素标记、邻近连接形成嵌合片段,随机打断后筛选 500~700 bp 目的片段,富集含远距离交联互作的嵌合序列,构建双端测序文库,Illumina 测序得到 3.46 亿条 150 bp 双端 reads。
基因组组装与基因注释
基因组组装
原始 PacBio 测序数据总量 49.8 Gb、共 550 万条 reads,先过滤去除细胞器基因组序列、低质量、过短及嵌合 reads;采用 Canu 软件 (v1.3) 完成 contig 层级组装与序列自纠错;组装初稿使用 Arrow 进行第一轮纠错,再利用 Illumina 短 reads 通过 Pilon 软件进一步修正碱基提升组装准确度。使用 BUSCO (v3.0) 评估基因组组装完整度。Hi-C 双端 reads 唯一比对至组装 contig 后,依托 Lachesis 软件完成 contig 分群、染色体挂载与 scaffold 构建。
基因注释
以拟南芥基因结构为训练集,采用 Genscan、Augustus 开展从头基因预测 ;同时使用 MAKER 流程进行从头注释;基于 AED 打分筛选 MAKER 预测结果中与转录本证据匹配最优的基因模型。
睡莲演化地位与分化时间估算
依托 OrthoFinder 筛选低拷贝核基因(LCN);物种取样包含 6 种单子叶(浮萍、大叶藻、芭蕉、菠萝、高粱、水稻)、6 种真双子叶(莲、葡萄、毛果杨、拟南芥、番茄、甜菜)、蓝睡莲、无油樟,外类群为银杏、欧洲云杉、火炬松。LCN 基因筛选标准:蓝睡莲、无油樟、3 种裸子植物中均为严格单拷贝,且在 12 个单 / 真双子叶物种里至少 5 个物种保持单拷贝;依次以银杏、云杉、火炬松为外类群,分别得到 2169、1535、1515 个直系低拷贝核基因;剔除序列覆盖度<90% 的位点。核苷酸序列采用 GTR+G+I、氨基酸序列采用 JTT+G+I 模型,RAxML (v7.7.8) 构建单基因树。分别使用多物种溯祖模型、超矩阵法 解析基因树不一致(不完全谱系分选、替换速率异质性),进一步佐证无油樟为其余所有现存被子植物姊妹支。
拓展至 115 个物种,筛选 5 套 LCN 数据集(基因数:1167/834/683/602/445),联合超矩阵与多物种溯祖法构建被子植物物种树。
分子钟定年
选用 101 个 LCN 基因(共 205185 个位点),固定拓扑结构,全树使用 21 个化石标定点开展宽松分子钟贝叶斯定年;使用 PAML 套件 MCMCtree、近似似然法计算分支长度;采用谱系间速率自相关模型、GTR 替换模型、节点时间均匀先验;MCMC 设置:预热 50 万代,后续运行 1000 万代、每 250 代取样一次,两次独立运行检验收敛。因似然比检验否定全树速率恒定(\(P<0.01\)),额外用 TreePL、r8s 可变速率罚分似然法定年;三目、山茱萸目、樟目化石用作最小年龄约束,真双子叶冠群用三沟花粉化石(125 Ma)固定时间 ;对 101 个基因做交叉验证确定最优平滑参数 = 0.32;基于 RAxML 生成 100 棵自展树计算分化时间 95% 置信区间。
全基因组复制(WGD)鉴定
1. 共线性区块挖掘
LAST 软件两两全基因组比对;同源配对间距阈值 20 个基因、至少连续 4 组同源基因判定为共线性区块;QUOTA-ALIGN 筛选一对一共线性区块,剔除古老复制噪音区块。
2. 旁系同源 Ks 分布构建
全基因组蛋白 BLASTP(\(E<10^{-10}\)),mclblastline 聚类基因家族;MUSCLE 多序列比对,PAML/CODEML 极大似然计算每对同源 Ks;同一家族内 Ks>5 拆分为亚家族。为消除 Ks 数据冗余(n 个成员产生\(n(n-1)/2\)个 Ks):PhyML 构建亚家族基因树,每个复制节点下全部 m 组 Ks 权重统一折算\(1/m\),保证单次复制事件权重总和为 1。i-ADHoRe (v3.0, level_2_only=TRUE) 筛选共线性锚定基因对,对应近期 WGD 事件。
3. 物种间直系同源 Ks
InParanoid 筛选物种间一对一直系同源,同样 CODEML 计算 Ks;蓝睡莲分别与克鲁兹王莲、萍蓬草、卡罗莱纳莼、八角、无油樟的直系 Ks,用来对比 WGD 与睡莲目物种分化时序;以外类群八角搭配多种睡莲目物种,评估类群间替换速率差异,替换外类群为葡萄 / 无油樟结果一致。
4.WGD 绝对定年
收集 WGD 峰附近(\(K_s=0.7\sim1.2\))锚定基因对与峰值旁系同源用于 BEAST 绝对定年;每条复制基因对构建同源组,广谱取样:葫芦目 1、蔷薇目 2、豆目 2、金虎尾目 2、十字花目 2、锦葵目 1、茄目 1、禾本科 2、凤梨科 1、姜科 / 棕榈科择一、天门冬目择一、泽泻目择一,外加无油樟、银杏;最终 217 组锚定同源集 + 142 组峰值同源集。BEAST (v1.7) 非相关宽松分子钟、LG+G (4 类位点速率) 模型;参照 APG IV 系统发育树生成初始树;对数正态先验标定多处化石节点(锦葵分支、豆分支、非泽泻单子叶、真双子叶三沟花粉节点、根部节点);先运行无数据空链检验边际先验分布,微调真双子叶节点先验参数至根部边际时间符合 220 Ma。每个同源组 MCMC 运行 1000 万代、每 1000 代取样,Tracer 检验收敛(ESS≥200);合格 263 个同源组,全部 WGD 节点年龄合并后核密度估计 + 自展获得 WGD 峰值年代与 90% 置信区间。
5. 复制事件系统发育溯源(区分 WGD 发生位置)
12 个物种(8 种睡莲科 + 1 种莼科 + 八角 + 无油樟 + 银杏),从 101 个 LCN 中筛选跨全部物种的 23 个基因估算物种树 Ks 分支长度;OrthoMCL 聚类基因家族,剔除 Ks>5 的锚定对后合并异常家族,最终筛选 881 个含锚定对、基因数≤200 的家族;MUSCLE 比对 + trimAl 自动去低质区。RAxML (GTR+G):200 次快速自展后择优优化 ML 树;银杏外类群单系则定根,否则中点定根。根据基因树内节点映射物种树:区分复制节点 / 物种分化节点;沿基因树从复制节点回溯至物种分化节点,限定复制在物种树两节点间的分支;以自展值≥80%/≥50% 作为复制事件可信度阈值。最终 473 个家族(497 对锚定)复制落在物种树特定分支,其中 246 家族 (254 锚定) BS≥80%、364 家族 (380 锚定) BS≥50%。
花香组分检测、基因筛选与功能鉴定
参照已发表方法,采用动态顶空吸附法 收集蓝睡莲花挥发性香气物质,联用气相色谱 - 质谱(GC-MS)完成组分定性定量分析。将盛开离体蓝睡莲置于内径 10 cm、高 30 cm 密闭玻璃采集瓶中,顶空吸附收集 2 h;吸附填料 SuperQ 用 100 μL 二氯甲烷洗脱挥发性产物,洗脱液内添加乙酸壬酯作为内标。
采用安捷伦 Intuvo 9000 气相色谱搭配 7000D 三重四极杆质谱仪检测;色谱柱选用 HP 5 MS 毛细管柱(30 m×0.25 mm),高纯氦气作载气,流速 1 mL/min;进样量 1 μL、不分流进样,进样口温度 250 ℃;柱温初始 40 ℃保持 3 min,之后以 5 ℃/min 匀速升温至 250 ℃。质谱图谱与美国国家标准与技术研究院(NIST)质谱库比对完成物质鉴定。
通过反转录 PCR(RT-PCR)从蓝睡莲盛开花瓣中扩增NC11G0120830 全长 cDNA,连接至原核表达载体 pET-32a,测序验证序列无误后转入大肠杆菌 BL21 (DE3) 菌株异源表达;参照改良镍离子螯合琼脂糖亲和层析法纯化重组蛋白。甲基转移酶体外酶活分别采用放射性同位素法、非放射性法 两套体系:
- 放射性反应体系(50 μL):50 mM Tris-HCl(pH7.8)、1 mM 脂肪酸底物、1 μL¹⁴C 标记 S - 腺苷甲硫氨酸、1 μL 纯化蛋白;室温孵育 30 min 后加入 150 μL 乙酸乙酯萃取放射性标记产物,液体闪烁计数器测定放射性强度,表征酶催化活力。
- 非放射性体系以无放射性 S - 腺苷甲硫氨酸为甲基供体,顶空固相微萃取收集产物,GC-MS 鉴定产物化学结构。