Analysis of the Coptis chinensis genome reveals the diversification of protoberberine-type alkaloids
黄连基因组解析揭示原小檗碱类生物碱的分化机制

摘要
黄连(Coptis chinensis Franch.)隶属于毛茛目,是一类具有重要药用价值的早期分化真双子叶植物 。本研究完成了黄连高质量染色体水平基因组组装与基因注释。系统发育与比较基因组分析明确了黄连的系统发育地位,并证实毛茛科植物共同经历过一次古老的全基因组复制事件。
本研究系统鉴定了黄连体内参与原小檗碱类生物碱 生物合成的相关基因。其中,基因组局部串联复制事件,促使毛茛目特有的细胞色素 P450 家族CYP719 基因家族成员发生扩张。在小檗碱合成通路中,编码 **(S)- 加拿大麻碱合酶 ** 的核心 CYP719 基因具备多样的生物学功能,该特性对黄连中其他小檗碱类衍生物生物碱的分化形成起到关键作用。
本研究不仅阐明了早期分化真双子叶植物的基因组演化特征,也为毛茛目植物的基础遗传研究与药用应用研究提供了优质的模式参考基因组。
引言
黄连属植物是全球范围内极具药用价值、可守护人类健康的珍贵中药材。其根茎即中药里的黄连 ,数千年来一直被收录于各类传统中医经典方剂之中。早在中国汉代(公元前 202 年 --- 公元 220 年),《神农本草经》便首次记载了黄连的药用功效;至明代(公元 1368 年 ---1644 年),药物学与植物学巨著《本草纲目》已对黄连的药理作用及使用方法进行了详尽记述。
黄连味苦,其主要药效活性成分为原小檗碱类生物碱 ,包括小檗碱、黄连碱、药根碱、巴马汀、非洲防己碱、表小檗碱及木兰箭毒碱等。已有大量研究证实,这类生物碱不仅可用于治疗各类感染性与炎症相关疾病,在心脑血管疾病、糖尿病、癌症及神经系统相关病症的预防与治疗方面也具备重要药理活性。
黄连属植物隶属于毛茛科,在现存被子植物演化谱系中占据十分关键的系统发育地位。毛茛科包含两千余个物种,大多为草本植物;其中黄连属约含 15 个物种,大多局限分布于东亚至北美地区的暖温带区域与寒温带针叶林地带。在中国,味连 (黄连)分布范围较广,其干燥根茎也是中药材黄连最主要的药用基原。
毛茛科是早期分化真双子叶植物中的重要演化支系,也是衔接核心真双子叶植物、其他基部被子植物以及单子叶植物的过渡类群。但目前毛茛科植物基因组研究资源十分匮乏,极大限制了人们深入解析该类群基因组演化特征,以及厘清其与其他真双子叶植物系统发育关系的相关研究。
以往研究常以日本黄连、罂粟、花菱草为模式材料,开展苄基异喹啉类生物碱 的生物合成机制研究。该类天然产物成分结构复杂、类型多样,主要富集于木兰科、毛茛科、罂粟科、小檗科等少数植物类群中。罂粟体内主要富集吗啡烷类、酞基异喹啉类等生物碱,大多合成并积累于植株地上组织乳汁中;已有罂粟基因组研究鉴定出参与诺司卡品、吗啡烷类生物碱合成的基因簇,证实物种在演化过程中受到选择压力,进而推动这类生物碱快速形成与分化。
与之相比,黄连地下根茎中大量积累原小檗碱类生物碱的演化形成机制尚不明确,而探明该机制对揭示植物体内苄基异喹啉类生物碱的多样性分化规律具有重要意义。
本研究完成了黄连高质量染色体水平基因组组装,结合系统发育与比较基因组分析,明确了黄连在早期分化真双子叶植物中的系统发育地位;证实黄连在演化历程中经历过一次古老的全基因组复制事件,并系统鉴定了细胞色素 P450 家族基因,阐明该家族基因在黄连原小檗碱类生物碱合成与多样性分化过程中发挥的重要作用。本研究构建的黄连参考基因组,不仅为解析真双子叶植物演化提供了重要依据,也为后续毛茛目植物遗传基础研究与药用开发利用奠定了坚实基础。
结果
基因组测序、组装与注释
黄连为二倍体植物 ,染色体数目 2n=2x=18。经流式细胞术预估其基因组大小约 1.15 Gb,利用 k-mer(k=19)分析预估基因组大小为 1.02 Gb。
本研究采用纳米孔长读长测序技术,共产出约 660 万条单分子长序列,序列平均长度 13.7 kb,总原始测序数据量 85.9 Gb;经过滤质控后保留有效数据 73.8 Gb 用于基因组组装。
研究采用长短读长混合组装策略 :先利用纳米孔长序列完成基因组初步组装,再借助 108.9 Gb 二代 Illumina 短读长数据开展碱基纠错优化。初步组装共得到 1801 条 Contig 序列,Contig N50 长度达 806.6 kb,组装总长度 936.6 Mb。
后续利用 4.367 亿条 Hi-C 染色质构象测序双端数据进行染色体水平挂载,最终将序列锚定至 9 条染色体水平拟分子序列,挂载序列总长 916.5 Mb,占组装基因组总长的 97.9%,单条染色体最短长度均超过 85 Mb,组装完整性与连续性良好。

a 染色体水平拟分子序列(1--7 号染色体) b 转录本密度分布 c 基因密度分布 d 长末端重复反转座子密度分布 e DNA 转座子密度分布 f 双等位杂合单核苷酸多态性密度分布 g 基因组内共线性关系
为评估黄连基因组组装质量,研究将二代测序短读长比对至组装基因组,比对率达 98.6% 。结合 4 种不同组织的 RNA-seq 测序数据得到的转录本序列完成基因组注释辅助验证(图 1b、附图 1、附表 4);在 60616 条长度大于 1000 bp 的长转录本中,有 57533 条可成功比对到基因组上,序列覆盖度均超 50%。 采用植物保守单拷贝同源基因集开展 BUSCO 评估,结果显示黄连基因组中91.5% 的保守基因完整存在 ,其中注释基因集中完整保守基因占比 90.2%;片段化基因占 6.9%,缺失基因仅占 1.6%(附表 5)。综上表明,本次黄连基因组组装准确度高、完整性优异,组装质量与已发表的罂粟、香樟基因组水平相当。
本研究整合同源证据预测 与从头基因预测 两种策略,完成黄连基因组蛋白编码基因注释。剔除无效注释后,最终鉴定得到41004 个蛋白编码基因 ,其中 39496 个基因(约 96.3%)可锚定至 9 条染色体序列上;同时利用组织特异性转录组数据验证基因表达模式。 预测基因平均编码序列长度为 969 bp,单个基因平均含 4.6 个外显子(附表 6)。黄连基因组平均基因密度为每 22.8 kb 含 1 个基因,基因在染色体上分布不均,整体呈现染色体两端基因分布更密集 的特征(图 1c)。 约 87% 的基因获得功能注释,其中 79.6% 的基因可在 InterPro 数据库中匹配到同源功能序列(附表 7)。研究同时完成非编码 RNA 注释(附表 8),共鉴定得到 1134 个转运 RNA、492 个核糖体 RNA、1429 个小核 RNA 以及 106 个微小 RNA 基因。
重复序列、基因组杂合度与种群历史动态
本次组装基因组中,共注释屏蔽出585 Mb 重复序列 ,占基因组总长 62.5%(附表 9);其中长末端重复反转座子占比 41.0%(图 1d),DNA 转座子占 5.3%(图 1e),长散在核元件占 2.7%。 黄连基因组中长末端重复序列以Gypsy 型 为主,占基因组 35.5%,Copia 型仅占 5.4%,该组成特征与鹅掌楸、向日葵基因组高度一致,均表现为 Gypsy 元件数量远高于 Copia 元件。 长末端重复序列在染色体上呈非随机分布模式(图 1d),研究鉴定出完整 Gypsy 反转座子 13289 个、完整 Copia 反转座子 4387 个。基于完整转座子序列溯源分析得出:黄连基因组内 Gypsy 元件大规模爆发扩增发生在约 150 万年前,显著早于 Copia 元件的扩增爆发时间(约 250 万年前;附图 7),这也解释了两类长末端重复亚家族数量差异的形成原因。 研究还发现大量转座子(以长末端重复序列为主)分布于苄基异喹啉类生物碱合成基因上下游 1.5 kb 区间内,或直接位于基因内部(补充数据 1),暗示这类转座子可能参与调控生物碱合成相关基因的功能表达。
依托 9 条染色体上共计 4328940 个双等位杂合位点,估算黄连基因组平均杂合度为 0.47% ,即每 212 bp 存在 1 个杂合 SNP 位点。杂合位点在基因组内分布不均(图 1f):约 3.6% 的基因组区域每千碱基 SNP 数量不足 1 个,5.1% 的区域每千碱基 SNP 数量超 10 个;未检测到长度大于 1 Mb 的大片段纯合区域。 基于一致性基因组序列,利用成对序列马尔可夫溯祖模型分析黄连历史有效种群大小变化:物种在千万年尺度内种群数量仅存在小幅波动;直至约 10 万年前,黄连有效种群数量开始逐步下降,该时间节点与末次冰期的兴起高度吻合(附图 8)。
毛茛目系统发育基因组学
毛茛科植物属于典型早期分化真双子叶植物 ,在演化关系上处于绝大多数核心真双子叶植物的外类群地位。 为明确黄连精准系统发育位置,本研究选取黄连及其余 11 个已完成全基因组测序的被子植物物种,筛选得到 236 个严格单拷贝同源基因构建系统发育树(附表 10)。首先利用单拷贝基因串联序列构建最大似然物种树,再基于 236 个单基因树开展溯祖联合分析,两种分析方法得到的拓扑结构高度一致。 结果表明黄连与耧斗菜互为姊妹类群,二者同属毛茛科,且与罂粟科的罂粟、博落回亲缘关系最近(图 2、附图 9);上述四类物种共同组成毛茛目演化支,在系统发育中与其余主流真双子叶植物(核心真双子叶植物)互为姊妹分支(图 2)。 借助 MCMCtree 软件结合化石校正开展物种分化时间估算:黄连与耧斗菜的分化时间约为 7760 万年前;二者与罂粟科植物的共同祖先分化时间约为 1.173 亿年前;毛茛目植物与核心真双子叶植物、莲类植物所在演化支的分化时间约为 1.2 亿 ---1.4 亿年前,该结论与前人研究结果相符(图 2)。

基因家族扩张、收缩分别以带加号、减号 的数值表示;括号内绿色数字为各演化节点估算分化时间,绿色误差棒代表分化时间 95% 置信区间,单位为百万年;所有节点自举支持率均为 100%。系统发育树旁的韦恩图展示 4 种毛茛目植物间共有及特有基因家族的分布特征。
本研究将黄连蛋白组与系统发育分析中其余 11 种植物的蛋白组进行比对,探究物种演化特化特征。共鉴定得到 32181 个同源基因家族,包含 315336 个基因;其中所有物种共有的核心基因家族 7444 个(含 129109 个基因),黄连特有基因家族 2397 个(含 8652 个基因)(附图 10、附表 11)。 此外,4 种毛茛目植物共有的基因家族共计 10751 个,包含 69027 个基因;其中 42 个基因家族、352 个基因为毛茛目类群特有。
功能注释结果显示,这类类群特有基因显著富集于 **(S)- 去甲乌药碱合酶活性(GO:0050474)**、** 生物碱代谢过程(GO:0009820)** 等 GO 功能条目(附图 11),说明其大概率参与合成各类苄基异喹啉类生物碱下游通路的共有前体物质。 同时,** 转运蛋白活性(GO:0005215)与 电子载体活性(GO:0009055)** 相关基因家族也呈现显著富集。多数毛茛目植物为高海拔林下植物,上述两类功能基因富集有助于提升植株对弱光、低温、高盐等逆境的适应能力,同时增强植物防御能力。
基因家族演化分析表明,黄连基因组中有1083 个基因家族发生扩张 ,1301 个基因家族发生收缩 (整体检验P ≤0.01)(图 2);扩张基因家族中,大量细胞色素 P450(CYP)家族基因在各类功能通路中显著富集(补充数据 2)。
古老全基因组复制事件
基因年代分布与基因组共线性点阵图,直观证实黄连基因组经历过一次 ** 古老全基因组复制(WGD)** 事件(图 1g、图 3,附图 12--22)。 为解析黄连古老全基因组复制事件,首先统计重复基因的同义替换率(Ks )分布,再借助 R 语言mixtools包混合模型筛选符合全基因组复制特征的基因复制峰,最终检测到一处Ks 峰值约为 1.08 的复制事件,命名为 AQCOα(图 3a,附表 12)。
将该结果与耧斗菜基因组、云南黄连及黄连转录组的重复基因Ks 分布对比发现,后三者同样存在Ks 中值约 1.08 的复制峰值。该峰值对应的演化时间,早于黄连与耧斗菜物种分化时间(Ks =0.67),证明此次全基因组复制事件发生在黄连属与耧斗菜属物种分化之前的共同祖先中。
已有研究证实,博落回与罂粟基因组均经历过一次古老全基因组复制事件。本研究结合Ks 分布及物种同源基因分化速率,判定罂粟科全基因组复制事件(命名为 PASOβ,Ks =0.72)发生时间早于博落回与罂粟的物种分化时间(Ks =0.68),同时也早于毛茛科与罂粟科的类群分化时间(Ks =0.99)(附图 13、附表 13)。

a 黄连(整合转录组与基因组数据)、耧斗菜物种内同源重复基因同义替换率(Ks )分布直方图,以及黄连与耧斗菜种间同源基因同义替换率分布。 b--e 不同物种基因组两两比对的共线性深度比值。 f 黄连与葡萄种间同源基因共线性点阵图;红色圈标注典型大规模复制事件,体现二者2:3 的共线性对应关系。 g 毛茛目类群内已鉴定的全基因组复制事件,以及与多类群古多倍化搜索分析(MAPS)结果吻合、统计显著的基因复制集中爆发事件(MAPS3 中以星号标注)。各组 MAPS 分析所用物种以圆角方框标出,分析内类群物种以实线相连。
为证实黄连仅发生过一次古老全基因组复制事件,本研究将黄连基因组分别与无油樟、葡萄基因组开展共线性深度比对。黄连与无油樟整体呈现1:2 共线性对应模式,即无油樟基因组单个区段可比对匹配到黄连的两个基因组片段。由于无油樟自被子植物祖先基因组复制后未再发生后续全基因组复制,该 1:2 对应关系直接证明黄连仅额外经历一次 古老全基因组复制。
葡萄在真双子叶植物六倍化事件中发生过三次基因组加倍,以此为参照,黄连与葡萄基因组呈现2:3 共线性比例,与黄连仅发生单次全基因组复制的推论完全吻合。 进一步将黄连同毛茛目内的耧斗菜、罂粟基因组比对:黄连与耧斗菜为1:1 共线性关系,与罂粟则为2:4 对应关系,说明罂粟演化历程中先后发生两次 古老全基因组复制。
同步完成耧斗菜、罂粟分别与无油樟、葡萄的共线性深度验证:耧斗菜与无油樟为 2:1、与葡萄为 2:3;罂粟与无油樟为 4:1、与葡萄为 4:3。综上从共线性层面明确:黄连仅存在一次古老全基因组复制,罂粟则多发生一轮全基因组复制。
已有研究提出,耧斗菜经历的古老全基因组复制是真双子叶植物古六倍化事件的起始阶段,且该复制事件为所有真双子叶植物所共有。鉴于黄连是目前已知与耧斗菜亲缘关系最近、且共享此次全基因组复制事件的物种,本研究采用多类群古多倍化搜索法(MAPS) 验证该假说。
MAPS 依托单基因树拓扑结构,统计系统发育节点处共有基因复制事件数量,结合全基因组复制的阴性、阳性模拟数据判断复制事件真实性。 本研究设置三组 MAPS 分析:第一组以内含黄连、耧斗菜、罂粟 3 种毛茛目物种,莲、鹅掌楸、水稻、无油樟作为外类群;第二组物种组成不变,将外类群莲替换为葡萄;第三组以可可、桃、葡萄三种核心真双子叶植物为内类群,黄连、莲、鹅掌楸、水稻作为外类群。
结合后代类群共有基因复制占比,以及全基因组复制正负模拟结果分析发现:仅在三类核心真双子叶植物共有演化节点检测到与模拟结果高度吻合的基因复制爆发信号;但在莲与毛茛目、核心真双子叶植物与毛茛目共有节点处,均未检测到显著的基因集中复制信号。该结果无统计学证据支撑 "耧斗菜经历的全基因组复制是真双子叶植物古六倍化起始事件" 这一观点。
小檗碱生物合成相关基因
研究证实原小檗碱类生物碱主要富集于黄连根茎组织中,其中小檗碱含量最高,其次依次为黄连碱、巴马汀、表小檗碱与药根碱。 原小檗碱类生物碱的合成与分化均以 **(S)- 牛心果碱为核心中间产物,该物质源于苄基异喹啉类生物碱通用合成通路:多巴胺与 4 - 羟基苯乙醛在 (S)- 去甲乌药碱合酶(NCS)** 催化下缩合生成 (S)- 去甲乌药碱,逐步衍生形成各类下游生物碱。
小檗碱在植物界分布较为广泛,其完整合成通路基因已在日本黄连悬浮细胞体系中被系统解析。本研究将所有已功能验证的小檗碱合成通路基因,精准定位至黄连染色体序列及未挂载 Contig 序列上。 研究鉴定出多个具备活跃表达模式的同源基因拷贝,涵盖 NCS 基因(双加氧酶型、病程相关蛋白 10 型)、(S)- 去甲乌药碱 6-O - 甲基转移酶(6OMT)、(S)-N - 甲基乌药碱 3′- 羟化酶(NMCH)以及 (S)- 加拿大麻碱合酶(CAS)。 其中 5 号染色体上两个 6OMT 基因、2 号染色体上两个双加氧酶型 NCS 基因在基因组上排布距离极近,区间跨度分别约 120 kb、500 kb,证实其由基因组局部串联复制 产生;这类成对基因大概率存在功能协同作用,或已发生功能分化。但整体来看,小檗碱合成相关基因在基因组中排布较为分散,暂未发现完整的生物碱合成基因簇。
大量研究表明,植物生物碱的合成积累受WRKY、bHLH、AP2/ERF 三大转录因子家族调控。本研究在黄连基因组中鉴定得到 40 个 WRKY、134 个 bHLH、114 个 AP2/ERF 家族成员,分属不同亚家族。 已有日本黄连研究证实,转录激活因子 CjWRKY1、CjbHLH1 可正向调控几乎所有小檗碱合成结构基因的表达;本研究在黄连中同样鉴定出这两类转录因子各两个高表达同源拷贝。其中两个 bHLH1 基因编码区序列一致性达 96%,但分别定位于 4 号与 7 号染色体,基因组分布位置相距较远。
主导黄连生物碱多样性形成的细胞色素 P450 基因
依托三角叶黄连、云南黄连、黄连转录组数据,以及花菱草、罂粟等同目物种研究成果,学界已初步厘清除小檗碱外其余黄连生物碱的合成通路。 在黄连碱合成通路中,(S)- 金黄紫堇碱向 (S)- 刺罂粟碱的转化过程,需要在碎叶罂粟碱合酶(CFS) 与刺罂粟碱合酶(SPS) 依次催化下形成两个亚甲二氧基桥;花菱草中行使该功能的酶均属于 CYP719 亚家族。 小檗碱合成通路中催化 (S)- 四氢非洲防己碱生成 (S)- 加拿大麻碱的 CAS 酶,同样为 CYP719 家族成员;表小檗碱合成途径中的关键催化酶也归属该家族。此外,CYP80B2、CYP80G2 等 P450 家族成员也是塑造黄连生物碱组分多样性的核心功能基因。
以拟南芥、水稻 P450 基因为参考序列,在黄连基因组中初步筛选得到 512 条同源序列,剔除序列残缺、长度小于 300 个氨基酸的退化基因后,最终确定278 个可靠的细胞色素 P450 基因 ,分属 10 个大类、至少 38 个基因家族,体现出黄连 P450 基因极高的物种内多样性。 黄连 P450 基因数量与拟南芥(249 个)相近,少于水稻(411 个),远多于花菱草(188 个)与番木瓜(182 个);其中参与苄基异喹啉类生物碱合成的 CYP80、CYP82、CYP719 家族基因,在黄连与花菱草两类毛茛目植物中发生显著特异性富集。
早期分化真双子叶植物特含 CYP719、CYP749 两大 P450 新家族;其中 CYP719 由 CYP701 家族演化分化而来,为毛茛目特有基因家族 (马兜铃目植物中亦有少量分布)。本研究系统进化分析证实,黄连 CYP719 家族基因与 CYP701 家族亲缘关系最近。
黄连体内共鉴定 6 个 CYP719 基因:其中 2 个分别定位于 4 号、9 号染色体,其余 4 个在 3 号染色体 581926--638171 bp 区间内串联成簇分布 ,为典型串联复制产物。表达模式分析显示,多数 CYP719 基因表达量较低,仅 Cch00017825 在黄连根茎组织中呈现极高的特异性表达水平。

a 3 号染色体上由串联复制形成的CYP719 基因簇。 b 黄连中 CYP719 基因的组织特异性表达模式,表达量均经log2 对数转换 。 c CYP719 基因进化树中的毛茛科分支,完整进化树见附图 27;本研究鉴定基因以绿色标注。物种缩写:Aco 耧斗菜、Tfl 黄唐松草、Cch 黄连、Cja 日本黄连。 d 小檗碱、黄连碱、表小檗碱推测生物合成分支通路;绿色虚线框通路参考其他物种研究(黄连碱)或依据化学结构推导(表小檗碱);酶名称缩写见补充数据 5;已验证 CYP719 酶前缀标注物种名:Cj 日本黄连、Ec 花菱草、Am 蓟罂粟。 e--g 三种不同底物下 Cch00017825 体外催化活性的离子流色谱图;绿色色谱峰代表重组酶催化产物,黑色为空载体阴性对照;灰色标注为推测产物南天竹碱。图 4b 原始表达数据已附原始数据文件。
本研究将黄连 CYP719 基因序列整合至包含 13 种植物的 CYP719 系统进化树中,结果显示Cch00017825 与日本黄连中编码加拿大麻碱合酶的CjCYP719A1 聚为一支;Cch00017813、Cch00017817、Cch00017821 与 CjCYP719A18 聚类,Cch00005300、Cch00010495 与 CjCYP719A19 聚类。
同源序列比对显示:Cch00017825 与日本黄连 CAS 基因序列相似度达 99.11% ,与花菱草 SPS 基因相似度 68.07%,与花菱草 CFS 基因相似度 64.38%,与其余同源基因相似度普遍偏低。 由此证实该基因具备多功能催化特性 ,可在黄连苄基异喹啉类生物碱通路中催化形成不同亚甲二氧基桥结构;这也与此前三角叶黄连未鉴定出完整全长 CFS、SPS 转录本的研究结论相互印证。
目标 CYP719 基因生化功能验证
本研究利用酿酒酵母 异源表达系统,对 Cch00017825、Cch00017817、Cch00017821 三个核心 CYP719 基因开展体外酶活验证,实时荧光定量 PCR 验证基因表达水平。 将基因全长 cDNA 克隆至 pESC-His 载体,转化至改造内源 NADPH - 细胞色素 P450 还原酶的 WAT11 酵母菌株,分别以 **(S)- 四氢非洲防己碱、(S)- 金黄紫堇碱、(S)- 碎叶罂粟碱 ** 为底物进行体外催化实验。
酶活结果表明:仅 Cch00017825 可同时利用三种底物,其余两个基因无催化活性。
- 以 (S)- 四氢非洲防己碱为底物时,产物分子量减少 2.0152 Da,经标准品比对鉴定为 **(S)- 加拿大麻碱 **,证实其具备加拿大麻碱合酶功能;
- 以 (S)- 金黄紫堇碱为底物可生成分子量 326.1367 的产物,暂无标准品比对,结合文献推测为南天竹碱 ;
- 以 (S)- 碎叶罂粟碱为底物可催化生成 **(S)- 刺罂粟碱 **,证明该基因同时具备刺罂粟碱合酶活性。
黄连甲基转移酶的功能多样性
氧位甲基转移酶、氮位甲基转移酶是推动植物苄基异喹啉类生物碱演化与结构分化的核心酶类。本研究在黄连基因组中系统鉴定全部生物碱合成相关甲基转移酶基因,包含前文所述 6OMT,以及 7OMT、CNMT、4′OMT、SOMT、CoOMT 等关键酶基因。 其中 CoOMT 可催化非洲防己碱生成巴马汀;7OMT 参与药根碱合成通路,负责催化生成特殊 7-O - 甲基化结构。 系统聚类结果显示:除 6OMT 分为 6OMT1、6OMT2 两大独立分支外,其余甲基转移酶基因在黄连、日本黄连、云南黄连中进化关系高度保守。
讨论
毛茛目兼具极高药用价值与重要系统发育地位,本研究完成的黄连高质量染色体水平基因组,极大丰富了早期分化真双子叶植物的基因组研究资源,组装质量与鹅掌楸、香樟、睡莲、莲等基部被子植物基因组处于同一水平。 黄连基因组重复序列占比达 62.5%,其中 Gypsy 型反转座子占 35.5%,为基因组扩张的主要驱动元件。系统发育分析明确黄连属于早期分化真双子叶植物,与毛茛科耧斗菜互为姊妹类群。随着基部被子植物基因组数据不断完善,被子植物基部类群演化关系愈发清晰,毛茛目是衔接核心真双子叶植物与木兰类、单子叶植物的关键过渡类群,也是三孔花粉等重要性状演化的关键节点。
结合同义替换率分布、种间同源分化、基因组共线性与系统基因组学证据,本研究证实黄连与耧斗菜祖先共同经历一次古老全基因组复制事件 ,结论与千种植物转录组计划及耧斗菜基因组研究结果一致。 通过跨物种共线性比对证实:罂粟除已报道的一次全基因组复制外,还存在另一轮古老全基因组复制 ,该事件发生在博落回与罂粟物种分化之前,且未在毛茛科物种中发生,此前因基因组组装质量不足、缺乏近缘物种比对而被忽略,充分体现黄连参考基因组在毛茛目比较基因组研究中的重要价值。
有研究提出耧斗菜经历的全基因组复制是真双子叶植物古六倍化的起源事件,认为毛茛目、清风藤目等早期分化真双子叶植物均共享该多倍化事件,但该观点与莲基因组及大量被子植物转录组分析结论相悖。 本研究利用 MAPS 多类群古多倍化分析验证该假说:仅在可可、桃、葡萄等核心真双子叶植物 中检测到古六倍化共有复制信号;未发现毛茛目、清风藤目与核心真双子叶植物共享此次古老全基因组复制的统计学证据,该结果与近年多项基部被子植物多倍化研究结论一致。 由于早期被子植物演化分支较短、古六倍化后物种快速辐射分化,该演化假说仍需更多高质量基因组数据进一步验证;本研究明确黄连与耧斗菜共享单次古老全基因组复制,与主流基因组演化结论高度吻合。
细胞色素 P450 基因家族扩张与功能分化是植物次生代谢产物多样化的核心驱动力。在黄连苄基异喹啉类生物碱通路中,CYP719 家族介导的亚甲二氧基桥形成、CYP80 家族介导的羟基化与酚类偶联反应,共同塑造了原小檗碱类生物碱丰富的结构类型。 CYP719 为毛茛目特有基因家族,该家族成员主要负责生物碱合成中的亚甲二氧基桥构建;本研究证实串联复制 是 CYP719A 家族快速扩张与功能分化的主要方式,该演化模式同样存在于 CYP81、CYP82 等次生代谢相关家族中。
研究未在黄连基因组中鉴定到完整的生物碱合成基因簇,印证了学界观点:多数植物次生代谢通路仅依靠同一家族基因串联排布即可完成功能演化,极少形成由多类功能酶基因组成的典型代谢基因簇;花青素等经典通路基因也普遍呈散在分布,仅罂粟中诺司卡品、吗啡烷等特化生物碱通路更倾向于以基因簇形式演化。
核心基因 Cch00017825 兼具加拿大麻碱合酶与刺罂粟碱合酶双重活性,证实生物碱合成关键酶普遍存在功能泛化现象 。花菱草、蓟罂粟中的 CYP719 家族酶同样具备广谱底物识别能力;不同物种中的甲基转移酶也普遍存在底物杂泛性。 推测苄基异喹啉类生物碱合成相关基因起源单一,祖先酶类底物识别范围广、催化效率低,在物种分化过程中逐步发生功能特化,最终形成物种特异性生物碱代谢特征。
综上,本研究解析了药用核心物种黄连的高质量基因组,明确其与耧斗菜共享一次古老全基因组复制事件,为厘清真双子叶植物起源演化提供关键依据;结合代谢通路与体外酶活实验,阐明了 CYP719 家族串联复制、功能泛化驱动原小檗碱类生物碱分化的分子机制,为毛茛目药用植物遗传改良、活性成分定向合成提供重要理论基础。
材料与方法
试验材料
在中国传统中药材应用中,黄连、三角叶黄连、云南黄连的根茎均可入药,其中黄连应用最广、自然分布范围更大,而云南黄连属于濒危物种,因此本研究选取黄连 开展全基因组测序。 试验所用五年生成熟黄连植株采自湖北利川 ------ 黄连道地产区;采集新鲜叶片,采用经典十六烷基三甲基溴化铵法(CTAB 法) 提取基因组总 DNA。
基因组测序
纳米孔长读长测序
取 10 微克高分子量基因组 DNA,借助大片段打断仪进行随机片段化处理;利用磁珠筛选去除小片段 DNA,经末端修复、加 A 尾、连接测序接头后再次纯化,构建纳米孔测序文库。将文库加载至 R9.4 测序芯片,于 PromethION 高通量测序平台完成测序;原始下机数据采用 Albacore v2.1.3 软件完成碱基识别。
二代短读长测序
在 HiSeq2000 平台构建插入片段长度 180 bp、300 bp 文库,测序产出约 100 倍基因组覆盖度的二代短读长数据,用于基因组组装纠错;使用 FastQC 软件完成原始测序数据质控,剔除低质量序列与冗余序列。
依照标准流程构建Hi-C 染色质构象文库 :提取高质量基因组 DNA 进行原位交联,经限制性内切酶酶切后对黏性末端进行生物素标记,随机连接形成嵌合片段,富集标记片段并打断,最终完成文库构建并上机测序。
基因组大小预估
- K-mer 分析 :利用 Jellyfish v2.1.4 统计 k=19 的 K-mer 数量,结合 GenomeScope v1.0 软件估算,预估黄连基因组大小约 1.02 Gb。
- 流式细胞术测定 :以二倍体猕猴桃、南菊为内参标品,使用 BD Accuri C6 流式细胞仪测定黄连 2C DNA 含量,换算得出黄连细胞核 2C DNA 含量约 2.36 pg,推算单倍体基因组大小约 1.15 Gb(1 pg≈0.978 Gb)。
转录组测序
采集黄连根、根茎、小叶、叶柄等地上与地下组织样品,使用植物总 RNA 提取试剂盒提取总 RNA,经纯化后构建链特异性 mRNA 文库,利用 Illumina 平台完成转录组测序,为基因注释、表达分析提供数据支撑。
基因组组装与质量评估
采用长短读长混合组装策略 :先使用 Canu 软件校正纳米孔长序列,再通过 SMARTdenovo 完成初步基因组组装;先后利用 Racon、Pilon 软件完成两轮序列纠错。 针对基因组高杂合区域易产生冗余序列拼接问题,使用 Purge Haplotigs 剔除冗余序列、重新归类等位基因序列,优化组装结果。 通过 BWA-MEM 比对二代测序数据与转录组序列评估组装完整性,同时利用 BUSCO 软件评估保守单拷贝基因完整性。
基因预测与功能注释
使用 Trinity 软件对多组织转录组数据进行无参组装;整合近缘物种蛋白序列同源比对、转录组证据、从头预测三类方法,借助 Maker 软件完成蛋白编码基因预测,利用 Augustus 优化基因结构预测结果。 分别使用 RNAmmer、tRNAscan-SE、Infernal 软件预测核糖体 RNA、转运 RNA 及其他非编码 RNA。 蛋白序列通过 BLASTP 比对 NCBI 非冗余蛋白库、UniProt 数据库完成基础功能注释;利用 InterProScan 解析蛋白结构域与保守基序,获取 GO 功能分类;依托 KOBAS 软件结合 KEGG 数据库完成代谢通路注释。
重复序列注释
使用 RepeatModeler 软件从头预测基因组内重复序列,联合 Repbase 已知重复序列数据库,通过 RepeatMasker 完成全基因组重复序列注释与屏蔽。 依据完整 LTR 反转座子两端序列同义替换率,套用公式\(t=K/2r\)估算转座子插入扩增时间,核苷酸替换率设定为每年每位点\(1×10^{-8}\)。
基因组杂合度与种群历史动态分析
将二代测序 reads 比对至组装基因组,筛选高比对质量序列,经序列排序、变异位点检测获得全基因组 SNP 位点,统计基因组整体杂合度;利用 PSMC 软件结合同义替换速率与物种世代时长,推演黄连历史有效种群数量动态变化。
系统发育基因组学分析
选取 12 个代表性植物物种,利用 MUSCLE 完成单拷贝基因氨基酸序列比对,转换为编码序列后采用 RAxML 构建最大似然进化树,设置 500 次自举重复检验;借助 ASTRAL-III 整合单基因树构建物种一致进化树。 运用 PAML 软件中 MCMCtree 程序,结合化石分化时间校正,估算物种分化年代。 通过 OrthoMCL 划分同源基因家族,利用 CAFÉ 软件分析基因家族扩张与收缩事件。
全基因组复制事件分析
依托 DupPipe 流程鉴定基因家族并统计基因复制事件的同义替换率(Ks)分布,借助 R 语言 mixtools 混合模型筛选符合全基因组复制特征的 Ks 峰值;利用 MCScan 软件完成种内、种间基因组共线性分析,统计共线性区块与共线性深度,判定基因组加倍次数;通过 Python 版 MCScan 实现共线性图谱可视化。
多物种全基因组复制 MAPS 分析
采用 MAPS 分析方法验证真双子叶植物古六倍化演化假说:通过 OrthoFinder 筛选同源基因簇,PASTA 构建基因家族进化树,分别开展阴性模拟与阳性模拟。 阴性模拟依据物种基因得失速率模拟无全基因组复制背景下的基因复制数量;阳性模拟人为设定全基因组复制事件,对比实测数据与模拟结果,借助费希尔精确检验筛选存在显著基因复制爆发的演化节点,判定共享多倍化事件。
代谢物含量测定
采用高效液相色谱法测定黄连不同组织中小檗碱、黄连碱、药根碱、巴马汀、表小檗碱等生物碱含量。样品干粉经盐酸 - 甲醇混合液浸提,以乙腈 - 磷酸二氢钾缓冲液为流动相,在 345 nm 检测波长下完成色谱分离与含量测定,对照品均采用国家药品标准品。
基因家族分析
参照次生代谢基因簇定义标准(至少包含三类不同功能酶编码基因),使用 plantiSMASH 在线工具预测植物次生代谢基因簇;以日本黄连生物碱合成基因为探针,同源筛选黄连体内同源基因。 下载拟南芥、水稻细胞色素 P450 基因序列,筛选含完整保守结构域、氨基酸长度大于 300 的 P450 基因;检索比对获取甲基转移酶同源基因,利用 ClustalW 序列比对、MEGAX 构建系统发育树。
酵母异源表达与体外酶活验证
将目的 CYP719 基因构建至 pESC-His 表达载体,转化 WAT11 酵母表达菌株,以空载载体菌株为阴性对照。收集菌体破碎提取酵母微粒体蛋白,构建体外催化反应体系,加入不同生物碱底物完成孵育反应。 采用超高效液相色谱 - 串联飞行时间质谱仪鉴定催化产物,流动相选用甲酸水 - 乙腈甲酸体系,依托 MassLynx 软件完成数据采集与产物定性分析。
数据可用性
本研究所有原始测序数据、基因组组装序列已上传至 NCBI 数据库,生物项目号:PRJNA662860;生物样品号:SAMN18434929~SAMN18434940。研究相关分析数据均收录于正文及补充材料,所需试验材料与分析数据集可联系通讯作者索取;研究用到公共数据库包括 KEGG、UniProt、InterPro 等。