籽用大麻(Cannabis sativa)单倍型解析基因组组装及 Y 染色体与 X 染色体分化分析

大麻(Cannabis sativa L.)为二倍体雌雄异株物种,核型 2n = 20,因其农业用途广泛且次生代谢产物种类丰富,在基因组学研究中备受关注。目前已有的基因组测序研究多聚焦于雌性植株及高大麻二酚(CBD)品种,导致雄性特异性基因组结构的相关认知仍存在关键空白。尤为重要的是,已有基因组组装均缺少单倍型水平的 Y 染色体序列解析,阻碍了性别决定机制的深入研究,而该机制是大麻育种及药用应用的核心关键。比较基因组分析显示,其他物种中的雄性特异性区域(MSR),如胡杨的 761 kb、菠菜的 17.42 Mb,通常包含关键的性别决定基因 [1,2]。本研究填补了这一空白,构建了籽用大麻完整的单倍型解析 Y 染色体组装序列。该突破为性别决定候选位点的鉴定提供了基础,并为解析大麻性别相关性状建立了可靠的研究框架。
籽用大麻'榆社'的基因组组装与质量评估
基因组数据产出与大小评估
以山西地方雄性籽用大麻品种'榆社'为材料,利用 PacBio Sequel II 平台获得 26.27 Gb(测序深度 32×)高保真(HiFi) reads,并通过牛津纳米孔测序技术(ONT)获得 39.57 Gb(测序深度 49×)超长 reads(表 S1)。K-mer 频率分析显示,该基因组大小约为 816 Mb,杂合位点比例为 2.14%(图 S1)。鉴于 YSM 群体呈现较高杂合度,本研究采用 hifiasm 软件(v0.16,默认参数)进行从头基因组组装与单倍型分型,最终获得两条独立单倍型:YSM1(770 Mb)与 YSM2(804 Mb)(图 1A、1B,图 S2,表 S2、S3)。

图 1 籽用大麻雄株基因组组装与群体基因组分析
(A)YSM1 与 YSM2 的从头组装结果,分别注释得到 32 519 和 31 465 个蛋白编码基因。(B)单倍型解析的基因组特征。(C)YSM1 与 YSM2 的共线性分析。(D)基于混合分组分析(BSA)数据展示雄株基因组中 Y 染色体的覆盖深度差异。(E)X 与 Y 染色体的共线性图谱,包含同源区域的倒位结构。X/Y 染色体分化时间为 3770 万年前(Ks = 0.46)。(F)分子标记验证结果:鉴定出 84 Mb 的雄性特异性性别决定区(SDR),'榆社'(YS)与'巴马'(BM)品种间一致性达 100%。(G)Y 染色体重复序列类型及密度分布。X 轴:Y 染色体;Y 轴:转座元件占比。(H)X 与 Y 染色体同源基因对的 Ks 值分布。X 轴以 5 Mb 为滑动窗口。(I--L)大麻的系统发育关系与群体结构:系统发育分析显示不同化学型亚群具有独立的演化轨迹(I);主成分分析(PCA)表明纤维型与精神活性型品种在基因组水平上存在明显分化(J)。群体结构分析在 35 份材料中鉴定出 3 个遗传独立类群(K = 3),与前人化学分类结果一致。三组材料的核苷酸多样性与群体分化。圆圈内数值为群体核苷酸多样性(π),两圆圈间数值为群体分化指数(L)。
组装质量评估
单拷贝直系同源基因比对评估(BUSCO)显示,YSM1 与 YSM2 中完整的保守 BUSCO 基因比例分别为 98.8% 和 95.8%(表 S4)。值得注意的是,YSM1(LAI = 23)与 YSM2(LAI = 21)的长末端重复组装指数(LAI)显著高于已发表的大麻基因组(表 S5)。转录组比对分析证实组装质量较高,籽用大麻 RNA-seq 转录本比对至 YSM1 和 YSM2 的比例分别为 92.21% 和 92.03%(表 S6)。与现有大麻参考基因组相比,本研究的 YSM 组装在多项质量指标上均有显著提升(表 S7)。
籽用大麻 YSM1 与 YSM2 单倍型比较基因组分析
结合从头预测、同源比对及 RNA-seq 组装验证等多种策略,本研究在 YSM1 和 YSM2 单倍型中分别系统鉴定出 32 519 和 31 465 个蛋白编码基因(表 S8)。结构特征分析显示,YSM1 平均内含子长度为 495.68 bp,YSM2 为 513.26 bp;每个基因平均内含子数量分别为 3.39 和 3.31(表 S6)。
通过与多个公共数据库严格比对,两个单倍型中均有 96.1% 的预测基因完成功能注释(YSM1 为 31 233/32 519,YSM2 为 30 235/31 465)(表 S8)。BUSCO 分析进一步验证了基因预测的完整性,YSM1 与 YSM2 组装的全长序列覆盖度分别达到 98.3% 和 96.3%(表 S9)。
本研究发现两个单倍型均含有大量重复序列:YSM1 重复序列总长 574.53 Mb(占比 74.53%),YSM2 为 614.23 Mb(占比 76.33%)(表 S10)。转座元件是重复序列的主要组成部分,这一模式与其他复杂植物基因组一致。
籽用大麻性别决定区(SDR)的鉴定与特征分析
通过对 YSM1 与 YSM2 单倍型基因组的全面共线性分析,常染色体间呈现高度共线性,而 X 与 Y 染色体仅在拟常染色体区(PAR)末端存在共线性(图 1C)。为精确定位性别决定区,本研究选取 50 株雌株(BSA-F)与 50 株雄株(BSA-M)的混合 DNA 开展混合分组分析(BSA)。以 YSM1 为参考基因组时,各染色体覆盖度均匀;而以 YSM2 为参考时,Y 染色体起始 84 Mb 区段覆盖度显著降低,且雌株 reads 覆盖度显著低于雄株(图 1D,图 S3)。对不同遗传背景的 11 株雄株与 11 株雌株进行个体重测序验证,进一步确认该 84 Mb 区域存在雄性偏向的覆盖深度(图 S4)。X 与 Y 染色体间的同源共线性分析也凸显了该 Y 染色体区段的结构特异性(图 1E)。基于 SDR 区域随机引物 PCR 的雄性特异性扩增结果为上述结论提供了额外证据(图 1F,表 S11)。
本研究在籽用大麻 Y 染色体上鉴定出一个 84 Mb 的性别决定区(SDR),占 Y 染色体总长的 71%。与以往仅粗略界定 SDR 范围的研究不同,本研究首次清晰划定了其边界。该结果与前人关于植物 X/Y 染色体间存在广泛非重组区域的报道一致 [3]。结合比较基因组与 RNA-seq 数据的整合分析,我们鉴定到一个 Y 连锁基因 CsaJGB (Csa.2MYG00468 ),其表达模式具有雄性特异性。qPCR 验证显示,CsaJGB 在雄花组织中的表达量显著高于雌花(P < 0.01,Welch's t 检验)。上述结果强烈提示,CsaJGB 可能在大麻性别决定中发挥关键作用,既可作为主效决定因子,也可能是性别分化通路中的重要调控基因。
籽用大麻性别决定区比较基因组学
SDR 结构特征
籽用大麻 Y 染色体上的 SDR 区域重复序列密度极高(91.4%),其中 LTR/Gypsy 类反转座子占重复序列的 34.77%(图 1G)。比较注释显示,Y-SDR 区域含 570 个蛋白编码基因,而 X-SDR 区域含 1529 个,表明自 X 与 Y 染色体重组停止以来,Y 染色体发生了 63% 的基因丢失 [4]。在 SDR 区域共鉴定出 150 对配偶同源基因、19 个 Y 特异性基因及 34 个 X 特异性基因。相比之下,拟常染色体区(PAR)包含 1897 对配偶同源基因、121 个 Y 特异性基因与 123 个 X 特异性基因(图 S5,表 S12)。
演化分化分析
为估算性染色体分化时间,本研究计算了 SDR 与 X 染色体间 150 对同源基因的同义替换率(Ks)。剔除异常值后,平均 Ks 为 0.46(图 1H,表 S13)。以大麻与桑树 6350 万年前的分化时间为校正点,推算籽用大麻 X/Y 染色体分化发生在约 3770 万年前(95% 置信区间:3110 万--4430 万年前)[5]。
染色体重排
在 SDR 区域检测到显著的结构重排,相对于 X 染色体存在两个大型倒位片段(25.6 Mb 与 54.0 Mb)(表 S14)。该倒位事件导致 X 与 Y 染色体上 65 对基因位置发生改变,断裂点分别位于 SDR 的 1--65 号与 66--150 号基因区间。值得注意的是,倒位区域内基因组成存在差异,其中较大片段(54.0 Mb)包含 SDR 中 78% 的 Y 特异性基因。
Y-SDR 区域极高的重复序列含量(91.4%)与大规模基因丢失(63%)符合性染色体演化理论模型。25.6 Mb 倒位区段显著富集胁迫响应基因(P < 0.05,FDR 校正),提示其可能参与性别特异性环境适应。
大麻性染色体基因组特征
对 35 份遗传背景多样的大麻材料进行重测序分析(表 S15),结果显示性染色体呈现明显不同的演化模式 [6]。以 X 染色体为参考共鉴定出 1 635 026 个高置信变异(18.3 个 /kb),包括 1 422 211 个 SNP、98 894 个插入和 113 921 个缺失(InDel 合计 212 815 个)。而比对至 Y 染色体仅检测到 1 060 233 个变异(9.0 个 /kb),包括 923 502 个 SNP、63 454 个插入与 73 277 个缺失(InDel 合计 136 731 个)。
以 X 和 Y 染色体为参考估算的平均核苷酸多样性(π)分别为 0.0034 和 0.0008,表明 X 染色体遗传多样性更高,符合性染色体演化理论预期。这一模式可能源于两方面原因:(1)大麻驯化过程中受到强烈人工选择,尤其针对雄株的纤维或药用性状;(2)性染色体分化(约 3770 万年前)后重组抑制导致 Y 染色体逐步退化。
基于 X 染色体标记(选取 π 值较高位点)构建的系统发育树将材料划分为三个明显亚群:基部大麻类群(祖先基因型)、工业大麻类群(纤维品种)与药用 / 野生类群(精神活性品种)。这些亚群的核苷酸多样性水平相近(图 1I--L),提示其受到平行的驯化选择压力。比较基因组分析显示,SDR 区域受到的选择约束强于 PAR 区域,表现为 PAR 区域 π 值更高而 SDR 区域 Tajima's D 为正值,提示存在平衡选择。