MagnoliidsGDB:木兰类植物基因组数据库--文献精读252

MagnoliidsGDB: An integrated functional genomics database for magnoliids

MagnoliidsGDB:木兰类植物功能基因组整合数据库

ANA基因组数据库(ANAgdb)_ana演化阶-CSDN博客

达尔文提出的 "恼人之谜",指代白垩纪时期双子叶植物突然出现并快速分化这一演化现象,百余年来一直困扰着众多科研学者。木兰类植物是被子植物第三大类群,属于保留诸多原始形态与结构特征的双子叶植物,典型特征包括单沟型花粉、离生心皮、小型胚以及种子内丰富的胚乳,这些特征是判定木兰类植物演化地位的关键依据,也有望为破解达尔文演化难题提供重要线索。但目前木兰类植物相较于单子叶植物、真双子叶植物等其他被子植物类群的系统发育位置尚无定论,学界对此仍存在诸多争议。

木兰类植物共包含樟目、白桂皮目、胡椒目与木兰目四大目,涵盖 18 个科、9000 余个物种。该类群诸多物种具备独特生物学性状,同时可合成多种高活性次生代谢产物,既是珍贵的种质遗传资源,也是现代医药领域天然活性物质的重要来源。自 2019 年首个木兰类植物鹅掌楸基因组发布以来,截至 2024 年 3 月,已有 23 种木兰类植物完成基因组测序,相关研究随之快速兴起,海量转录组、蛋白质组、重测序及代谢组学数据持续产出。

搭建整合型数据库能够极大推动木兰类植物基础领域研究发展,而目前业内仍缺少可快速调取、高效利用木兰类基因组资源的专业平台。因此构建一套完善的木兰类植物基因组数据库,对探究被子植物起源演化、解析木兰类特有性状形成的分子机制均具备极高的科研价值。

图 1 木兰类植物数据库 MagnoliidsGDB 整体架构与功能

图示内容包含木兰类植物系统发育关系,以及木兰类植物木质素合成通路差异的研究实例。

本研究构建了木兰类植物多功能整合基因组数据库 MagnoliidsGDB(网址:http://www.magnoliadb.com:7777/),平台收录海量多组学数据并集成多款实用分析工具,助力科研人员解析木兰类植物演化历程、基因功能与特有生物学性状。 截至 2024 年 3 月,该数据库共收录25 个物种的 32 套基因组序列4 个物种的 149 份重测序数据21 个物种的 845 组转录组数据 ,以及 15 个物种的代谢组数据、7 个物种的蛋白质组数据。其中胡椒、荜茇、鳄梨的代谢组数据均通过液相色谱 - 质谱联用技术测定获得(图 1B)。

平台集成 12 项基因检索与数据分析工具(图 1C),可一站式查询木兰类植物各类组学信息;同时支持多样化生物学功能分析,并开放原始数据上传端口,便于科研人员规范化利用木兰类植物组学数据,推动相关领域研究高效开展。

MagnoliidsGDB 整体架构分为六大核心模块:物种信息模块、基因组模块、转录组模块、代谢组模块、蛋白质组模块与变异组模块(图 1B)。

物种信息模块 收录 25 种已测序木兰类植物基础资料,涵盖染色体数目、通用名、地理分布、物种形态描述、物种实拍图、文献出处以及外链跳转入口;可一键跳转至 NCBI 分类数据库与 PubMed 数据库,快速查询物种分类信息与相关研究文献。

基因组模块 汇总 32 套基因组组装数据,标注对应发表文献、测序技术、基因组大小、N50 长度、测序深度等关键组装指标,开放基因组序列、编码区序列、基因结构注释文件、蛋白序列等标准格式文件下载;内嵌 JBrowse 基因组浏览器,同时集成多款基因组分析工具,可通过导航栏直接调用。​​​​​​​

转录组模块 依托 91 个生物项目整合 845 组转录组样本数据,覆盖 21 种木兰类植物(含胡椒 47 组、鹅掌楸 125 组、蜡梅 104 组、木姜子 87 组、鳄梨 159 组等,详见附表 1),所有样本均采用统一标准流程分析,提供 FPKM、TPM 基因表达定量文件下载,同时收录样本编号、项目编号、测序编号、组织部位、发育时期、采样地点等完整样本信息。平台支持自定义绘制基因表达热图,可按照物种、基因、组织部位、生长阶段、实验材料等维度灵活绘图。​​​​​​​

代谢组模块 收录 15 个物种共计 153 份样本的代谢组定性与定量数据及样本详细信息,点击代谢物名称可自动跳转至 NCBI PubChem 数据库,查询化合物理化性质与相关研究信息(附表 2)。​​​​​​​

蛋白质组模块 整合 12 套独立蛋白质组测序数据集,收录蜡梅、樟树、山蜡梅、鹅掌楸、厚朴、鳄梨、胡椒 7 个物种的蛋白序列、蛋白功能注释等信息(附表 3)。​​​​​​​

变异组模块 整理 149 份种质材料重测序鉴定得到的单核苷酸变异、插入缺失变异等遗传变异数据(附表 4),支持按物种、基因 ID、变异位点、染色体位置、变异类型检索变异信息;依托国际通用变异注释软件 ANNOVAR 完成全物种变异位点功能注释,同步提供样本组织类型、树龄、发育阶段、采集地等基础信息,所有变异数据均可免费下载(附表 4、附表 5)。

除六大核心数据模块外,平台导航栏内置 12 款主流生物信息学分析工具:基因检索、基因功能注释、基因相关性分析、转录因子分析、序列比对、KEGG 富集分析、GO 功能富集分析、引物设计、基因组共线性分析、基因组浏览器、同源基因查找、表达热图绘制。 其中序列比对工具独立成页,内置 24 套基因组组装序列库,可批量筛选候选同源基因;表达热图工具实现数据可视化,直观呈现基因表达差异与表达模式;基因组共线性工具适用于木兰类植物种间同源区段比对与演化分析;基因相关性分析可检索目标基因的高度关联基因,收录 14 个物种关联基因及相关系数数据;引物设计工具可快速设计实验扩增引物;JBrowse 浏览器可快速浏览高通量测序数据,平台已录入 17 套木兰类植物基因组数据;同源基因检索工具可查询物种间同源基因对应关系。 数据库专门搭建数据下载专区,免费开放基因组组装序列、基因注释文件、转录组分析结果、蛋白组与代谢组原始及分析数据。

为进一步明确木兰类植物系统发育地位,本研究依托 MagnoliidsGDB 数据库数据,以无油樟为外类群构建带分化时间的系统发育树(图 1D)。结果显示,胡椒目与白桂皮目约在 1.76 亿年前发生分化,木兰目与樟目互为姊妹类群,二者分化时间约为 1.47 亿年前。目前木兰类植物内部类群演化关系仍存在争议,本研究构建的进化树是现阶段样本覆盖最全面的演化分析结果,可为界定木兰类植物系统发育位置、探究被子植物整体演化历程提供重要依据。

MagnoliidsGDB 致力于整合梳理木兰类植物多组学数据、集成便捷高效的分析工具,助力科研人员快速调取并深度挖掘相关研究数据。依据生长习性与植株结构特征,可将木兰类植物划分为藤本(如胡椒)、灌木(如山蜡梅)、乔木(如香樟)三类:藤本植物需依附外物攀附生长;灌木无明显主干,株型低矮、呈丛生状态;乔木主干笔直高大,部分物种株高可达百米以上。 木质素是维系植株机械支撑、参与水分与养分运输的重要物质,据此推测:三类植株木质素合成通路存在差异,造成木质素积累量不同,进而塑造出截然不同的生长形态。 为验证该假说,本研究利用数据库序列比对工具筛选三类代表性物种的木质素合成同源基因,借助转录组模块表达热图工具发现,香樟、山蜡梅、胡椒的茎、叶、花组织中,木质素合成相关基因表达水平存在显著差异,与假说结论一致;同时通过基因组共线性工具定位该类基因在染色体上的分布位置,明确木兰类植物间该类基因的基因组演化差异(图 1E、图 1F)。

综上,MagnoliidsGDB 是一款权威易用的木兰类植物研究专属平台,可为该领域研究提供充足数据资源。后续平台将持续收录最新发表的测序数据,扩充多组学数据类型,迭代升级分析工具,力争打造成为木兰类植物研究领域的综合性学术数据门户,长期助力植物演化生物学相关研究开展。