AlkaPlorer: A database-driven explorer for natural alkaloids and derivatives
AlkaPlorer:天然生物碱及其衍生物数据库挖掘平台

摘要
生物碱是一类结构多样的天然活性产物,在植物防御与生化调控中发挥关键生理功能,在现代新药研发领域具备重要药用开发潜力。目前尚无专门针对生物碱的整合数据库,相关研究资源存在明显缺口。本研究构建了首个系统化生物碱数据库 AlkaPlorer(网址:https://alkaplorer.qmclab.com/),该数据库收录来源于 12250 个物种的 13 万余种生物碱,已注释 6583 个相关作用靶点。AlkaPlorer 整合了各类生物碱经实验验证的实测数据与理化性质预测数据,对多类数据进行标准化标注并建立数据关联,形成关联型数据集。依托该数据库,本研究围绕生物碱分子骨架、生物合成前体、理化性质及跨物种系统发育分布开展全面化学信息学分析,为解析植物生物碱的化学多样性、结构演化规律与生物合成特征提供新思路。AlkaPlorer 支持便捷的数据查询与检索,可为基于人工智能的植物代谢及生物碱相关研究提供基础数据支撑。
引言
生物碱属于天然特化代谢产物,分子结构中均含特征性氮元素(Dey 等,2020;Bhambhani 等,2021)。绝大多数生物碱以鸟氨酸(Leete,1964;Philipov & Doncheva,2013;Funayama & Cordell,2015)、酪氨酸(Khan 等,2013)等氨基酸为生物合成前体,由此合成的生物碱分为真生物碱(氮原子位于杂环内)与原生物碱(氮原子处于侧链 / 开链结构) ;此外,黄嘌呤等非氨基酸前体也可合成伪生物碱(图 1,Ashihara 等,2017)。作为自然界储量丰富的次生代谢产物,生物碱化学空间庞大,兼具结构特异性与高度多样性。生物碱因优异的药用价值长期备受关注:例如从罂粟中分离得到的吗啡是经典镇痛药物(Inturrisi,2002;Devereaux 等,2018;Wicks 等,2021),喜树碱已被广泛用于多种癌症的临床治疗(Kamle 等,2024)。除药用价值外,生物碱在自然界中承担多样的生态功能,包括抵御植食动物取食、抑制病原微生物、调控信号通路、介导物种共生等,体现出显著的适应性演化特征(Cushnie 等,2014;Marques da Fonseca 等,2023),上述功能与其分子骨架结构密切相关。如吡咯、吡啶类生物碱多参与神经生理调控;吲哚类生物碱广泛介导植物抗病抗虫(Sun 等,2024);喹啉类生物碱则以拮抗微生物为典型功能(Kumar 等,2023)。骨架结构的分化既反映生物碱的系统发育演化历程,也为深入探究其生态功能与进化路径奠定结构基础(Wink,2003)。

AlkaPlorer 数据库整体架构与数据整合流程
近年来,分离纯化技术、波谱解析与生物信息学迅猛发展,生物碱相关研究持续深入,不仅发掘出大量具备显著药理活性的新型骨架结构,也逐步探明其在生态系统中多样化的生理功能。例如异喹啉类生物碱的结构类型不断扩充,对应的生物活性与合成策略也持续得到完善优化(Yang 等,2024)。Gonzalez 等人首次从隐秘箭毒蛙Silverstoneia punctiventris 中分离鉴定出毒性生物碱,证实该类物质既可通过接触产生味觉防御作用,还能以挥发性成分实现远距离驱避(Gonzalez 等,2021)。从系统演化生态学角度来看,生物碱骨架多样性反映了物种适应性进化轨迹;吲哚、异喹啉、哌啶、吡咯烷等母核结构在特定科属中显著富集,存在明显物种偏好特征。该类数据对解析天然产物的生物合成演化与物种功能分化具备重要研究价值。
随着化学信息学与高通量天然产物挖掘技术迭代,多款天然产物专业数据库陆续面世(Sorokina & Steinbeck,2020;Zeng 等,2024)。商业化数据库《天然产物辞典》(DNP)(Harborne & Hall,1994)收录条目超 36 万条;天然产物图谱库 Natural Products Atlas 收录 32552 种细菌与真菌来源代谢产物(van Santen 等,2022;Zhao 等,2023);NPASS 整合约 10 万条带生物活性与物种来源注释的天然产物数据;COCONUT 汇总 40 余万种非重复天然化合物,经 NPClassifier 分类后其中 16.7 万种归属于生物碱(Chandrasekhar 等,2025;Kim 等,2021)。上述数据库整合了海量天然产物的结构、活性与来源信息,为天然药物开发提供支撑,但缺少针对生物碱的系统化分类注释。现有少数生物碱专项数据库仅覆盖部分亚型:如专注苄基异喹啉生物碱的 BIAdb(Singla 等,2010)、用于肽类生物碱检索的 Peptaloid(Behera 等,2024)。与此同时,现有数据库分类标准不统一:部分依据进化来源划分(石蒜科生物碱、茄属生物碱),部分依托分子骨架分类(吲哚类生物碱),分类重叠问题突出,削弱了分类体系的科研参考价值。生物合成 - 结构联合分类法 可结合生源途径与分子骨架实现系统性归类,但尚未被现有数据库采纳(Seneca,2007;Bhambhani 等,2021)。除此之外,现有数据库数据碎片化严重,分子结构、生物合成、药效、酶促通路信息相互割裂,难以支撑化学空间挖掘、骨架演化与物种关联的深度研究。
针对上述短板,本研究构建生物碱及其衍生物专属数据库 AlkaPlorer,系统整合骨架分类、物种来源、代谢途径、药理活性等多维度注释信息。依托大规模母核骨架与生源溯源分析,筛选不同进化支系生物碱的物种富集规律,解析化合物结构与产源物种的内在关联;同时基于化学信息学批量评估各类骨架的类药性与药理活性。上述分析既完善了标准化生物碱分类体系,也为探究生物碱化学演化、物种特异性生物合成及生态功能奠定数据基础。配套搭建可视化网页平台 AlkaPlorer,面向科研人员免费开放检索,支撑生物碱化学空间系统性挖掘。这套注释全面、分类规范、数据互通的专业化数据库,可有效助力新生物碱发掘与生物合成机制研究。
结果
数据库收录数据概况
AlkaPlorer 经文献与公共数据库人工及批量筛选,共收录136881 条非冗余生物碱分子 ,包含 33459 种独特母核骨架;关联 6583 个药物靶点、25018 条代谢反应与 109039 种合成相关酶,实现分子结构与生物通路的数据联动(图 1)。其中 7380 条生物碱数据为文献手工整理,其余数据取自公共开源数据库、未逐一人工核验。
生物碱来源物种分类统计(图 2A)显示:共计 11679 个分类地位明确的物种,涵盖绿色植物界(44.5%)、细菌(24.0%)、后生动物(15.7%)与真菌(15.8%),体现生物碱宽泛的进化分布特征。本研究分别统计植物、真菌、细菌、动物四大类群中生物碱产出 TOP10 科(附图 S1):植物类中,富含生物碱的夹竹桃科化合物收录量居首位,其次为豆科、菊科、毛茛科与芸香科;真菌以曲霉科、细菌以链霉菌科为生物碱高产类群,体现显著的合成能力物种聚集特征;动物来源生物碱中人体相关化合物占比最高,而海绵纲生物的生物碱物种分布跨度最广。数据库内 17205 种生物碱已被证实具备抗肿瘤、抗感染、神经调控、代谢调节等各类生物活性(图 2B),多数作用于机体整体,剩余靶点为单一蛋白或体外细胞模型(附表 S1);抗感染与抗肿瘤活性合计占全部活性记录近半数,是生物碱最核心的药理属性。
本库采用生源 - 骨架联合分类体系 ,各类生物碱收录数量 TOP10 见图 2C:吡咯烷、哌啶类生物碱收录量均突破 25000 种,证明五元、六元饱和氮杂环是生物碱氮原子最主要的整合骨架。以色氨酸 / 色胺为前体合成的吲哚生物碱依托特征吲哚母核,成为药物化学中的优势药效骨架(Sravanthi & Manju,2016);吡啶母核可实现多位点取代,相关衍生物已大量进入临床候选药物研发,取代修饰既能提升药效,又可优化药代动力学性质(De 等,2022)。上述高频母核大量出现在 FDA 上市药物优势含氮骨架榜单:哌啶(72 个,第 1 位)、吡啶(62 个,第 2 位)、哌嗪(59 个,第 3 位)、吡咯烷(37 个,第 5 位)、噻唑(30 个,第 6 位)、吲哚(17 个,第 9 位)、嘧啶(16 个,第 10 位),印证生物碱母核在新药分子设计中的先导价值(Vitaku 等,2014)。天然存量排名第 5 的异喹啉生物碱共 7659 种,兼具抗肿瘤、抗感染、抗炎等多重药理活性,开发潜力尚未充分挖掘(Shang 等,2020;Wang 等,2024),四氢异喹啉衍生物跻身高频母核榜单也佐证其开发价值。上述统计结果表明,基于生物碱特征骨架的新药研发仍存在巨大发掘空间(Hong 等,2020)。

AlkaPlorer 数据库整体概况图注
(A) 生物碱来源物种的分类统计:按生物界分类,分别统计分类学信息明确的科、属、物种数目。(B) 基于临床适应症的生物碱药用潜力分类。(C) 生物碱中排名前十的含氮杂环母核及对应化合物数量;每个柱状图上方配有该类骨架代表性化学结构式。
骨架结构特征分析
采用矩阵可视化方式系统解析生物碱分子内氮原子排布规律,明确生物碱进化过程中氮原子两大主要存在形式:氮原子嵌入杂环 与游离氨基侧链留存 。统计显示,34028 种生物碱的氮原子全部位于环状骨架内,数量位列第一;20590 种生物碱的氮原子以链状氨基形式存在,位居第二。该分布规律印证生物碱进化倾向于单氮母核,尤以五元、六元优势氮杂环最为普遍,与已有研究结论一致。随着分子内氮原子数目增多,对应化合物数量呈指数式递减,说明生物碱在生物合成进化上更偏好低氮含量骨架。
图 3B 统计了生物碱中氮原子所处的各类化学微环境:叔胺结构(64665 例)、酰胺结构(55113 例)、仲胺结构(48715 例)、芳环共轭型氮(42575 例)依次排名前四位。结果表明,生物碱中氮原子更多以非共轭形式存在,芳环共轭氮占比偏低;酰胺键数量高居第二,体现肽类生物碱独特的结构多样性特征;伯氨基位列第六,提示部分生物碱的氮原子分布于侧链或碳链末端。
为系统阐明氮原子成键环境,将氮原子连接方式划分为四类:与氧相连、与氮相连、仅与碳原子成键、嵌入芳香环(图 3C)。统计结果:氮仅与碳相连 为最主要成键形式,其次是芳环内嵌氮;氮 - 氮键、氮 - 氧键成键模式丰富但整体占比较低。其中,酰胺(C (=O)-N)是特殊的 N-O 关联结构:酰胺型氮极少整合入芳香环骨架;仲胺型酰胺占比最高(14.12%),叔胺型酰胺次之(11.32%)。

生物碱结构与分类统计
(A) 生物碱分子中氮原子数量及成键形式统计:横轴代表链状氮 数目、纵轴代表环内嵌氮 数目,单元格数值为对应氮排布类型的生物碱总量;渐变色标代表分子数量,深蓝色对应化合物数量更高。(B) 含 9 类常见含氮官能团的生物碱数量统计,各柱状图上方附有对应官能团结构式。(C) 排名前十的氮原子成键化学环境;括号内为该成键类型对应的生物碱总数,组分下方百分比代表该含氮结构的整体占比。
该部分定量描绘三大生物碱大类的数量分布规律:真生物碱储量最高,原生物碱次之,伪生物碱占比最低 。三类生物碱的生源演化关联特征印证了生物合成途径具有底物混杂特性,大量杂合骨架可经由多条不同生源路径生成。如图 4B 所示,真生物碱的生物合成主要依托鸟氨酸、赖氨酸、色氨酸三类氨基酸前体,三者贡献的生物碱体量处于同一数量级,这也与吡咯烷、哌啶、吲哚、吡啶类生物碱储量突出的统计结果相互吻合。图 4C 显示:真生物碱半数以上来源于植物生源途径;而原生物碱、伪生物碱在微生物来源生物碱中占比更高。
依托 L - 鸟氨酸合成的吡咯烷类生物碱是本数据库收录体量最大的生物碱亚型,在绿色植物、后生动物、真菌、细菌四大类生物中均广泛分布。其中托烷、吡咯里西啶、百部生物碱等特征骨架高度富集于植物类群;吡咯里西啶生物碱集中富集在菊科、紫草科、豆科等多个被子植物类群(Tamariz 等,2018)。以 L - 赖氨酸为前体的哌啶类、L - 酪氨酸衍生的异喹啉类生物碱,在植物界的物种分布广度显著优于其他生物类群。系统发育研究表明,异喹啉生物碱是维管植物演化上保守的特化代谢产物,其合成集中于毛茛目基部被子植物,以毛茛科、小檗科、罂粟科、紫堇科为主要产出类群(Singh 等,2021)。
由 L - 精氨酸合成的胍类生物碱是细菌生物碱的优势组分,占细菌源生物碱总量 50% 以上(Berlinck,2002);组氨酸来源的咪唑生物碱多产自动物,以海绵、刺胞动物、软体动物等海洋无脊椎动物为主要来源(Jin,2016)。噻唑、恶唑等生源起源尚不明确的生物碱母核,绝大多数分离自细菌与海绵、海鞘等海洋无脊椎动物(Jin,2016)。

生物碱的生源合成、结构分类与生物来源
(A) 韦恩图:统计真生物碱、原生物碱、伪生物碱三类生物碱的化合物数量及交叉归属。(B) 分别以鸟氨酸、赖氨酸、色氨酸、酪氨酸、精氨酸、组氨酸为前体合成的生物碱数目统计。(C) 真、原、伪三类生物碱的生源结构演化树;配套饼图标注各类生物碱在绿色植物、后生动物、真菌、细菌四大来源中的占比分布。
类药性与生物活性分析
由图 5A 可见,萜类与生物碱是天然产物中两大主流大类。有意思的是:天然产物数据库里生物碱收录总量少于萜类,但在上市药物中生物碱占比显著更高(图 5B)。该差异说明生物碱母核在新药研发中具备突出优势,相较于萜类化合物,生物碱在药代动力学特征、靶点结合特异性方面拥有先天结构优势。

生物碱与其他天然产物、上市药物的多维度对比分析及主流骨架生物活性分布
(A)《天然产物辞典(DNP)》收录的各类天然产物统计。(B) DrugBank 数据库(5.1.10 版)中 329 个源自天然产物的小分子上市药物,按结构类型分类统计。(C) 三类化合物理化参数对比:AlkaPlorer 生物碱、TeroKit 萜类、DrugBank 上市药物(5.1.12 版);参数包含分子量 (MW)、脂水分配系数 (LogP)、拓扑极性表面积 (TPSA)、氢键受体 (HBA)、氢键供体 (HBD)、可旋转键数目。(D) 收录量前十的生物碱大类生物活性分布,不同药理功效采用不同颜色标注。
为探明生物碱类药性优于萜类的内在原因,图 5C 基于利平斯基五规则(RO5)对比各类化合物理化特征,该规则是评估口服药物理化属性的经典标准(Lipinski 等,2001;Shyeed 等,2023;Rahman 等,2025)。本研究测算六项理化指标的均值、中位数与标准差(附图 S2),数据库内超半数生物碱满足利平斯基五规则,说明其具备优良的口服成药潜力。六项理化指标横向对比结果显示:生物碱的分子量、LogP、TPSA 分布与上市小分子药物更为贴近;受分子内氮原子可同时作为氢键供体与受体的结构特点影响,生物碱氢键受体、氢键供体数量显著高于萜类。兼具优良类药性、多样生物活性与天然来源优势,生物碱成为新药研发的优势先导骨架。
该部分汇总 17205 种活性生物碱中排名前十品类的活性特征:抗肿瘤、抗感染为各类生物碱最主要药理作用,但不同骨架类型的活性侧重差异明显。吡啶、吡咯烷、哌嗪、喹啉类生物碱以抗感染相关研究居多;嘧啶、异喹啉、吲哚类生物碱则抗肿瘤报道占主导。本研究从单一蛋白、细胞株、活体生物三个维度统计排名前十的作用靶点:乙酰胆碱酯酶是生物碱作用最广泛的靶点,共有 925 个相互作用记录;细胞色素 P450 亚型(3A4/2D6/2C9/2C19/1A2)合计收录 3254 条数据,表明生物碱普遍参与外源物代谢调控;新冠病毒复制多聚蛋白 1ab 位列第五,共 681 个匹配条目,受新冠疫情驱动相关研究大幅增多,也印证生物碱在病毒蛋白酶抑制剂研发中的潜在价值。排名前十的细胞系均为抗肿瘤药物体外经典筛选模型(附表 S2),覆盖肺癌 (A549)、乳腺癌 (MCF7/MDA-MB-231)、结直肠癌 (HCT-116/HT-29)、白血病 (HL-60/K562)、宫颈癌 (HeLa) 等高发癌种(附表 S3);活体靶点包含金黄色葡萄球菌、恶性疟原虫、大肠杆菌等重要人类致病菌及抗感染模式生物(附表 S4)。细胞水平侧重抗肿瘤、活体模型侧重抗菌的研究趋势,与图 2B 活性统计结果相互印证。
在线网站平台
本研究搭建网页版数据库 AlkaPlorer(https://alkaplorer.qmclab.com/),集成浏览、检索、在线分析功能(图 6)。网站首页提供简易浏览界面;结构式检索模块 内嵌化学编辑器,支持手绘结构式、粘贴 SMILES/InChI 编码,可实现全匹配、子结构、相似度检索;高级检索 依托理化参数筛选,用户可限定 LogP、分子量、极性表面积、氢键供受体等指标,快速筛选具备优良药代属性的候选分子,适配新药研发筛选流程。

AlkaPlorer 平台核心功能界面
(A) 平台首页、分类浏览界面与检索界面;(B) 人工智能驱动的智能文献检索功能示意图
平台搭载多类浏览模块,可从不同维度系统梳理生物碱资源。如需查询某一类生物碱的物种分布,研究者可依托分类浏览、母核骨架浏览 页面筛选化合物,并联动跳转查看对应生源来源与药理活性分布。如图 6A 及附图 S3 所示,以托烷类生物碱为例:进入该类目页面,既可查询具体化合物,还能明确其生源特征 ------ 该类生物碱主产于茄科,在毛茛科、古柯科、夹竹桃科中也有零星分布,与已有综述研究结论一致(Afewerki 等,2019)。用户也可按生物来源或作用靶点定向浏览:筛选苦参属时,数据库显示该属生物碱以喹诺里西啶及其类似母核为主,契合该类植物特有的生物合成途径(Cai 等,2020)。
AlkaPlorer 设置多元化检索入口,依托多种检索方式定位目标生物碱。除前文所述结构式检索、理化参数筛选功能外,平台搭建智能文献检索模块 优化交互体验(图 6B)。用户输入研究问题后,系统首先在 AlkaPlorer 库内匹配相关文献摘要,再将摘要内容送入大语言模型(LLM);大模型仅依托检索得到的文献摘要整合作答,确保所有结论均有文献原文支撑,大幅降低 AI 生成内容的幻觉问题、提升回答可信度。平台内嵌知识图谱,可将文献、化合物数据可视化关联,支持一键跳转原文,借助页面交叉联动实现数据互通,直观展现分子 - 文献间的内在关联。
以小檗碱检索实操为例:使用者可通过结构式检索、高级检索自定义筛选条件锁定小檗碱及其同系物;也可利用智能文献模块汇总小檗碱相关研究进展(图 6B、附图 S4)。点击检索结果跳转文献详情页,依托知识图谱反向溯源至小檗碱分子主页。小檗碱详情页收录:产碱物种超 100 种(涵盖小檗科、罂粟科、防己科等)、数百条药理活性记录(包含乙酰胆碱酯酶 / 细胞色素 P450 抑制、免疫调节、抗炎、抗细菌、抗新冠与丙肝病毒等活性)、各类衍生物合成反应数据,全部内容附文献与外部数据源链接,实现一站式可溯源的生物碱信息查询。
讨论
生物碱是天然产物中至关重要的大类,在新药研发领域潜力巨大。近两百年来,大量新型生物碱不断从天然资源中被分离、结构鉴定。为系统化管理生物碱文献、挖掘领域研究演化规律,本研究增设文献管理模块,将收录文献划分为新化合物发现、生物活性研究 两大主题。1975--2024 年生物碱发文量变化,本质是分析技术革新 与天然新资源枯竭 两大因素博弈的结果(图 7A):发文量前期持续攀升并在 2009 年前后抵达峰值,得益于核磁共振、液质联用等分析技术普及,研究者可快速从易得生物材料中分离纯化新生物碱;随后发文进入平台期并逐步回落,根源在于自 20 世纪 90 年代起未被挖掘的新型生物资源持续缩减,领域研究只能转向已知物种的深度再挖掘;已知物种中易分离的优势化合物逐渐被挖掘殆尽后,研究产出随之走低,新冠疫情进一步加剧了发文下滑态势。2024 年发文数据出现小幅回暖,预示基因组挖掘、代谢组学等新一代研究策略初见成效,助力从经典研究物种中发掘大量以往难以检出的 "暗物质" 类生物碱。
依托 DOI 信息整理 22734 篇文献的所属机构信息,从全球科研格局来看,生物碱研究资源逐步集聚,中国科研团队发文量位居全球首位(图 7B);跨国合作十分普遍,32.74% 的论文由多国学者联合完成。该特征既体现资源集中化带来的规模化研究优势,也反映出当前生物碱研究在科研思路、地域分布上存在不均衡问题。未来领域发展需平衡资源集聚效率与全球生物资源挖掘广度,推进科研合作公平化。
基于通义千问嵌入模型(Qwen3-embedding)对全部文献做聚类分析,共划分 16 个研究主题,人工标注各聚类关键词,主题整体分布见图 7C、各主题特征关键词见附图 S5。除植物生物碱、抗肿瘤药物研发等经典方向外,耐药机制也是热点研究领域,聚焦抗生素耐药、P - 糖蛋白等转运蛋白介导的药物外排等科学问题。
借助 RDKit 生成分子摩根指纹,采用 t-SNE 算法降维至二维空间,完成生物碱化学空间可视化(图 7D):受氮原子插入方式、生源前体差异影响,真生物碱、原生物碱、伪生物碱三者化学空间边界区分显著。活性生物碱零散分布于整个化学空间、不聚集在单一区域(附图 S6),说明活性分子可来源于多元化母核结构,并非集中于特定骨架;整体分布无规律但非完全随机,反映活性分子存在一定结构偏好性。按绿色植物、后生动物、真菌、细菌四大生源分类后,四类来源生物碱均具备丰富结构多样性、化学空间分布宽泛,但不同类群在局部化学空间上呈现各自独有的分布特征。

生物碱研究趋势文献计量分析与化学空间可视化
(A) 1970--2024 年生物碱领域年度发文变化趋势;从文献中逐年提取化合物、产源生物、分子骨架、相关文献数量并绘制统计曲线。(B) 生物碱研究论文的国家分布统计图,依据第一作者所属机构国别进行统计绘图。(C) 依托 BERTopic 算法,基于平台收录文献的标题与摘要挖掘并可视化领域研究主题。(D) 基于 RDKit 计算得到 2048 位、半径为 2 的摩根指纹,结合 t-SNE 降维算法完成三类生物碱化学空间可视化。
相较于其他天然产物数据库(Chen 等,2025),AlkaPlorer 通过系统化汇总数据、采用统一分层式生源 - 骨架分类体系并辅以大量人工校勘,弥补了现有天然产物数据库的短板。除标准化的分子结构与物种来源注释外,本库关联文献来源的生物活性数据与化学反应信息,可支撑生物碱功能与代谢通路的整合解析。同时平台内嵌实时统计与多维度浏览工具,使用者可从化学分类、生物来源、药理活性三个层面动态检索生物碱分布规律(附表 S5)。
数据库中 2019--2024 年收录数据均经过精细人工核验;2019 年之前的历史数据取自公共数据库作为基础数据源,课题组正分批按照同等严苛标准逐步完成旧数据人工整理。此外,当前分类规则参考现有通用文献标准制定,受限于部分生物碱完整生物合成通路尚未阐明。后续研究拟完善全品类生物碱代谢网络,实现基于生源前体的精准归类。本课题组计划融合大语言模型与化学信息学工具,加速数据校验与补充,持续提升数据库数据深度与精准度;数据库将保持常态化版本更新,并持续开发配套分析工具,拓展其在化学、合成生物学、药学领域的应用场景。
综上,本研究整合数十年积累数据并完成标准化注释,搭建易用型专业数据库 AlkaPlorer,完整收录生物碱的分子结构、理化参数、生源进化树、生物来源、药理活性与代谢信息。这套系统化分类与统计分析,为从生源演化视角解析生物碱化学空间奠定基础,助力阐释天然产物的物种分化规律与生态功能;配套可视化网页平台可实现精细化、个性化数据分析,推动全领域科研进展。AlkaPlorer 有望成为支撑生物碱新骨架发掘与新药研发的关键工具平台。
材料与方法
数据整理
为全面归集生物碱的化学与生物学信息,数据源整合 DNP、COCONUT(Chandrasekhar 等,2025)、NPASS(Zhao 等,2023)、Lotus(Rutz 等,2022)、Natural Products Atlas(van Santen 等,2019)多款权威公共数据库,初始汇总约 60 万条含氮化合物记录。为保障数据可靠度与科研实用性,设置三步严苛数据清洗流程:
- 仅保留附带明确生物来源或文献佐证的条目,剔除无依据的可疑数据;
- 删除结构残缺、键信息缺失或 SMILES 格式错误的无效分子,保证结构式准确;
- 以 InChIKey 作为分子唯一标识去重,同一 InChIKey 仅保留一条代表数据。各步骤留存数据量详见附表 S6。
为补充近年新发表生物碱数据,以 "alkaloids" 为检索词检索 2019--2024 年 PubMed、Web of Science、Scopus 文献,借助 DeepSeek-R1 大模型筛选出 2367 篇报道新生物碱的文献。为验证该模型筛选性能,人工构建 50 篇阳性(含新生物碱)、50 篇阴性(无新生物碱)样本集,验证结果见附表 S7、S8,模型可高效筛选出新化合物相关文献;再由生物碱领域专家从入选文献中人工提取新生物碱的结构、来源、分类信息。
全部分子结构标准化后,利用 RDKit(v2023.09.6)批量计算 InChI、InChIKey、Murcko 母核及分子量、拓扑极性表面积等 200 余项理化描述符,用于参数筛选与后续分析;同步生成半径 2、2048 维摩根指纹,支撑分子相似度检索与聚类分析。数据库采用生源 - 骨架分级分类体系 (附表 S9):一级分类划分为三类:真生物碱(氨基酸生源、氮嵌入杂环,如吗啡)、原生物碱(氨基酸生源、氮位于侧链非杂环,如秋水仙碱)、伪生物碱(非氨基酸前体合成,如嘌呤类生物碱,附图 S7);二级标注生源前体(如色氨酸来源生物碱);三级限定核心母核(如吲哚、异喹啉骨架);四、五级进一步细化精细结构亚型。五级分层体系可从生源起源到精细骨架逐层解析,适配新药筛选与生物碱化学空间全景绘制。
物种来源注释:从原始文本描述(如 DNP 原文Prod. by ... Phomopsis longicolla HL-2232)中实体提取物种名,结合 DeepSeek-R1 辅助推导,经专家复核后将分类信息映射至 NCBI 分类数据库,标准化得到界 - 门 - 纲 - 目 - 科 - 属 - 种完整层级。依托 InChIKey 匹配对接外部数据库:从 ChEMBL 获取经过验证的靶点 - 配体活性数据(靶点、受试物种、活性类型 / 数值 / 单位及参考文献;Davies 等,2015;Zdrazil 等,2024);整合 MetaCyc、KEGG、UniProt 数据库注释代谢通路、酶促反应与催化蛋白信息(Caspi 等,2020;Kanehisa & Goto,2000;Coudert 等,2023)。
网页平台搭建
后端采用 PostgreSQL 11.2 关系型数据库实现海量化学、生物数据高效存储与检索,接入 RDKit 工具包实现全库精确检索、子结构检索、相似度检索等化学信息学功能。
前端部署于 CentOS Linux 8 服务器,基于 Flask 3.0.3 开发,Nginx 反向代理;页面采用 HTML5、CSS3、JavaScript ES6 编写,结构式可视化依托 ChemDoodle Web Components 10.0.0(兼容 SMILES、2D/3D 渲染),在线结构式编辑由 Ketcher 3.2.0 实现。并发 50 用户压力测试下,常规查询平均响应时间 3.95 秒,可满足科研日常使用需求。
依托 AlkaPlorer 库内 77963 篇记载新生物碱发现与活性研究的文献摘要构建知识库,采用阿里云通义 Qwen text-embedding-v4 模型做文本向量化嵌入(附表 S10);智能问答模块基于 DeepSeek-R1-0528 模型生成回答文本,保障内容归纳质量。