香叶醇酵母生产+机器学习优化酵母-文献精读66

ML-enhanced peroxisome capacity enables compartmentalization of multienzyme pathway

机器学习增强的过氧化物酶体能力实现了多酶途径的区室化

摘要

将细胞器重新利用用于特化代谢,为像酿酒酵母(Saccharomyces cerevisiae)这样的可发酵的单细胞生物提供了一种模仿植物不同组织内代谢途径区室化的方法。过氧化物酶体是重新利用的理想细胞器,因为它们在酵母以葡萄糖为碳源生长时并非必需,并且可以有效地将外源酶区室化,从而实现细胞质中本地代谢与过氧化物酶体内工程代谢的物理分离。然而,当不需要时,过氧化物酶体会受到抑制,导致外源蛋白的功能能力较低。在此,我们通过工程化改造使过氧化物酶体的功能能力得到增强,旨在区室化多达八种代谢酶以提高产量。我们实施了一个机器学习管道,用于识别需要过表达的因子,最终使过氧化物酶体的功能能力相较于野生型菌株提高了137%。改进的途径区室化使单萜香叶醇的生物合成产量提高了80%,达到9.5 g L−1。

主要内容

将植物及其他有价值的代谢途径重新构建在可大规模发酵的单细胞微生物中,要求能够物理分离代谢途径的各个部分,以实现最佳性能。植物利用多种特化组织对代谢途径进行区室化,提供相应化学反应的最佳条件,防止不期望的交叉干扰【1】。在酵母中通过细胞器区室化是模仿植物组织区分的一种有前景的策略,可以应用于可大规模发酵的单细胞微生物,且成本低廉。

过氧化物酶体在不同生物体中专门负责多种生化过程,表明该细胞器具有进化上的灵活性【2,3,4,5,6】。重要的是,在酿酒酵母(Saccharomyces cerevisiae)中,使用葡萄糖作为碳源时,过氧化物酶体的功能对于细胞生存并非必要【7】。因此,过氧化物酶体可以通过定位外源酶和代谢途径进行操控,而不会干扰本地细胞功能【8】。过氧化物酶体能够将酶以最高密度区室化,防止与本地机器的交叉干扰,并保护细胞免受有毒酶或代谢物的伤害【9,10,11,12】。近年来,过氧化物酶体已被用于区室化蛋白质和代谢途径,以增加有价值分子的产量【1,10,11,12,13,14】。

然而,在传统发酵条件下重新利用过氧化物酶体进行高通量、工程化代谢途径区室化的限制因素是过氧化物酶体增殖受到葡萄糖的强烈抑制(即在该条件下过氧化物酶体的数量和体积有所扩展)。相反,酿酒酵母中在以油酸或其他长链脂肪酸作为唯一碳源时,过氧化物酶体增殖被诱导,形成大量大的过氧化物酶体【15】。然而,油酸培养基存在许多挑战,包括水中低溶解度和生长速度慢。过氧化物酶体对外源蛋白的容量似乎是限制更高产量的关键因素【10】。我们的目标是增加酿酒酵母中过氧化物酶体的功能容量(即能够在过氧化物酶体内定位的活性蛋白数量),以便用于区室化多酶外源代谢途径。

先前增加过氧化物酶体容量的尝试导致了生长缺陷或对过氧化物酶体功能产生了负面影响。我们最近通过工程化三种参与葡萄糖抑制和油酸诱导的过氧化物酶体转录因子(TFs)使其持续活跃,从而提高了过氧化物酶体的功能容量(Adr1p、Oaf1p和Pip2p)。在葡萄糖条件下表达这些工程化转录因子提高了过氧化物酶体的功能容量,并改善了来自区室化有毒酶的产量【10】。然而,产量仍受到未完全区室化的蛋白质(即靶向过氧化物酶体的蛋白质)限制。其他研究人员改变了过氧化物酶体形态以提高几种化学物质的生物产量。Choi等通过删除PEX11和ATG36并过表达Pex34p来增加过氧化物酶体膜的储存能力,使类异戊二烯的产量提高了78%(从2.3 mg L−1提高到4.1 mg L−1)【11】。然而,PEX11缺失的菌株显示出过氧化物酶体遗传缺陷,积累更多的活性氧物质,并导致酵母的寿命缩短【16,17,18】。因此,删除PEX11可能会对需要过氧化物酶体功能的应用产生负面影响,包括外源蛋白的导入。因此,找到一组基因的过表达组合,以促进生物功能的同时不对其他过氧化物酶体功能产生负面影响,显得尤为重要。

通常,所有潜在基因过表达组合与表型输出的相关性难以确定,需要大量的实验反复试验,往往难以实现。同时,基于理性的工程化设计通常依赖于深刻但往往有偏见且不完整的化学和生物学知识。近年来的计算算法在无偏优化输出的组合信号筛选中表现出色【19,20,21,22,23,24】,并在免疫疗法、蛋白质工程和其他生物学领域取得了显著成果【22,25】。因此,我们转向机器学习(ML)以增强我们的基因筛选。

在此,我们创建了一个真正隔离的双区室系统,其中完全将酵母过氧化物酶体中的外源代谢途径与本地代谢分开,减少了竞争并提高了产量。为实现这一目标,我们创建了一个高容量的过氧化物酶体,能够区室化多酶工程化途径。通过实现一个ML管道,我们高效地探索了由与过氧化物酶体相关的多基因过表达产生的广泛组合空间。我们的ML指导实验最终产生了一个过氧化物酶体容量增加2.4倍的菌株,我们利用它来区室化8种酶的途径,从而生物合成出有价值的单萜类化合物香叶醇。因此,通过为支持本地代谢和优化工程代谢途径通量分别设计两个区室,优化了生长和产量,5天内香叶醇的产量达到了9.5 g L−1。

结果
Erg20工程改造创建了两个独立的区室

代谢工程通常需要平衡工程化途径的高产量需求与生产宿主最佳细胞生长的需求。甲羟戊酸(mevalonate)途径产生细胞生存所需的代谢物,同时也是一系列工业上有价值化学品的前体,包括单萜类化合物如香叶醇【26】。香叶醇由香叶醇合酶使用香叶基二磷酸(GPP)作为底物生成。然而,在天然酵母代谢中,GPP仅作为中间代谢物被转化为法呢基二磷酸(FPP),而FPP在甾醇的合成中起着关键作用,这对于细胞的生存至关重要。天然Erg20p因此进化出了双重功能,既作为GPP合酶,又作为FPP合酶,使其产生的任何GPP迅速转化为FPP。这最终导致细胞内GPP浓度有限【27】。Erg20p已被公认为香叶醇生物合成中的限速步骤【19,20,28】。为了创建一个大的GPP池,我们使用了一种Erg20p突变体(Erg20pMUT,F96W;N127W),其FPP合酶活性较低,主要生成GPP(图1a)【29】。然而,仅用Erg20p突变体替代天然Erg20pWT是不可行的,因为FPP不足将影响细胞的存活。因此,我们在细胞质中定位天然的野生型Erg20p(Erg20pWT)的同时,将Erg20p突变体高度过表达并靶向至过氧化物酶体,以在过氧化物酶体中创建一个高浓度的GPP池。不幸的是,由于Erg20p的二聚性质以及过氧化物酶体在细胞质中折叠后导入蛋白的事实,仍然可能形成异二聚体,而这些异二聚体功能与突变体同二聚体相似,主要生成GPP【29】。由于突变体在强启动子下以比表达WT蛋白的天然启动子更高的水平表达,以支持高香叶醇的生产,几乎不形成WT同二聚体,这意味着FPP的生成量很少,从而导致细胞生存能力下降(补充图1)。为支持细胞对FPP的需求,我们在细胞质中构建了一种合成的同二聚体形式的Erg20pWT,该形式仅生成FPP。两个Erg20pWT基因通过12个氨基酸的甘氨酸-丝氨酸连接肽合成,并在中低强度(pRNR2)启动子下表达(补充图1c)【30】。生长曲线显示了在细胞质中表达全香叶醇途径的菌株,分别带有或不带有Erg20pWT合成同二聚体的生长情况(补充图1d)。在细胞质中加入Erg20pWT合成同二聚体提高了生长速率,消除了观察到的生长缺陷,通过在细胞质中生成FPP以满足甾醇和细胞健康的需求,同时允许Erg20p突变体在过氧化物酶体中生成GPP(图1b,c)。这种Erg20p的合成同二聚体方法实现了两区室方案,用于生产香叶醇生物合成途径中的外源代谢物。

从乙酰辅酶A(AcCoA)生成香叶醇的步骤如下,AcCoA是细胞质和过氧化物酶体中存在的天然代谢物:(1) EfMvaE将AcCoA转化为乙酰乙酰辅酶A;(2) EfMvaS将乙酰乙酰辅酶A转化为HMG-CoA;(3) EfMvaE将HMG-CoA转化为甲羟戊酸;(4) ScErg12将甲羟戊酸转化为甲羟戊酸-5-磷酸;(5) ScErg8将甲羟戊酸-5-磷酸转化为甲羟戊酸-5-二磷酸;(6) ScMvd1将甲羟戊酸-5-二磷酸转化为异戊烯基二磷酸(IPP);(7) ScIdi1将IPP转化为二甲基烯丙基二磷酸(DMAPP);(8) ScErg20将IPP和DMAPP转化为香叶基二磷酸(GPP);(9) tVoGES将GPP转化为香叶醇。 a, Erg20pWT天然存在于细胞质中,是一种双功能酶,能将IPP和DMAPP转化为GPP,并立即将GPP转化为法呢基二磷酸(FPP),产生维持细胞健康所需的天然代谢物。Erg20pmut(F96W;N127W)在将GPP转化为FPP的活性显著降低,主要生成GPP作为最终产物。 b, 在细胞质中表达香叶醇代谢途径会导致香叶醇合酶与天然Erg20pWT之间对GPP的竞争,从而限制产量。 c, 将香叶醇的八酶代谢途径定位在具有WT容量的过氧化物酶体中,会在过氧化物酶体中形成一个独立的小GPP池,供香叶醇合酶使用。由于过氧化物酶体的容量有限,部分八酶代谢途径未能在过氧化物酶体中区室化,任何在细胞质中生成GPP的酶都会与天然Erg20p竞争,导致生成香叶醇所能利用的GPP量少于完全在过氧化物酶体中生成的情况。 d, 使用具有增强过氧化物酶体容量(EPC)的菌株可以更完整地区室化八酶途径,从而在过氧化物酶体中形成一个更大的GPP池,与细胞质中用于维持细胞健康的GPP池分离,供香叶醇合酶使用,进而提高香叶醇的产量。

完整区室化高表达的八酶香叶醇生物合成途径需要比野生型过氧化物酶体更高的功能容量。已有研究表明,在酿酒酵母(S. cerevisiae)中,外源蛋白的高效靶向受限于表达水平,仅可通过两个最强启动子pTDH3实现【8】。因此,随着八种酶的高表达,很多途径可能仍会留在细胞质中,而用于香叶醇生产的GPP将与细胞质中的Erg20pWT合成同二聚体产生竞争。为此,创建具有增强过氧化物酶体容量(EPC)的菌株将有助于更好的区室化和更高的产量(图1d)。

转录组学揭示过氧化物酶体相关基因的变化

通过转录组学分析,将工程化的转录因子(Adr1c、Oaf1c 和 Pip2c)与野生型菌株进行比较,发现过氧化物酶体相关基因的转录变化较小。为了工程化一个具有更高功能容量的过氧化物酶体,分析了所有基因的转录差异,通过mRNA测序比较了野生型酿酒酵母菌株与过表达这些工程化转录因子的菌株,以模拟天然的过氧化物酶体增殖【10】。与过氧化物酶体相关的转录变化最大的基因都是编码参与脂肪酸β-氧化的腔内酶的基因。参与脂肪酸β-氧化的蛋白质不太可能控制过氧化物酶体的形态和增殖,除了在过氧化物酶体内催化β-氧化过程外。在所有与过氧化物酶体增殖和形态相关的基因(PEX)中,只有已知影响过氧化物酶体裂变的PEX11的转录变化大于log2倍数变化0.53(补充表1和扩展数据图1)。已知Pex11p表达的变化会导致过氧化物酶体形态发生显著变化【17,31,32】。最终,除了PEX11外,没有其他与过氧化物酶体生物发生相关的基因显示出较大的转录变化。

过氧化物酶体形态不影响功能容量

剧烈的形态变化并不一定导致过氧化物酶体功能容量的显著变化。几项细胞器工程研究改变了过氧化物酶体的形态,略微提高了产量【11,14,33】。这些研究中,尽管在过氧化物酶体的数量和/或个体大小方面实现了显著的物理变化,但并未测量导入外源蛋白的功能容量【34】。已观察到Pex11p过表达导致大量小型过氧化物酶体,而删除PEX11(ΔPEX11)会导致数量较少、体积较大的过氧化物酶体,并表现出一些功能缺陷,包括在油酸作为唯一碳源时生长速率变慢,以及过氧化物酶体遗传传递受损【16,35,36,37,38】。我们也在PEX11过表达或删除的菌株中观察到了类似的剧烈形态变化(图2a)。有趣的是,当外源蛋白导入至带有荧光蛋白标记的过氧化物酶体膜的菌株时,细胞中每个过氧化物酶体的数量下降,表明在导入大量蛋白质时存在过氧化物酶体凝聚的机制(图2b)。尽管这些菌株的过氧化物酶体形态不同,功能容量的唯一变化是Pex11p过表达略微降低了功能容量,使用先前开发的degron检测法进行测量【10】。简言之,该检测法使用了一个带有degron和过氧化物酶体靶向序列的黄色荧光蛋白(YFP)报告基因,导入的YFP被保护不受蛋白水解作用。在具有较少、较大过氧化物酶体的ΔPEX11菌株中,单个过氧化物酶体可能区室化更多的蛋白质;然而,过氧化物酶体的遗传传递也受到了干扰【37,38】。结果是,群体中出现了不均匀的过氧化物酶体分布,某些细胞具有单个大过氧化物酶体,而其他许多细胞则没有过氧化物酶体(图2)。与野生型相比,观察到的形态和分布变化并未改变群体中过氧化物酶体区室化的蛋白质量。此外,所有其他基因敲除和单基因过表达的菌株对过氧化物酶体功能容量的影响都很小(补充图2)。这凸显了在工程化过程中,测量功能容量而非形态变化的重要性,以便在过氧化物酶体中区室化更多外源蛋白质。

所有显微镜图像中的比例尺为5 µm。 a,Pex11p过表达(OE)导致过氧化物酶体数量增加,而敲除PEX11(ΔPEX11)则导致过氧化物酶体比野生型(WT)更少且更大。使用与Pex22p(1--36)融合的RFP对过氧化物酶体膜进行标记。使用含有降解子检测的YFP(带有N末端降解标签和C末端ePTS1标签)的同一菌株进行成像。尽管Pex11p过表达的菌株仍然有多个过氧化物酶体,但与不导入YFP相比,所有菌株的每个细胞中的过氧化物酶体数量都有所减少,这表明导入大量蛋白质会导致某些过氧化物酶体发生凝聚。 b,使用降解子检测法测量a中菌株的功能容量。WT和ΔPEX11菌株在区室化蛋白质的量上没有显著差异,而Pex11p OE的功能容量稍微降低。ΔPEX5对照阻止了YFP进入过氧化物酶体,并且应主要在细胞质中被降解(n = 8个生物学重复)。 c,降解子检测显示,过表达一组与过氧化物酶体相关的蛋白质对功能容量的影响很小,类似于可以改变形态的单基因变化。当所有与过氧化物酶体相关的功能基因组一起过表达时,过氧化物酶体的容量超过了由工程化TFs自然诱导的水平(n = 5个生物学重复)。所有实验中的数据均表示为平均值±一个标准差。进行了双尾、非配对t检验的统计分析。**P < 0.001 和 ***P < 0.0005。

降解子检测法用于测试过表达和删除单个过氧化物酶体相关基因对功能容量的影响。结果显示,敲除大多数单个过氧化物酶体相关基因并不能像模拟油酸诱导那样显著增加过氧化物酶体容量(补充图2)。敲除自噬相关基因(pexophagy genes)大多对过氧化物酶体容量没有影响,除了ATG11的敲除导致了过氧化物酶体容量的显著增加。然而,这一菌株存在生长缺陷,并且随着细胞生长时间延长,过氧化物酶体的健康状况出现问题,导入蛋白的能力下降,表明该敲除对细胞整体健康有负面影响。敲除PEX32略微增加了过氧化物酶体的容量,但效果不及工程化转录因子(TFs)实现的容量变化。这些数据表明,通过敲除PEX基因来改变过氧化物酶体形态并不是增加外源蛋白过氧化物酶体功能容量的有效方法。

过表达单个PEX基因对过氧化物酶体容量的影响也很小,只有PEX5过表达带来了轻微的容量提升(补充图2)。在这种情况下,Pex5p可能通过结合更多的细胞质货物来更快地导入更多的蛋白质。由于许多与过氧化物酶体相关的基因相互作用并且对过氧化物酶体的增殖和功能至关重要,表明过氧化物酶体大小和数量的调控非常复杂【39】。考虑到除PEX11之外的所有PEX基因的转录变化都很小(扩展数据图1),加上单基因过表达未能达到自然诱导的容量,表明需要多种蛋白质的组合来模拟甚至超过自然的过氧化物酶体容量增加的诱导效果。

过表达过氧化物酶体复合物可增加容量

尽管改变单个过氧化物酶体相关蛋白的表达对功能容量没有显著的影响,即使改变了形态,但许多与过氧化物酶体相关的蛋白在特定功能上是协调作用的。因此,我们测试了过表达与过氧化物酶体生物学相关的基因组,以评估它们对蛋白质导入能力的影响。

过表达过氧化物酶体相关的蛋白复合物可使过氧化物酶体容量超过自然诱导的水平。单独过表达负责过氧化物酶体裂变的Pex11p并不会增加过氧化物酶体容量。然而,Pex11p是过氧化物酶体增殖条件下最显著上调的PEX基因,增加过氧化物酶体数量将为导入复合物和其他膜蛋白的过表达提供最大的表面积。过表达作为细胞质受体的Pex5p,以及过氧化物酶体复合物(裂变(Pex11p)、PMP插入和稳定(Pex3p、Pex8p和Pex19p)、转位(Pex13p、Pex14p和Pex17p)、逆转位(Pex2p、Pex10p和Pex12p)和循环再利用(Pex1p、Pex4p、Pex6p、Pex15p和Pex22p))时,单独过表达这些基因仅带来轻微的过氧化物酶体容量增加(图2d)。这表明,即使过表达与过氧化物酶体相关的功能基因组,功能容量也不会显著改变。然而,当所有这些过氧化物酶体复合物一起过表达(称为理性工程化菌株)时,过氧化物酶体的容量大幅增加,甚至超过了由工程化TFs自然诱导的容量。这可能是因为这些蛋白质需要协调作用,如果不是所有蛋白都存在,功能容量变化不会太大。

机器学习(ML)进一步提高过氧化物酶体容量

尽管许多与过氧化物酶体相关的蛋白质功能已被注释,理性工程化方法仍存在局限性,因为我们对过氧化物酶体生物学的了解仍不完整。测试所有已知的过氧化物酶体相关基因的不同组合过表达,会产生一个巨大的组合空间,实验上难以直接测试。因此,理性设计仅限于探索该组合空间的某些子区域,可能会错过全局最优解。因此,我们实施了一种机器学习(ML)方法来探索这一组合空间(图3a),灵感来源于为蛋白质序列组合空间工程化开发的方法【25,40】以及引导合成生物学设计的方法【22,41,42】。通过使用这一管道,我们能够计算探索所有25个与过氧化物酶体相关基因的表达组合,并预测相应的过氧化物酶体容量。

a. 顶部,机器学习(ML)引导的过氧化物酶体工程管道的示意图。初始阶段 ,我们首先从组合空间中选择一小部分数据作为初始实验样本来启动管道。在迭代阶段 ,对初始阶段的数据进行实验测试,结果用于训练一组不同的ML模型,从中选择性能最好的两个模型,并使用它们筛选整个组合库(标识出排名靠前的预测)。同时,使用一种新的组合选择算法来对输入数据空间中代表性不足的区域进行采样(增加数据以覆盖未充分探索的区域)。然后,对排名靠前的预测结果和合成的组合数据进行实验测试,启动管道的新一轮迭代(返回实验筛选)。在最终阶段,当一个或多个组合在实验中验证为高效时(根据用户指标定义),管道结束。

b. 在最后一轮迭代中,准确率最高的两个模型,即CNN + LSTM(红色实心圆)和GBR(黑色实心圆模型)的表现。对于GBR模型,训练集(顶部)和测试集(底部)的R²值分别为0.82和0.62;对于CNN + LSTM模型,训练集(顶部)和测试集(底部)的R²值分别为0.89和0.70。

c. 机器学习预测的具有增强过氧化物酶体容量(EPC)的菌株相比于过氧化物酶体相关蛋白质和转录因子(TFs)的理性工程化菌株提高了过氧化物酶体的功能容量。进行了双尾、非配对t检验的统计分析。P < 0.001 和 *P < 0.0005。所有与野生型(WT)的比较都有显著差异,P值 < 0.005(n = 5个生物学重复)。理性OE--TFS, P = 0.0005;理性OE--ML, P = 0.002;TFs--ML, P = 0.0001。

d. 机器学习预测的具有EPC的菌株提高了过氧化物酶体的容量和导入速度,通过更快速地导入更多的有毒tNCS蛋白,从而提高了生长速率(n = 8个生物学重复)。所有实验数据均表示为平均值±一个标准差。

第一步 (图3a),我们实验测试了117个理性设计的菌株。这些菌株过表达了25个与过氧化物酶体相关的基因中的不同组合,并/或敲除了可能影响过氧化物酶体容量的六个相关基因中的不同数量。然后,我们使用这些117个经过实验测试的菌株作为ML分析的输入数据。由于很难预先确定哪个模型最能准确描述这一特定数据结构,我们使用了包括定制深度学习模型在内的七种ML方法(补充图3)。利用每个模型独特的架构和学习方法,提供了互补的预测能力和鲁棒性。在这七个ML模型中,三个在首轮迭代中表现出了最高的准确率(根据测试数据的R²值)(补充图3);第一个模型基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的组合,称为CNN + LSTM,第二个模型基于单独的CNN,第三个模型基于梯度提升回归(GBR)。为了构建一个健壮且无偏的ML算法,我们选择了CNN + LSTM和GBR这两个模型,它们具有互补的优势。关于这两个ML模型的选择的详细解释可在方法和补充图4中找到。首轮迭代后,根据前面章节的结果和讨论,我们停止了对敲除实验性能的测试,并从数据集中移除了带有基因敲除的菌株,专注于25个基因的可能过表达组合的效果。

我们使用CNN + LSTM和GBR对整个组合库进行筛选,以预测哪些基因过表达组合会对过氧化物酶体容量输出产生最大变化。每种基因过表达组合的容量预测结果都被排序,我们在下一轮测试中使用这些预测结果中排名靠前的基因型组合。这些基因型组合可以是1到25个基因的任意组合。在搜索过程中,我们注意到组合空间的某些区域探索不足,特别是因为初始数据集来自理性设计的菌株。这可能导致组合搜索陷入局部最优解。为避免这一问题,我们实现了一种算法,该算法利用基因的共现矩阵生成未测试的菌株数据集以进行实验测试。这些数据集优先考虑共现率低的基因组合,从而促进了更平衡和广泛分布的组合输入空间(补充图5)。这些针对未充分探索区域的计算设计组合与排名靠前的预测结果一起被合成并进行实验测试。实验结果再次用于训练我们的ML模型,启动了管道的新一轮循环(图3a)。

通过这个迭代的ML管道,我们不断优化模型的准确性,发现了具有更高过氧化物酶体容量的新组合,最终找到了一个比理性设计菌株具有更高过氧化物酶体功能容量的组合。在图3b中,我们展示了管道最终迭代中两个最佳ML模型(即CNN + LSTM和GBR模型)的训练和测试结果。CNN + LSTM和GBR模型的训练集R²值分别为0.82和0.89,测试集R²值分别为0.70和0.62。两个模型的预测都始终包括一组核心基因(编码Pex2p、Pex5p、Pex6p、Pex8p、Pex10p、Pex15p和Pex22p)的表达,其中一个模型始终包含补充基因(编码Pex1p、Pex3p、Pex4p、Pex11p、Pex12p、Pex13p、Pex14p或Pex17p)。通过表达核心基因组并添加来自补充列表的一个基因,测试了这些基因组合的不同迭代(补充图6a)。使用降解子检测法测量的最高容量菌株过表达了Pex2p、Pex5p、Pex6p、Pex8p、Pex10p、Pex15p、Pex17p和Pex22p。该菌株的容量比理性过表达过氧化物酶体复合物和转录因子(TFs)的菌株更高(图3c)。测试的基因过表达组合中没有一个显示出类似于TFs的生长缺陷(补充图6b)。值得注意的是,ML方法预测的这些基因组合不会基于蛋白质的功能选择,因为这些蛋白质只包括不同过氧化物酶体复合物的子集。这一EPC菌株的功能容量相比WT、工程化TFs和我们理性工程化的菌株分别增加了137%、39%和21%。该预测成功减少了表达的蛋白质数量,同时使容量超过了理性工程方法。

这一ML预测的菌株(在此称为EPC菌株)提供了提高的容量和导入速率,使用第二种正交方法进行测量。之前我们发现,表达截短的降苯甲酪氨酸合成酶(tNCS)在酿酒酵母中有毒,而将该蛋白靶向到过氧化物酶体可以缓解这种毒性【10】。因此,进一步增加过氧化物酶体的容量和导入速率可以在不影响宿主细胞活力的情况下实现更高的产量。当在EPC菌株中表达tNCS时,生长显著改善,优于WT甚至理性工程化菌株,这与有毒蛋白的区室化增加相符(图3d)。与理性工程化菌株相比,功能容量提高了21%导致了过氧化物酶体功能的显著差异。此外,通过蛋白酶竞争实验表明,EPC菌株加快了蛋白质的导入速度,进一步证明了过氧化物酶体的功能增强(扩展数据图2)【8】。这说明了使用多种正交方法评估容量和导入速率的重要性,任何功能容量的增加都会带来显著的生物学改进。

增强容量的过氧化物酶体促进高产香叶醇

使用EPC菌株可比WT过氧化物酶体产生更高产量的香叶醇。我们在酿酒酵母 中使用了甲羟戊酸途径的外源和本地酶来合成香叶醇。最近有研究表明,将甲羟戊酸途径区室化至过氧化物酶体大大提高了单萜类化合物柠檬烯的产量,相比于在细胞质中的表达【9】。由于这一途径需要多种酶,我们希望基于这一工作,将甲羟戊酸途径区室化至增强容量的过氧化物酶体中,从而创造一个真正隔离的区室以提高单萜类香叶醇的产量。我们在途径中使用的所有酶均带有C末端ePTS1标签以实现过氧化物酶体定位。来自粪肠球菌 的MvaS和MvaE被表达以催化乙酰辅酶A(AcCoA)转化为甲羟戊酸,因为它们没有反馈调节并且效率较高【9,43】。本地酿酒酵母 的Erg12p、Erg8p、Mvd1p和Idi1p被过表达以将甲羟戊酸转化为异戊烯基焦磷酸(IPP)和二甲基烯丙基焦磷酸(DMAPP)。下一步将IPP和DMAPP转化为GPP使用了Erg20pMUT,其几乎完全生成GPP而不是FPP。最后,我们使用了来自缬草的截短版本的香叶醇合酶tVoGES,该酶缺少了质体靶向肽,催化GPP转化为香叶醇【44】。在ΔPEX5菌株中进行了胞质对照,无法将蛋白导入过氧化物酶体,用以排除C末端ePTS1标签对酶稳定性或活性的可能影响。虽然合成香叶醇的酶被隔离在过氧化物酶体中,细胞质作为独立的区室支持细胞健康,表达FPP生成的Erg20pWT合成同二聚体用于必需代谢物的合成。

当整个途径靶向到过氧化物酶体时,EPC菌株产生的香叶醇产量比WT过氧化物酶体容量的菌株或途径在胞质中区室化的菌株更高。使用EPC菌株使产量相比WT提高了80%,在24小时后达到957 mg L−1(图4a)。全胞质菌株(ΔPEX5)产量略高于WT,可能是因为所有酶都在一个区室中具有较高活性。相比之下,WT菌株可能没有足够的导入速率和/或容量来完全区室化所有途径酶,导致途径分布在两个区室之间。具有工程化TFs的菌株表现不佳,生长速度比其他菌株慢,产量较低。这一菌株的生长缺陷可能限制了其表现。

a. EPC菌株的香叶醇产量高于WT过氧化物酶体、来自TFs的增强容量过氧化物酶体和胞质对照。产量是在培养管中生长24小时后测量的(n = 3个生物学重复)。 b. 当高表达一个与GPP竞争的胞质酶时,EPC菌株仍然保持较高的香叶醇产量,因为该途径在过氧化物酶体内得到保护。而在胞质(ΔPEX5)条件下表达竞争酶时,由于途径没有在过氧化物酶体内受到保护,产量下降了。产量是在培养管中生长24小时后测量的(n = 3个生物学重复)。 c. 在使用优化的培养基和喂料条件的补料分批摇瓶实验中,EPC菌株的光密度(OD)和香叶醇产量随时间持续增加(n = 6个生物学重复)。通过添加额外的营养物质,产量在5天后增加到9.50 g L−1。所有实验中的数据表示为平均值±一个标准差。

EPC菌株的优势包括防止胞质酶的竞争。为了测试这种隔离的好处,我们在胞质中合成性地过表达了一种竞争性酶,它与在过氧化物酶体内区室化的香叶醇合酶使用相同的底物。如果我们在胞质中高表达使用共同底物的阿莫佛二烯合酶(ADS)来与靶向过氧化物酶体的香叶醇合酶竞争,EPC菌株的香叶醇产量与没有表达ADS的菌株相似,而胞质ΔPEX5菌株在表达ADS时产量下降(图4b)。正如预期的那样,胞质ΔPEX5菌株中的阿莫佛二烯产量高于EPC菌株,因为底物池不再被隔离在过氧化物酶体中(补充图7)。此外,双区室策略(过氧化物酶体用于工程代谢,胞质用于支持细胞健康的本地代谢)在16次稀释实验中提供了稳定的香叶醇生产和细胞存活率(补充图8)。将途径定位于过氧化物酶体的菌株与胞质菌株的色谱图相似,表明产物质量一致(补充图9)。

补料分批实验在5天内实现了9.50 g L−1的香叶醇产量(图4c)。此前的研究报告称,在大约30天后,补料分批生物反应器中香叶醇产量为5.52 g L−1。这项令人印象深刻的研究将整个香叶醇的代谢途径靶向到过氧化物酶体【9】。我们对这一策略进行了两项关键改进。首先,我们使用了胞质中的Erg20pWT合成同二聚体,产生用于支持宿主健康所需的FPP池,使我们能够专门在过氧化物酶体中靶向Erg20pmut仅生成GPP。因此,FPP在胞质中生成以支持本地代谢,而GPP在过氧化物酶体中生成以支持香叶醇的生产。其次,增强容量的过氧化物酶体实现了整个途径更有效的区室化,减少了竞争并增加了香叶醇的代谢通量。因此,在5天内实现了9.50 g L−1的香叶醇产量,生产率提高了一个数量级以上(1.90 g L−1 天−1 相比 0.1725 g L−1 天−1)。

讨论

在可发酵的单细胞微生物中模拟代谢途径的组织区室化,提供了一个独特的机会来优化条件,以最大化工程化代谢途径的通量并维持健康的生产宿主。因此,我们在酿酒酵母(S. cerevisiae)中设计了一个双区室策略,其中细胞质区室优化用于生产所需的代谢物,而过氧化物酶体则被重新利用以支持并隔离甲羟戊酸途径,用于香叶醇的生物合成。通过在细胞质中表达专门生成FPP(即多种本地酶所需的底物)的Erg20pWT合成同二聚体,这一双区室系统得以实现。这样,细胞质和过氧化物酶体分别优化,以支持生产宿主的需求或工程代谢途径的需求,且几乎没有交叉干扰。

在长链脂肪酸存在下,酵母中的过氧化物酶体增殖被诱导。然而,在使用其他碳源(如葡萄糖)时,过氧化物酶体增殖被抑制,导致较小的过氧化物酶体,其功能容量有限。我们此前通过表达工程化转录因子(TFs)模拟了酵母中过氧化物酶体的油酸诱导增殖,这些转录因子被工程化为持续活跃,从而诱导数百种不同基因的转录。我们还研究了独立敲除和过表达许多已知影响形态的基因,包括PEX11。尽管Pex11p的过表达略微降低了过氧化物酶体的功能容量,大多数已知影响过氧化物酶体形态的PEX基因的改变对过氧化物酶体的功能容量影响很小或没有影响。Pex11p过表达可能导致功能容量略微降低,是因为这些过氧化物酶体的体积与表面积的比例降低,即与导入复合物相比,过氧化物酶体的体积减少。然而,值得注意的是,向过氧化物酶体导入大量外源蛋白会导致每个细胞中过氧化物酶体数量减少并发生融合。这可能是细胞通过增加体积与表面积的比例以适应更多的蛋白质导入所致。虽然单个基因的改变对过氧化物酶体容量没有显著影响,但我们发现,过表达一组与过氧化物酶体相关的基因可以增加其容量。

我们实施了一个机器学习(ML)管道来探索过表达不同过氧化物酶体相关蛋白的组合空间。这个迭代管道使用了多种ML架构,最终产生了测试过的功能容量最高的菌株。性能最好的预测结果包括过表达八个基因,编码Pex2p、Pex5p、Pex6p、Pex8p、Pex10p、Pex15p、Pex17p和Pex22p。理性工程无法预测这种基因过表达组合,因为这些基因属于不同的过氧化物酶体复合物子集。应用ML管道限制了所需表达的基因数量,通过预测这些复合物中负责增加过氧化物酶体容量的子集。由于这些蛋白质大多是膜蛋白,过多的膜蛋白拷贝可能对过氧化物酶体膜有不利影响【45,46】。最终,功能容量最高的菌株显示出多样化的过氧化物酶体大小和不同数量的过氧化物酶体,即使在导入大量外源蛋白时,这些过氧化物酶体仍会融合。使用多种检测方法来区分过氧化物酶体容量和导入速率,同时消除单个检测的假阳性结果,这也是至关重要的。

结合EPC的双区室策略在5天内实现了9.5 g L−1的香叶醇产量。最终,使用双区室策略并提高过氧化物酶体的功能容量,使得在单细胞微生物中能够有效区室化工程化代谢途径,类似于许多植物途径中的组织区室化,同时具备大规模发酵的能力。

方法
菌株构建

所有质粒均通过Golden Gate组装设计并创建,方法如Yeast Toolkit研究中所述【30】。Golden Gate反应转化至大肠杆菌TG1感受态细胞中,在含有适当抗生素的LB培养基上培养,并筛选正确组装的菌株。

所有实验使用的酿酒酵母菌株为BY4741(MATa his3Δ1 leu2Δ0 met15Δ0 ura3Δ0),从Open Biosystems(GE Dharmacon)订购。通过使用500 bp的同源臂进行同源重组实现基因组整合。转化是通过线性化质粒并使用标准的乙酸锂热休克法将其转化至酵母中【30】。包含低拷贝复制起点CEN6/ARS4或高拷贝复制起点2u(而非同源臂)的质粒无需线性化,直接转化。大多数实验使用URA3、LEU2和HIS3进行营养缺陷标记选择。对于无标记整合,质粒线性化后与含有Cas9p和靶向相应位点的引导RNA的CEN6/ARS4质粒共同转化,并使用URA3选择标记。转化物接种于合成定义(SD)培养基--尿嘧啶缺陷平板上,并在同一平板上重新划线培养;然后选择单个菌落,通过菌落PCR验证正确插入。一旦验证插入正确,正确的菌落在含1 g L−1 5-氟乳清酸(5FOA)的SD培养基中回接三次以去除Cas9质粒。所有菌株和质粒的描述见补充表2。

培养基和生长条件

WT酵母菌株在YPD培养基(10 g L−1酵母提取物,20 g L−1蛋白胨和20 g L−1葡萄糖)中生长。营养缺陷标记(URA3、LEU2和HIS3)的选择在SD培养基中进行(6.7 g L−1不含氨基酸的酵母氮源,2 g L−1不含尿嘧啶、亮氨酸和/或组氨酸的合成缺陷混合物,20 g L−1葡萄糖)。这些培养基平板中含有20 g L−1琼脂。

生长测定在96孔板中使用微孔板读取器进行。单个菌落在适当的选择性SD培养基中饱和生长,在30°C下振荡培养。将菌落在新鲜选择性培养基中稀释50倍,在相同条件下培养6小时后,再稀释10倍至最终体积为200 µl的96孔Costar微孔板(黑色,透明底部),并用透气膜(Sigma)密封。使用Tecan Spark在30°C下连续圆周振荡,并以20分钟为间隔测量600 nm处的光密度(OD600)。数据表示为八个不同菌落的平均值,误差条代表八次重复的标准差。

香叶醇和阿莫佛二烯的实验通过在30°C下振荡培养单个菌落至饱和后进行。将饱和培养物稀释100倍至新鲜选择性SD培养基中。最终体积为60 ml试管中的3 ml培养基。加入细胞后,添加300 µl有机溶剂覆盖层异丙基月桂酸酯(IPM)。对于阿莫佛二烯竞争实验(图4b)和香叶醇耐受性研究(补充图7和8),使用十二烷作为溶剂覆盖层。试管在30°C、200 rpm条件下在New Brunswick Innova 44摇床中培养24小时。24小时后,培养物以5000g离心5分钟,并将覆盖层在己烷中稀释10倍以进行分析。

香叶醇生产的补料分批实验在250 ml带折流板的摇瓶中进行。将细胞稀释至初始OD600为0.5,置于30 ml的2×浓缩选择性SD培养基中,使用50 mM pH 6的磷酸缓冲液,并添加3 ml的IPM。每24小时无菌取样500 µl。将样品稀释100倍,用分光光度计测量OD600。剩余样品以5000g离心2分钟,并将覆盖层稀释100倍以进行香叶醇定量。剩余的细胞、培养基和覆盖层被重新加入试管中。随后,加入2.5 ml 10× YPD和1.17 ml 500 g L−1的葡萄糖,摇瓶继续在摇床中培养。

香叶醇和阿莫佛二烯气相色谱--火焰离子化检测(GC--FID)分析

香叶醇和阿莫佛二烯的检测使用Agilent 7890A GC--FID仪器进行。采用Supelco SP-2380熔融石英毛细管柱(30 m × 0.25 mm;0.2 µm膜厚)。方法参数设置如下:进样量1 µl;进样口温度250 °C;压力11.5 psi;分流比5:1;流速1 ml min−1;初始炉温40 °C,保持1分钟,随后以15 °C min−1的速率升温至230 °C,并保持3分钟。FID检测器加热器设定为220 °C,空气流速为400 ml min−1,氢气流速为30 ml min−1,氮气化妆气流速为25 ml min−1。香叶醇的洗脱时间为10.17分钟,阿莫佛二烯的洗脱时间为8.46分钟。通过在己烷中多次稀释化学品,制备了1至100 mg L−1之间的标准曲线。然后,通过将峰面积与标准曲线的峰面积进行比较并乘以稀释因子,计算覆盖层溶剂中的化学品浓度。数据分析使用了Agilent GC--FID软件。

转录组学分析

通过菌落PCR验证的WT酿酒酵母及表达三个工程化转录因子的菌落在SD完全培养基中饱和生长。所有菌落被稀释至OD600为0.1,最终体积为250 ml锥形瓶中的25 ml新鲜培养基。细胞生长至中对数期,OD值为2.0时,取5 ml培养物以4000g离心2分钟,用1 ml PBS清洗,并以4000g离心1分钟。吸取上清液后,样品用液氮快速冷冻。样品用干冰运送至Novogene进行mRNA提取和mRNA测序。

降解子检测

通过降解子检测测量功能容量。挑取单个菌落,在96孔板中加入300 µl适当选择性SD培养基,在30°C下振荡培养至饱和。将菌株在新鲜选择性培养基中稀释100倍,在96孔板中生长24小时,保持30°C振荡。然后,每个样品取100 µl加入至96孔Costar微孔板(黑色,透明底部)。将微孔板置于Tecan M1000微孔板读取器中,测量OD600和荧光,使用515±5 nm的激发波长、527±5 nm的发射波长和100的增益。Tecan M1000仪器使用i-control软件。进行了双尾、非配对t检验的统计分析,报告P值。假设数据分布为正态分布,但未正式测试。数据收集和分析未对实验条件进行盲法处理。数据使用Microsoft Excel分析。

显微镜

显微镜实验通过在适当选择性培养基中培养细胞24小时进行。首先,取1.5 µl样品加入玻片并覆盖盖玻片。使用Zeiss Axio Observer D1显微镜进行荧光显微镜检测,配有X-Cite Series 120荧光灯、Hamamatsu Orca-Flash 4.0数字相机和ZEN Pro 2.6软件。本研究使用的荧光蛋白变体为YFP的mVenus和RFP的mRuby2。

机器学习(ML)方法
数据准备

最初,我们对数据进行了清理,并合并了具有相同过表达基因组合的条目。对于数据清理,我们移除了那些仅有单个基因过表达或敲除、且没有与其他基因相互作用的样本。例如,有两个数据点显示Pex25单独过表达(即Pex25的列为1,而其余列均为0)。这些样本显著扩展了输入空间,但并未提供足够的信息供ML模型推断与其他基因的相互作用。在几个月的时间里,我们进行了不同的生物实验,包括每个实验中使用相同或多个相似的菌株作为对照,以确保结果的可重复性和一致性。这导致了单个菌株的多个数据点。为了计算该菌株的最终过氧化物酶体容量,我们取了重复数据点的平均值,确保每个基因组合只有一个功能容量。数据清理和合并后的初始数据集包含117个数据点。

随后,我们使用scikit-learn的train_test_split函数将初始数据集随机分为训练集和测试集,随机种子为42。我们分配90%的数据用于训练(105个样本)和10%的数据用于测试(12个样本)。这一策略在管道的每次迭代中保持一致。

初始数据集包括32列,前25列表示25个基因的过表达状态,值为1表示过表达,值为0表示未修改。第26到31列表示六个基因的敲除状态,值为1表示敲除,值为0表示未修改。这样形成一个二进制数组,每个0和1的组合代表给定实例的独特基因过表达或敲除模式。因此,ML算法的输入是一个矩阵,其中每一行对应一个特定实例,每一列对应一个过表达或敲除的基因。因此,输入是一个二维数组。对于CNN和CNN+LSTM模型,由于它们需要三维形状的输入,我们首先将输入数组重新调整,添加一个额外的通道维度,然后再将其输入到深度学习神经网络中。每个实例都有相应的输出,即降解子检测中的YFP荧光信号,它是过氧化物酶体容量的测量值。输出位于矩阵的第32列。初始117个样本用于算法的输入矩阵和最终用于输入的矩阵在"数据可用性"和"代码可用性"部分中提供。

值得注意的是,在第一次迭代后,我们停止了敲除实验的测试,专注于过表达,因为实验测试和先前的研究表明,敲除不同过氧化物酶体相关基因会对过氧化物酶体的各种表型产生负面影响(参见结果部分"过氧化物酶体形态不影响功能容量")。这包括遗传传递中断、蛋白质导入缺陷或过氧化物酶体回收不当。我们的主要目标是最大化过氧化物酶体容量,而这更有效地通过过表达实现。此外,移除敲除特性显著减少了输入空间,从而加速了组合空间的高效探索。从第二次迭代开始,数据集仅包含25个基因的过表达。因此,输入矩阵的形状为n × 26,第26列为输出值。

ML算法的比较与选择

在模型测试的首轮,我们比较了七种不同的模型:线性回归【47】、k近邻回归【48】、随机森林回归【49】、支持向量机(SVM)【50】、梯度提升回归(GBR)【51】、CNN【52,53】以及CNN+LSTM【54】。代码使用Python 3.8.16编写,使用TensorFlow版本2.11.0和scikit-learn Python包【46】。使用不同的ML方法帮助我们在没有偏见的情况下确定最有效、性能最好的模型。每个ML架构都有不同的特点,可以根据数据类型进行利用,如下简要描述。线性回归作为基本模型,帮助理解因变量与自变量之间的线性关系。k近邻回归在捕捉局部模式时表现优异,通过与邻近实例的相似性进行数据预测。随机森林回归通过利用决策树的集成,处理25个基因之间的复杂关系,显示了良好的预测能力。SVM回归在处理线性和非线性回归任务方面具有多功能性,因此在我们的任务中可能是一种有价值的工具。GBR是一种强大的ML算法,以迭代使用新学习器减少预测误差著称,能够处理非线性、复杂的数据关系。与神经网络相比,它以更快的执行速度提供了相当的性能和预测能力。CNN特别适合处理矩阵,可以通过对输入空间应用可学习的小滤波器,识别输入数据中的模式,例如边缘、形状或内容。它们还能够处理高维数据【55】。CNN+LSTM模型则集成了全连接层。LSTM是一种能够学习并记住长序列的递归神经网络(RNN),特别适合时间序列数据、自然语言处理或任何类型的序列输入。LSTM网络使用链式结构,包含复杂的神经网络模块和控制信息流的门控单元。这些门控单元包括遗忘门、输入门和输出门,它们决定保留、添加或移除哪些信息【54】。通过将CNN层与LSTM结合,CNN网络可以有效地从非序列数据中提取特征,而LSTM的门控和内部记忆机制则调控从CNN输出的信息流,选择性地保留或丢弃信息,以建模依赖性和上下文。这种网络在近期工作中表现出色,特别适合检测输入数据中的空间相关性并捕捉顺序信息【22,40,41,55】。我们的神经网络使用代表过表达基因组合的矩阵作为输入,并输出相应的容量变化值。传统上,CNN与LSTM的组合用于高效处理矩阵数据。这种方法不仅考虑了矩阵的内容,还考虑了列和/或行的顺序。然而,我们的研究表明,即使顺序对序列数据并不重要,LSTM层的加入仍可以提高预测的准确性。

在初始实验样本训练的七个ML模型的训练和测试结果显示在补充图3中。在所有评估的ML模型中,神经网络模型(CNN+LSTM和CNN)和GBR模型表现最好。尽管CNN+LSTM和CNN是表现最好的两种算法,但它们的预测结果相当相似。这种相似性不仅体现在测试数据集的预测值上,还通过使用诸如统一流形近似投影(UMAP)【56】和t分布邻域嵌入(t-SNE)【57】等工具对预测数据进行二维可视化时得以体现(见补充图4)。我们承认,二维分布中的相似性并不一定意味着高维空间中的相似性。然而,为了确保我们的数据预测和选择不会偏向某种特定的ML算法,我们选择使用CNN+LSTM和GBR进行多模型ML分析,以筛选整个组合库,并识别出在过氧化物酶体容量中预测变化排名靠前的组合。

CNN + LSTM的网络架构

在我们的管道中特别设计的CNN + LSTM网络架构包含卷积层、一个LSTM层、一个Dropout层和多个全连接层,连接输入层和输出层。卷积层负责检测输入数据中的空间相关性,而LSTM层则捕捉序列数据中的长期依赖性。LSTM层的输出首先被展平,然后连接到一个密集层(全连接层)。为了减轻过拟合并增强泛化能力,我们引入了Dropout正则化,其中Dropout层连接到密集层。此外,我们使用线性激活函数将该密集层与最终输出层连接。在训练过程中,我们使用了均方误差损失函数和RMSprop优化算法【58】。该模型经过500次迭代训练以优化其性能。

超参数的选择

我们对GBR和CNN + LSTM都进行了超参数调整,以通过scikit-learn的GridSearchCV【55】优化模型性能。

在GBR模型中,调整的超参数包括估计器的数量(100, 150, 200)、最大深度(2, 3, 4)和学习率(0.1, 0.15, 0.2);而在CNN + LSTM模型中,调整的超参数包括卷积层的数量(1, 2, 3)、卷积层滤波器数量(8, 16, 32)、卷积核大小(1, 3, 5)、RMSprop学习率(5 × 10⁻⁴, 1 × 10⁻³, 2 × 10⁻³)、LSTM层单元数(2, 4, 8)和全连接层单元数(8, 16, 32)。为确定最合适的超参数,我们采用了网格搜索交叉验证的方法。由于我们的数据集相对较小,超参数调整使用了三折交叉验证。对于较小的数据集,使用较多的折数(如五折或十折)可能会导致较小的验证集,从而由于方差增加可能导致不可靠和有偏的超参数选择。

在第一次迭代中,GBR模型的优化超参数为:学习率为0.15,最大深度为4,估计器数量为100。而对于CNN + LSTM模型,优化的超参数包括:两个卷积层、八个卷积层滤波器、卷积核大小为3、学习率为1 × 10⁻³、八个LSTM层单元和32个全连接层单元。在最终迭代中,GBR模型的优化超参数为:学习率为0.1,最大深度为3,估计器数量为100。而CNN + LSTM模型的优化超参数为:两个卷积层、八个卷积层滤波器、卷积核大小为5、学习率为1 × 10⁻³、四个LSTM层单元和16个全连接层单元。

计算机筛选

在训练完机器学习(ML)模型后,可以使用它们对输入空间进行计算机筛选【21,23】。我们对25个基因的所有可能组合进行了全面筛选。鉴于每个基因要么正常表达(0),要么过表达(1),组合总数为每个n选k的值之和,其中n始终为25,k从0到25变化,总计为2²⁵,即33,554,432。这些组合表示为一个矩阵(维度为33,554,432 × 25),并用作ML算法的输入,输出预测为过氧化物酶体容量。算法的预测结果按顺序排列,选择产出最高的基因型进行进一步实验测试。

我们分别使用CNN + LSTM和GBR对整个组合库进行筛选,以预测能够导致过氧化物酶体容量输出最大变化的基因过表达组合。然后,我们使用下述集成方法选择共识预测进行实验验证。

集成方法

由于网络初始化和Dropout引入的随机性,以及有限训练数据集所带来的限制,每个神经网络具有独特的网络连接参数【21】。为了应对这种可变性的潜在影响,我们为CNN + LSTM模型采用了缓解策略,具体而言,我们通过使用十个相同的神经网络来推导出共识预测,从而实现集成决策方法。

通过将神经网络集成的共识预测与GBR模型获得的预测相结合,我们建立了一个联合数据集,以促进后续的实验筛选阶段。这种基于集成的方法旨在提高我们预测的稳健性、可靠性和多样性,从而增强我们在组合空间中进一步探索的准确性。

一旦生成每种可能的基因过表达组合的过氧化物酶体容量预测值(通过YFP输出测量),我们对两个模型的输出按容量从高到低排序。通过查看前25个基因组合,发现某些基因总是出现在表现最好的菌株预测中。那些始终出现在两个模型前25个预测中的基因被视为核心基因集。而那些仅出现在其中一个模型前25个预测中的基因被视为测试的补充基因集。

新颖组合选择算法

为了避免组合搜索陷入数据景观中容量变化的局部峰值,我们还实现了一种新颖的组合选择算法。首先,我们计算了25个基因的共现矩阵(补充图5),量化了基因对在数据集中组合中的同时过表达频率。该过程产生了25 × 24/2 = 300个基因对,每个基因对都有相应的共现值,记作Cij,其中i和j代表基因i和基因j。随后,我们根据以下基因对的概率对代表性不足的区域进行抽样:

[W*{ij} = 1 \quad \text{if} \quad C*{ij} = 0 ]

我们为每个基因对计算权重因子,若共现值为0,则权重因子为1。权重因子进一步归一化,使其总和为1,用作从基因对池中随机选择特定基因对的概率,以引入多样性并提高选择的多样性。为了避免重复,包含相同基因的基因对被合并。最终产生的组合选择列表包含选择了不同数量基因进行过表达的组合。值得注意的是,如果某个基因的过表达不够多,它也将在基因对池中代表性不足。因此,使用该算法可以通过优先考虑当前数据集中代表性不足的单个基因和基因对,有效地识别全面的新颖且潜在重要的遗传变异。

报告摘要

关于研究设计的更多信息,可在链接到本文的Nature Portfolio Reporting Summary中找到。

相关推荐
唯创知音15 分钟前
医疗器械设备语音ic芯片方案-选型大全
人工智能·单片机·物联网·智能家居·语音识别
纪怽ぅ34 分钟前
浅谈——深度学习和马尔可夫决策过程
人工智能·python·深度学习·算法·机器学习
设计是门艺术1 小时前
蚂蚁Ant Design:设计师的理想工具
人工智能·ui
NewsMash1 小时前
北京环球金融中心首启“守望秦岭”展览暨户外大熊猫公共装置亮相
人工智能·生活
z千鑫1 小时前
【AI开源项目】FastGPT- 快速部署FastGPT以及使用知识库的两种方式!
人工智能·ai·chatgpt·开源·ai编程·fastgpt·codemoss能用ai
爱数学的程序猿2 小时前
深入探索:深度学习在时间序列预测中的强大应用与实现
人工智能·深度学习·神经网络·机器学习
攻城狮_Dream2 小时前
论文题目:深度学习在自然语言处理中的应用研究
人工智能·深度学习·自然语言处理·本科论文
爱技术的小伙子2 小时前
【ChatGPT】优化ChatGPT生成内容的语言风格与语气
人工智能·chatgpt
神奇夜光杯2 小时前
Python酷库之旅-第三方库Pandas(181)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
徐小夕@趣谈前端2 小时前
MaxKB: 一款基于大语言模型的知识库问答系统
人工智能·语言模型·自然语言处理