AIDD - 人工智能药物设计 -深度学习赋能脂质纳米颗粒设计，实现高效肺部基因递送

Nat. Biotechnol. | 深度学习赋能脂质纳米颗粒设计，实现高效肺部基因递送

今天为大家介绍的是来自美国麻省理工和爱荷华大学卡弗医学院团队的一篇论文。可离子化脂质（ionizable lipids）是脂质纳米颗粒（lipid nanoparticles）的关键组成部分，而脂质纳米颗粒是当前最先进的非病毒信使RNA递送技术。为超越当前依赖实验筛选和/或理性设计的可离子化脂质鉴定方法，作者引入了一种基于神经网络的脂质优化方法，这是一种用于可离子化脂质设计的深度学习策略。作者创建了一个包含超过9,000条脂质纳米颗粒活性测量数据的数据集，并利用这些数据训练了一个定向消息传递神经网络，以预测具有多样性脂质结构的核酸递送效果。通过这种神经网络的脂质优化方法，作者在体外和体内均成功预测了RNA的递送效果，并将预测范围外推至与训练集结构不同的脂质。作者在计算机模拟中评估了160万个脂质，并确定了其中的两种结构：FO-32和FO-35。这两种结构在小鼠的肌肉和鼻黏膜中实现了局部mRNA递送。FO-32的雾化mRNA递送效果与小鼠肺部的当前最先进水平相当，而FO-32和FO-35在雪貂的肺部中也能高效递送mRNA。总体而言，这项研究展示了深度学习在改善纳米颗粒递送性能方面的强大潜力。

用于RNA递送的脂质纳米颗粒（LNPs）最近开始展示出在改善人类健康方面的潜力。针对2019冠状病毒的信使RNA疫苗已证明其在预防重症方面的出色效果。此外，肝脏RNA递送已成功推出了美国食品和药物管理局（FDA）批准的药物Onpattro，以及其他一些具有潜力的临床项目。尽管如此，仍需要更高效且更具针对性的LNPs，以促进RNA疗法在遗传疾病中的广泛应用，减少副作用，改善贮藏稳定性，将RNA递送至如肺上皮等肝外组织，并加强对炎症的控制。

以肺为靶点的基因治疗特别具有挑战性，但它有望用于治疗包括囊性纤维化（CF）、特发性肺纤维化、α-1抗胰蛋白酶缺乏症、慢性阻塞性肺疾病（COPD）、原发性纤毛不动症、哮喘等多种疾病。迄今为止，用于LNPs递送的可离子化脂质几乎完全依赖于实验筛选、理性设计或这两种方法的结合。实验筛选依赖于高效的组合化学技术来生成具有化学多样性的脂质库，而理性设计则利用了有效的可离子化脂质的特征，如可生物降解的基团和分支尾结构。最近，尝试利用机器学习来设计LNPs的类似物也展现了其在从递送脂质库中设计新型脂质方面的潜力。

在本篇论文中，作者提出了一种基于神经网络的脂质优化方法（LiON），这是一种用于脂质发现和设计的深度学习（DL）方法。LiON采用了深度消息传递神经网络（D-MPNNs），这是一种适用于化学结构分析的深度学习子集，已在领域内实现了最先进的性能，并协助识别出新的抗生素。作者假设，LiON可以促进高效脂质的设计，包括一些人类专家可能不会认为有前景的脂质。值得注意的是，与以往的研究相比，D-MPNNs的强大功能和灵活性使得LiON能够在多个具有化学多样性的脂质库上进行训练，并学习到有关可离子化脂质设计的通用规则。

模型部分

图 1

作者的LiON方法包含五个步骤。首先，作者收集了所有可用的高通量LNP活性筛选数据，包括已发表的和未发表的数据（图1a）。这共计20个独立的数据集，其中包括4个体内筛选数据，包含575个独立数据点，以及16个体外筛选数据，包含8,727个独立数据点（补充表1）。补充图1展示了数据集中包含的化学多样性。其次，作者使用这些数据集来训练和评估一个用于预测LNP效力的深度学习（DL）模型（图1b）。第三，作者利用该模型预测特定类别中所有可合成的可离子化脂质的mRNA递送能力（图1c）。第四，作者将顶级候选脂质制成配方并在体内进行测试（图1d）。最后，作者测试了这些顶级脂质的类似物，以进一步优化其活性（图1e）。

由于不同的数据集之间不可比拟------例如，无法将HeLa细胞中的mRNA递送与条形码标记的肝脏mRNA递送直接比较------作者在下文中逐一报告了每个数据集的性能。未来的一个有价值的研究方向是生成一个标准化的数据集，在该数据集中，多种可离子化脂质库在相同的条件下进行筛选，包括相同的载荷、目标细胞或组织类型、助剂脂质的摩尔比和身份。此外，在多种配方条件下进行筛选也将允许可离子化脂质和配方的协同优化。

在本研究中，作者推测，尽管筛选中使用了不同的条件和配方参数，LiON仍能够学习到可离子化脂质设计的通用规则。由于几乎每次筛选都会在保持配方不变的情况下改变脂质结构，作者使用LiON仅优化了脂质结构，而未优化配方。

LiON基于组合化学合成的可离子化脂质，将D-MPNNs（深度消息传递神经网络）调整为适用于LNPs的特定背景。为了进行预测，LiON将可离子化脂质的结构和元数据（配方、载荷和目标信息）输入到Chemprop软件包中的D-MPNN中。Chemprop使用D-MPNN处理脂质的化学结构，并将D-MPNN的输出与元数据在密集层中合并，生成一个单一的预测值（图1b）。

在超参数优化后，作者将数据集按70%--15%--15%的比例划分为训练集、验证集和测试集，并以每个独立数据集中预测的mRNA递送活性与实际活性之间的相关系数来衡量模型性能。结果显示，所有数据集的相关性都很高（图1f）。

由于这些脂质是通过组合化学生成的，数据点之间存在一定的相关性，这使得模型的性能看起来异常出色，但这可能会导致过拟合（补充图2a,b）。受到小分子药物研究中基于骨架分割方法的启发，作者使用基于胺头基的训练--验证--测试划分方法（补充图2c）。因此，模型的性能仅在具有新型胺头基的脂质上进行衡量，从而减少训练集与测试集之间的相关性，并迫使模型进行外推预测。

如果同时基于胺头基和尾部组分进行分割，则需要丢弃数据集中的大部分数据（补充图2d）。正如预期的那样，基于胺头基的分割方法的性能较差，但作者仍观察到几乎普遍显著的正相关关系（图1g）。

LiON在分支酯库中的应用

在LiON的首次应用中，作者希望在一个大型体内数据集的基础上进行扩展，因为准确的预测更有可能转化为体内的实际表现。最近，作者团队报告了一种基于肽编码的条形码方法，用于筛选包含384种分支酯的脂质，以实现肝脏的mRNA递送（图2a）。这项研究确定了RM-133-3为表现最佳的脂质，并提出了一种优化的配方，作者在该库的所有实验测试中都使用了该配方。作者的模型在该数据集上表现良好（图1f，1g）。

图 2

作者预测了一个潜在的包含2,574种脂质的库的肝脏mRNA递送能力（补充表2和表3）。如补充图3中所示，模型更倾向于选择具有二十二碳六烯酸（DHA）和二十碳五烯酸（EPA）尾部的脂质，这一结果也在预料之中，因为在条形码筛选的前21种LNP中，尾部结构都包含DHA或EPA。

作者进一步检查了具有EPA或DHA尾部的脂质，并筛选了前11种预测头基用于萤火虫荧光素酶（FFL）mRNA的肝脏递送，发现了3种与RM-133-3具有相当活性的候选脂质（图2b）。带有超过3个尾部的脂质发生聚集，并表现出较差的性能。RJ-A03-T16是一种与RM-133-3结构类似的脂质，其性能略优于RM-133-3（图2c）。在整个筛选过程中，作者通常使用每种脂质n=1只小鼠来最大化筛选的通量，同时最小化小鼠的使用量，偶尔会使用n=2以确认测试结果的可靠性。

接下来，作者推测DHA和EPA的大型尾部可能并不适合与较大的优选头基搭配。因此，作者测试了具有α-亚麻酸（ALA）和γ-亚麻酸（GLA）尾部的脂质，这两种尾部在DL模型中的排名分别为第三和第五（通过所有头基的平均预测递送性能来衡量，见补充表4）。与之前的结果类似，具有4个或更多尾部的脂质发生聚集，但RJ-A14-T30和RJ-A14-T34显示出了良好的递送能力（图2d）。与第四名的花生四烯酸（AA）尾部的脂质相比，RJ-A14-T34的性能更优（补充图4）。RJ-A14-T34的效力显著高于DLin-MC3-DMA（MC3是FDA批准的Onpattro中用于siRNA肝脏递送的脂质），并且与SM-102（Moderna的FDA批准的用于肌内冠状病毒疫苗的配方）相当，但效力不及Lipid 5（一种靶向肝脏的候选脂质）（图2e）。

然后，作者测试了排名第六的尾部，并发现RJ-A30-T01的效力显著高于MC3和RM-133-3（图2f，2g）。最后，作为一种概念验证的蛋白质替代疗法的应用，作者测试了促红细胞生成素（Epo）mRNA的递送。RJ-A30-T01的表现至少与Lipid 5相当，并且比RM-133-3高出9倍（图2h）。详细的表征结果显示，RJ-A30-T01的表达主要集中在肝脏中，仅在脾脏中检测到微弱的信号。所生成的LNP在冷冻-解冻后，其直径几乎没有变化，并且这些LNP几乎未引起可检测的炎症或肝损伤。

RJ-A14-T34的尾部和头基都未在最初的384种脂质筛选中出现，这表明模型具备外推能力。此外，RJ-A30-T01虽然在原始筛选中存在，但并未被识别为阳性结果，这可能是由于条形码筛选中固有的非线性效应所致。这一现象表明，LiON可以改进基于条形码的筛选结果。

为了验证深度学习（DL）模型中额外的数据集是否能提高性能，作者仅使用分支酯肝脏数据集训练了一个模型。该模型将用于两个顶级候选物（RJ-A30-T01和RJ-A14-T34）的T01和T34尾部分别排在了后五位。因此，识别RJ-A30-T01和RJ-A14-T34需要纳入额外的训练数据集。这一结果突显了整合多个数据集的重要性，并表明，随着更多数据的可用性，LiON的实用性将会提升，模型的泛化能力也将进一步增强。

用于肌肉内递送的脂质设计

虽然优化现有的筛选方法具有一定的实用性，但拓展到新的高多样性化学空间更具挑战性，但也可能带来更高的回报。为此，作者开发了一种四组分Ugi反应，涉及一个伯胺、一个羧酸、一个异腈和一个酮（图3a），并利用LiON来建议脂质结构。尽管与之相关的反应此前已有报道，但对于这类脂质库，作者尚无数据。此外，该反应的产率通常低于10%，因此需要对每种脂质进行单独纯化，从而无法进行高通量的测试。尽管面临这些挑战，4CR方法仍提供了显著的化学多样性，因此作者利用LiON来识别具有高效力的脂质。

图 3

首先，作者根据预测的递送能力对86,400种脂质进行了排名，并选择了预测效果最好的候选物用于体内测试。由于与3CR和4CR反应最接近的类似物的训练数据是在HeLa细胞中使用35 : 16 : 46.5 : 2.5的脂质 : DOPE : 胆固醇 : PEG-脂质的摩尔比条件下获得的（在下文中称为"KK"配方），作者将这些条件用作元数据，因为这产生了最稳定的预测结果。

作者对这些筛选出的排最高的预测LNPs进行了肌肉内递送的测试，并推测主要基于体外递送训练的模型在预测局部递送方面的效果可能优于全身递送。前两个被测试的候选物ML3和ML5表现出了非零的递送效力（图3b），此外，它们还具有二级可离子化胺，而这种特性在可离子化脂质中并不常见。

将ML3转变为其三级胺类似物ML3Me后，mRNA的递送能力得到了改进（图3c，3d），而ML3Me的羧酸类似物则进一步提升了性能。基于这些结果，作者在后续研究中限制了可能的胺头基选择，排除了次级胺的使用。

接下来，作者对可由53种胺、60种羧酸、11种异腈和51种酮合成的脂质进行了计算机模拟排名。由于前几百种脂质的预测结果几乎相同，作者从前200种脂质中手动选择了一组化学多样性较高的脂质进行合成和测试。作者还合成了顶级候选物的类似物，特别是n-丁基异腈类似物，这种类似物提高了产率。此外，作者还使用了二甲氨基丙胺头基，因为它在先前的Ugi脂质中表现出良好的效果。

第一轮测试的结果显示在补充图9中，后续测试的结果显示在图3e中。许多LNPs的转染效率与SM-102相当，但低于cKK-E12。作者通过引入支链羧酸尾部，生成了FO-32，其活性与SM-102和cKK-E12相当（图3f、3g）。随后，作者对FO-32的类似物进行了系统性检查，但未能进一步提高其性能。

在通过实验设计（DOE）优化配方后，作者确定了F3配方，并对FO-16和FO-22进行了改造，使其也包含了支链羧酸尾部，最终生成了FO-35和EB-66（图3g）。随后，作者在广泛的剂量范围内测试了FO-32、FO-35和EB-66，并将其与cKK-E12（使用F3和KK配方）和SM-102进行了比较（图3h--3k）。在所有测试的剂量中，FO-32和FO-35的效力在平均水平上均高于cKK-E12 KK和SM-102，但在高剂量下，FO-35的表现不如FO-32，尽管这一差异在每个具体剂量上并不总是显著的。在低剂量下，FO-35是最有效的新型LNP，而在高剂量下，FO-32的效力最高。

参考资料

Witten, J., Raji, I., Manan, R. S., Beyer, E., Bartlett, S., Tang, Y., ... & Anderson, D. G. (2024). Artificial intelligence-guided design of lipid nanoparticles for pulmonary gene therapy. Nature Biotechnology, 1-10.