医疗AI: AI大模型在药物靶点识别中的应用

共同探讨有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践，请关注"神州问学"公众号，加入社群！

作者| Owen

来源| 神州问学

摘要

随着2006年DeepLearning算法的提出，人工智能(AI)的发展进入了第三次浪潮。DeepLearning凭借自身优秀的信息表征及关系提取能力，已经为计算机视觉(cv)及自然语言处理(nlp)等领域带来了突破性的进展。现在，AI的魔力已经被逐步引入药物研发的领域，并正在深刻地改变这个领域的研究和发展流程。无论是在早期的药物筛选、药物优化，还是在药物的临床试验和后期的上市监控，AI的应用都愈发广泛。

本文将简要的概括药物研发的流程，并深入探讨AI在药物研发的第一步: 靶点发现中的作用，以及它如何为这个过程带来革新。

药物研发的整体流程

药物的研发是一个复杂且耗时的过程，业内一直流传着"三十定律"的说法: 耗时10年，耗资10亿美金，成功率不足10%。因此，如何降低药物研发的金钱成本、时间成本，提高成功率已然成为了药物研发行业的重中之重。

通常而言，药物的研发包括以下步骤: 靶点发现，候选药物筛选，候选药物优化，临床前研究，临床实验，以及市场化等步骤 $1$ 。靶点发现作为整个流程的第一步，是新药研发中决定成败的一步，成功的靶点识别可以为后续的药物设计提供方向。不仅能提高新药的研发效率，也能极大地改善患者治疗期间的生活质量。

药物研发生产流程，图片引自 $1$

在AI的第三次浪潮之前，靶点的识别通常依赖多组学实验方法或者计算机辅助药物设计的方法。多组学方法主要通过对病例组和对照组进行基因组、蛋白质组等组学数据差异性比较，提取出可能致病的基因或蛋白靶点。这一方法通常有着较高的准确性，但整体策略既费时又费力，且实验结果严重受到生物样本质量的限制。

计算机辅助的方法主要包括反向对接，结构相似性分析等。这些计算技术能够一定程度上加速靶点的筛选速度，但同样存在自身的局限性。如反向对接需要在大量的蛋白质目标中进行对接，这会极大的消耗计算资源和时间。结构相似性分析则非常依赖已知的蛋白结构，对结构未知的蛋白无从下手。

随着AI技术的发展，越来越多的问题在AI的帮助下得到了改善。如大语言模型可以整合海量的医疗研究相关文本，通过在文本中提取潜在的关联信息，发现人类可能忽视的模式或连接。目前已有研究通过向大语言模型提问的方式，提取出针对特定疾病的潜在靶点，从而避免一些不必要的组学实验。此外，AI模型完成训练之后，可以将类似反向对接技术的时间复杂度降低到线性级别，甚至提高精度。AI也可以进行蛋白质结构的预测，从而帮助结构相似性分析等技术的实现。

基于上述所提的AI在靶点发现中的应用，本文将依据近期的AI医疗相关论文，为大家介绍AI在药物靶点发现中的两个应用: 驱动新颖靶点的发现，预测蛋白质结构。并将为大家介绍这些方法的技术细节以及局限性。

医学大语言模型驱动新颖靶点的发现

NO.1 BioGPT-G工作原理

细分领域额外预训练： 作者将Microsoft已经预训练得到的医学文本大模型BioGPT作为baseline，利用与靶点发现更相关的美国国家卫生研究所（NIH）科研基金资料对其进行了额外的预训练，以期望提高BioGPT在靶点发现这一细分任务上的预测性能。额外预训练的BioGPT被称为BioGPT-G。作者发现，将大语言模型在细分领域上进行额外预训练后，模型相比baseline能够与细分领域具有更大的关联性，这将更充分的调动大语言模型在细分任务上的性能。

PROMPT设计： 作者期望向BioGPT-G询问疾病相关靶点时，模型能直接回答基因的名称。因此作者对多种prompt进行了评测。依据向模型输入prompt时，返回的概率前1000的token列表中基因缩写的数目进行评价，数目越多，该prompt越好。最终得到的prompt为："human gene targeted by a drug for treating {DISEASE} is the"。作者发现prompt的长度越短，模型越容易直接返回基因名称。此外prompt以the或者a结尾也能够提高模型直接返回基因名称的概率。

信息提取流程设计： 因为绝大部分的基因名在BioGPT-G的字典中都并非是单独的一个token，而是多个token组合而成的。如基因EXO1在BioGPT的字典中是由EX，O，1组合而成的。因此在计算多token基因的next token probability时，作者按照下图所示的流程进行迭代，反复计算next token probability并将属于同一基因的结果进行整合。最后依据各个基因的probability进行排序，便可以得到与输入prompt中的疾病高关联的基因靶点。

BioGPT-G信息提取流程，图片引自 $2$

NO.2 文章结论

通过上述方法，作者将prompt中的{DISEASE}设置为阿尔兹海默症、肌萎缩性侧索硬化症等14个衰老相关疾病。对于每个疾病分别提取输出基因列表中top200的基因及probability。最后提取出14个衰老疾病共有的靶点基因，共提取出了9个靶点。这些靶点中6个是已经报道过的衰老相关靶点，一定程度上反应了该方法的准确性。同时还发现了3个新颖靶点，其中1个由于不可成药性无法使用，但剩余的2个均有可能是人类目前忽视的衰老相关靶点。

BioGPT-G 衰老疾病相关靶点预测结果，图片引自 $2$

NO.3 使用大语言模型进行新颖靶点预测的缺陷及展望

虽然BioGPT-G在衰老相关靶点预测的任务中取得了令人欣喜的结果，但毫无疑问其仍有着严重的缺陷。BioGPT-G虽然能给出6个已经报道过的靶点，但另外2个新颖靶点在专业研究人员看来仿佛空穴来风，因为我们无法去理解大语言模型给出这些结果背后的逻辑，且目前也没有一个令人信服的预测准确率数据。因此，很多科研人员相比于相信大语言模型挖掘出的新颖靶点，更相信自己亲手一步步挖掘得到的靶点，即便亲手挖掘需要远超大语言模型的时间成本和金钱成本。

此外，医药研发并非像常规的自然语言处理一样，能简单快捷的验证模型答案的准确性。医药研发涉及到人类健康和生命，所以在应用这些模型时需要特别谨慎。目前任何新的靶标发现都需要经过严格的实验验证，以确保其科学性和有效性。在大语言模型解释性不足的当下，虽然能免除一些探索性实验，还做不到去除实验验证的步骤。

在未来，我们期待能看到大语言模型与其他技术（如结构生物学，基因编辑等）的进一步融合，以提高靶标发现的效率和精度。与此同时，我们也期待看到更多的研究来提高模型的解释性，使其在医药研发中的应用更加透明和可靠。

总而言之，大语言模型为医药研发带来了新的可能性，但同时也带来了新的挑战。我们需要以开放和批判的态度来接纳这些新的工具，不断探索和优化它们在靶标发现中的应用。

人工智能助力蛋白靶点结构的预测

正如我们之前所提到的，靶点发现中一个非常重要的计算手段便是蛋白结构相似性分析，但如果蛋白的结构本身未知，那他就很难被用于结构相似性分析，也就难以被定性为可能的靶点。同样的，如果一个已知为靶点的蛋白结构未知，那针对这一靶点的药物设计也变得难上加难。

然而蛋白质结构预测一直以来都是一个极具挑战性的问题。蛋白质结构预测本身是一个NP-complete问题，即使是一个很小的蛋白质，也可能有极多组合的折叠方式。例如，一个只有100个氨基酸的蛋白质，如果每个氨基酸有3种可能的构象（即，3种可能的空间方向），那么可能的折叠方式就有3^100种，这个数字远远超过了宇宙中的原子数量，通过常规计算方式进行计算甚至需要计算到宇宙毁灭。因此，以往均是通过实验的方法（例如X射线晶体学或核磁共振）去完成蛋白质结构的预测，但仍然需要数周、数月甚至数年的时间。另外，有些蛋白质的结构至今仍然无法通过传统的方法来解决。近年来，人工智能的快速发展为解决这一难题带来了希望。在这里我们以第一个跨纪元工具AlphaFold2 $3$ 为例，来介绍人工智能在蛋白结构预测中起到的帮助。

AlphaFold2是由DeepMind公司研发的一种人工智能算法，它能够对蛋白质的三维结构进行精确预测。在2020年，AlphaFold2在蛋白质结构预测的全球竞赛------CASP14中取得了突出的成绩，其预测精度甚至达到了实验水平，这在人工智能领域引起了巨大的轰动。

NO.1 AlphaFold2的工作原理

AlphaFold2的工作原理基于深度学习，它使用了一种名为Evoformer的Transformer模型变种。Transformer模型最初是为解决自然语言处理问题而设计的，但DeepMind的科学家们发现，它也非常适合描述蛋白质序列。在AlphaFold2中，每个氨基酸被视为一个单词，一串氨基酸序列就构成了一句"话"。通过Transformer模型，AlphaFold2能够理解蛋白质序列中的"语境"，进而预测出蛋白质的三维结构。

AlphaFold2的输入主要为蛋白质序列的多序列比对(MSA)结果，MSA的构建方式是将输入的蛋白质序列与蛋白质数据库中的序列进行多比对，提取出与输入序列相似的所有序列，并构建为一个矩阵。这种比对基于这样一个假设：序列的相似性表示它们具有共同的进化起源。多序列比对可以帮助确定多物种保守的序列区域，这些区域在进化过程中保持不变，可能是因为它们对生物有重要的功能。AlphaFold2通过MSA来提取出蛋白质序列的进化信息，此外，如果在MSA中的多个序列中观察到两个位置的氨基酸同时变化，那么这可能暗示这两个氨基酸在蛋白质的空间结构中是相互接近的。AlphaFold2利用transformer的信息提取能力，充分学习了这种"协变"信息，从而更准确地预测蛋白质的三维结构。

AlphaFold2模型框架，图片引自 $3$

NO.2 后续工具针对AlphaFold2的改进

AlphaFold2的出现无疑是一个巨大的突破，但同样他并不完备。AlphaFold2自身存在着许多不足，如MSA构建的步骤，会极大的占用计算时间。因此很多方法基于这一缺陷，提出了新的技术，如Meta公司提出了ESMfold。

ESMfold放弃了MSA的构建步骤，而是采用了使用一个蛋白质大语言模型ESM2，来对氨基酸之间的相互作用模式进行表征。ESM2同样基于Transformer架构，可以针对输入的蛋白质序列直接提取出其包含进化信息embedding。该embedding可以直接输入类似AlphaFold的Evoformer中。这种端到端的计算方法，使得ESMfold的推理速度比AlphaFold2快了一个数量级。更适合用户的使用。

ESMfold模型框架，图片引自 $4$

NO.3 AI辅助蛋白质结构预测仍存的问题

尽管目前AI模型为蛋白质结构预测提供了非常大的帮助，但受限于深度学习的可解释性，它们的工作原理仍然是难以理解的黑箱。这对在生物学研究中希望理解蛋白质折叠原理的研究人员来说是一个问题。

此外许多蛋白质在体内不只有一种结构，它们可能会根据不同的环境条件或相互作用对象而改变结构。当前的AI模型往往只能预测一种最稳定的结构，而不能对结构的多态性进行预测。

现有的AI模型同样严重依赖已知结构的蛋白质家族，对于那些并没有实验得到结构的蛋白质家族，AI模型通常表现较差。

写在最后

毫无疑问，人工智能的发展对药物靶点的鉴定起到了一定帮助。但需要注意的是，这些帮助并非是颠覆性的，而是一种在目前技术框架下的优化和增强。无论是大语言模型推动的新颖靶点发现还是AI辅助的蛋白质结构预测，在医疗行业的应用都会严重受限于深度学习的可解释性和训练数据的质量。

总的来说，AI在药物靶点识别中的应用无疑为我们提供了新的工具和技术，使我们能够更好地理解和解决生物医学中的一些复杂问题。但我们也应明白，AI只是一个工具，最终的药物开发仍然需要人类的智慧和努力。因此，我们既要看到AI的巨大潜力，也要认识到它的局限性，合理地运用AI，以期在药物靶点识别和药物开发中取得更大的进步。

参考：

$1$ Zhang Y, Luo M, Wu P, et al. Application of computational biology and artificial intelligence in drug design $J$ . International journal of molecular sciences, 2022, 23(21): 13568.

$2$ Zagirova D, Pushkov S, Leung G H D, et al. Biomedical generative pre-trained based transformer language model for age-related disease target discovery $J$ . Aging (Albany NY), 2023, 15(18): 9293.

$3$ Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold $J$ . Nature, 2021, 596(7873): 583-589.

$4$ Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model $J$ . Science, 2023, 379(6637): 1123-1130.