整合知识图谱与大语言模型：下一代药物发现的革命性技术

Integrating Knowledge Graphs and Large Language Models for Next-Generation Drug Discovery

摘要

本文探讨了知识图谱（KG）和大语言模型（LLM）在生物医药研究中的整合应用及其对药物发现的革命性影响。通过结合语义分析和人工智能技术，这些工具正在优化目标识别、药物相互作用预测及药物重定位等关键流程，为生命科学研究带来全新机遇。

正文

一、引言：药物发现的新时代

在生物医药研究领域，技术的快速进步正在重塑药物发现与开发的传统模式。知识图谱（Knowledge Graphs, KG）和大语言模型（Large Language Models, LLMs）作为两种强大的工具，近年来在该领域崭露头角。知识图谱通过结构化数据捕捉生物医学中的复杂关系，而大语言模型则以其强大的自然语言处理能力在文献挖掘和假设生成中发挥重要作用。本文将深入探讨这两种技术的整合如何推动下一代药物发现，以及它们在解决生物医药领域关键挑战中的潜力。

近年来，BioStrand 公司在其博客中详细阐述了这两种技术的结合如何为药物研发带来突破。本文基于其内容改写，旨在为专业读者、科研人员及投资人提供全面的视角，帮助其理解这一技术趋势的商业和科学价值。

二、知识图谱与大语言模型在生物医药研究中的角色

1. 大语言模型（LLMs）的潜力与局限

大语言模型（LLMs）是建立在海量文本数据上的自然语言处理工具，其在生物医药领域的应用已显示出超越传统工具的表现。特别是经过领域特定预训练的生物医药LLMs，能够在诸如生物实体识别（BioNER）和关系抽取等任务中表现出色。然而，尽管潜力巨大，LLMs 仍面临一些关键挑战，例如"幻觉"（hallucination，即生成不准确或无根据的内容）以及解释性不足的问题。

更重要的是，LLMs 缺乏语义智能。一些研究者将其戏称为"随机鹦鹉"（stochastic parrots），认为其仅通过统计相关性"学习"语言，而未能真正理解语言的含义。这种局限在生物医药领域尤为突出，因为该领域的词汇和概念具有高度复杂性和上下文依赖性。

2. 知识图谱（KG）的语义优势

与LLMs 不同，知识图谱通过强调实体间的定义和语义关系，弥补了LLMs 在语义理解上的不足。知识图谱能够捕捉生物医学数据的固有图结构，例如药物与疾病的交互、蛋白质与蛋白质的关系等，并将异构数据整合成一个统一且可计算的框架。这种结构不仅对人类易于理解，也便于计算机处理。

知识图谱利用特定领域的本体论（ontologies），正式定义各种概念和关系，从而基于上下文丰富和关联数据。这种语义能力使其成为生物医药研究中不可或缺的工具，尤其是在需要从复杂数据中提取知识的场景下。

三、知识图谱与大语言模型的整合框架

为了充分发挥两者的优势，研究者提出了三种整合知识图谱与LLMs 的框架，以推动药物发现和开发。

1. 知识图谱增强的LLMs

第一种框架侧重于利用知识图谱的显式结构化知识，在预训练、推理和解释性等不同阶段增强LLMs 的能力。这一方法具有三大优势：

提升知识表达

：通过知识图谱的结构化数据（例如基因、蛋白质、疾病、化学化合物等），LLMs 能够更准确地表达领域知识。
提供最新知识

：知识图谱能够持续更新，为LLMs 提供最新的信息支持。
增强透明度

：知识图谱为"黑箱"语言模型的推理过程提供更多可解释性。

通过结合知识图谱的结构化数据和科学文献、临床试验报告等非结构化数据，这一框架为药物发现提供了更全面的领域视角。

2. LLM 增强的知识图谱

第二种框架利用LLMs 的自然语言处理能力来优化知识图谱的构建和应用。LLMs 可以加速图谱构建、支持图到文本生成（graph-to-text generation）以及增强问答系统的性能。这种方法结合了LLMs 的语言能力和知识图谱的语义关系，为药物研究人员提供更快、更精准的复杂问题解答，并基于模式和相关性提取洞见。此外，LLMs 还可以通过不断提取和丰富药物知识图谱，提升其在药物发现中的实用性。

3. 协同生物医药LLM与知识图谱模型

第三种框架旨在创建一个双向数据和知识推理的协同模型，结合生成能力和推理能力。目前，这一方法的开发主要集中于特定任务，但未来有望扩展到更广泛的下游应用。这种协同模型代表了知识图谱和LLMs 整合的最终方向，将显著提升药物发现和开发的效率。

四、药物发现中的具体应用

知识图谱和LLMs 的整合已经在药物发现和开发的多个环节中产生变革性影响。以下是几个关键应用场景：

1. 靶点识别（Target Identification）

靶点识别是药物发现的关键步骤，对后续开发流程具有深远影响。AI 驱动的LLMs 在生物医学命名实体识别（BioNER）和关系抽取等任务中表现出色，超越了传统方法。基于Transformer 的LLMs 在化学信息学中被用于推进药物-靶点关系预测，并生成新颖、有效且独特的分子结构。此外，多模态大语言模型（MLLMs）通过图像与文本的自适应学习进一步提升了靶点识别和验证的效率。

知识图谱则通过将异构数据整合到一个互联框架中，增强了靶点识别的效率，使研究人员能够更全面地探索和分析数据。

2. 药物-靶点相互作用（DTI）和药物-药物相互作用预测

AI 驱动的LLMs 越来越多地被用于预测药物-目标相互作用（DTI）、药物-药物相互作用以及药物的药代动力学、药效学和毒性等分子特性。它们甚至可以预测由于安全问题可能导致的药物撤市风险。

知识图谱则在多药物预测、DTI 预测、不良反应（ADR）预测、基因-疾病优先级排序以及药物重定位等任务中发挥了重要作用。

3. 检索增强生成（RAG）在药物发现中的应用

检索增强生成（RAG）是一种结合LLMs 与内部和外部可信数据源的方法。在药物发现中，RAG 通过访问生物医学数据集或专有数据，帮助生成科学依据充分的回答。当与知识图谱结合时，RAG 可以支持上下文感知的候选建议、文献总结，甚至基于实验输入生成假设。这在数据碎片化的生物医学领域尤为有用，能够揭示跨模态关系（如组学层、路径、表型等）。

五、优化生物医药研究的挑战与解决方案

尽管LLMs 和知识图谱的整合潜力巨大，但在将其广泛应用于生物医药研究之前，仍需解决三大挑战：知识截止（knowledge cut-off）、幻觉（hallucinations）和解释性（interpretability）。为此，研究者提出了两种互补方法：

1. 利用知识图谱增强事实准确性

第一种方法是利用知识图谱中结构化、事实性、领域特定的知识，增强LLMs 的事实准确性、一致性和透明度。通过基于图的查询语言，可以直接查询和整合知识图谱中的预结构化数据到LLMs 中。

2. 结合外部信息检索

另一种关键能力是让生物医药LLMs 能够按需从外部来源检索信息，以生成最新且与上下文相关的回答。这在生物医药研究中至关重要，原因有二：

确保LLMs 的内部知识得到来自领域特定、高质量、可更新知识来源的补充。
提供数据来源，以便检查回答的准确性和出处。

RAG 方法通过结合外部知识检索机制和LLMs 的能力，显著提升了生物医药LLMs 的推理、准确性和知识召回能力。

结合知识图谱和基于RAG 的方法，将在事实准确性、上下文感知和持续知识丰富方面带来显著改进。

六、LLMs 与蛋白质语言模型（PLMs）的区别与协同

在药物发现中，除了LLMs 外，蛋白质语言模型（PLMs）也发挥着重要作用。LLMs 是通用模型，擅长处理文本数据，可用于文献挖掘或临床试验设计；而PLMs 则是基于生物序列（如氨基酸）训练的模型，用于捕捉蛋白质的结构和功能洞见。两者结合能够实现跨模态推理，为更智能的药物发现提供支持。

例如，一个由PLM 预测的蛋白质结构可以通过生物医学知识图谱链接到路径洞见，而LLM 则可以解读这些连接，提出可能的疾病关联或治疗假设，并通过RAG 检索支持性文献。这种多层整合类似于专家科学家的推理方式，帮助团队更快地筛选和优先考虑有意义的候选药物。

七、LENS ai：下一代RAG-KG-LLM平台

BioStrand 公司已成功开发了下一代统一知识图谱-大语言模型框架，其核心是 LENS ai 平台。该平台包含一个全面且持续扩展的知识图谱，映射了整个生物圈中 250 亿个关系和 6.6 亿个数据对象，链接了序列、结构、功能和文献信息。这种技术为基因、蛋白质和生物路径之间的关系提供了整体理解，开辟了药物发现和开发的新机会。

LENS ai 平台利用本体驱动的自然语言处理（NLP）和AI驱动的LLMs，将语法（多模态序列和结构数据）和语义（功能）连接和关联起来。其统一方法结合了LLMs 的推理能力、知识图谱的语义能力以及RAG 的信息检索能力，简化了生物医学数据的整合、探索和分析。

八、未来展望

知识图谱与大语言模型的整合代表了药物发现领域的一次重大技术飞跃。随着研究的深入和协同模型的扩展，这些技术将在更广泛的应用中发挥作用，推动药物研发效率和成功率的显著提升。对于科研机构和投资人而言，理解和参与这一趋势将带来重要的战略优势。

目前，BioStrand 等公司已在这一领域取得初步成功，但未来仍需更多跨学科合作和资源投入，以解决现有挑战并加速技术落地。

欢迎加入「知识图谱增强大模型产学研」知识星球，获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等，行业重点是医疗护理、医药大健康、工业能源制造领域，也会跟踪AI4S科学研究相关内容，以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。