FDA基于DL的自然语言处理方法，识别定向药代动力学药物相互作用

在药物开发过程中，收集有关药物（对象）由于与另一种药物（沉淀剂）的药代动力学（PK）药物相互作用（DDI）而导致的临床暴露变化的信息至关重要。

虽然已经发布了许多用于 DDI 的自然语言处理 (NLP) 方法，但大多数方法旨在评估文本中是否存在（以及何种）DDI 关系，而不识别 DDI 的方向（对象与沉淀药物）。

在这里，美国食品药品监督管理局（Food and Drug Administration，FDA）的研究人员提出了一种从文献或药物标签中自动识别 PK DDI 方向性的方法。

该团队重新注释了文本分析会议 (TAC) DDI track 2019 语料库，用于识别 PK DDI 的方向，并按照 TAC 预先指定的训练和验证步骤评估了微调 BioBERT 模型在此任务上的性能。

该研究以「Deep learning-enabled natural language processing to identify directional pharmacokinetic drug--drug interactions」为题，于 2023 年 11 月 1 日发布在《BMC Bioinformatics》。

在过去的十年中，人们对开发自然语言处理（NLP）方法以自动从生物医学文献（包括监管药物标签）中提取和处理信息的兴趣激增。正在积极研究的 NLP 应用之一是自动识别药物相互作用 (DDI)。

这是由于潜在 DDI 的高流行可能导致临床环境中的重大不良事件，以及包含自然语言格式的既定 DDI 信息的生物医学文档的快速扩展。机器学习技术（尤其是深度学习/神经网络）的最新进展使得从生物医学文档中自动提取 DDI 成为可能。

一个明显的例子表明需要对 DDI 信息进行 NLP 自动化方法，即识别由于其他沉淀药物导致的目标药物临床暴露的变化。这种药代动力学 (PK) DDI 信息不仅在临床开药时很重要，而且在药物开发过程中也很重要：例如，在评估药物引起 QT 延长或致心律失常不良事件的可能性时，国际监管指南要求进行临床和非临床研究，以涵盖所谓的高临床暴露情况（定义为在存在内在或外在因素，如肾功能受损、PK DDI 等情况下使用药物时的预期暴露量）。

给定特定药物（目标药物），从现有生物医学文献和所有其他药物（沉淀药物）的监管标签中收集可能通过 DDI 改变目标药物临床暴露的信息，是建立其高临床暴露的重要一步。

图示：关于涉及维拉帕米的药代动力学 (PK) 药物相互作用 (DDI) 的一对示例句子。（来源：论文）

目前已经有多项旨在鼓励和评估 NLP 技术从生化文献和监管药物标签中提取 DDI 的举措，例如 2011 年和 2013 年的 DDI 提取共享任务，以及 2018 年和 2019 年文本分析会议 (TAC) DDI 跟踪。各种 NLP 方法，包括基于句法和词汇特征的传统机器学习方法，以及基于神经网络的深度学习方法，已经在这些举措下进行了评估，并取得了不同程度的成功。

然而，这些现有方法很难应用于自动提取由沉淀药物 DDI 引起的目标药物临床暴露变化的问题。例如，考虑到「从自然语言文本中识别维拉帕米临床暴露被另一种药物改变的所有 DDI」的任务，大多数已发表的方法只能完成句子分类的第一步：筛选文献或产品标签中的所有句子，并识别那些描述涉及维拉帕米的 DDI 关系的句子。

由于维拉帕米既是细胞色素 P450 酶和 P-糖蛋白的抑制剂，又是 CYP3A4 的底物，因此从第一步中将识别出大量句子，其中维拉帕米可以是客体药物或沉淀药物。因此，在第二步中，大多数句子需要被过滤掉，只留下一小部分具有「正确」方向的 DDI 句子：那些将维拉帕米描述为目标药物的药物，其临床暴露可以被其他（沉淀剂）药物改变（图1）。

第二步属于命名实体识别（NER）的典型 NLP 任务。迄今为止，唯一一次解决确定 PK DDI 方向性的任务是在 TAC 2019 DDI 轨道的任务 3 和 4 中。在提交方法的四个团队中，只有一个团队尝试了任务 4。但是，这些方法似乎并未公开。因此，目前似乎还没有任何已发布的 NLP 方法可以从自然语言文本中自动识别 PK DDI 的方向。

在这里，FDA 的研究人员报告了通过 NLP 完成这两个步骤的完整解决方案的开发。该方法基于最先进的预训练神经网络语言模型 BERT（Transformers 的双向编码器表示）。该团队手动注释了一个语料库来标记对象与沉淀药物，然后对之前发布的 BERT 模型进行微调，该模型是根据生物医学文献（BioBERT）进行预训练的。

研究人员将所得模型命名为 BioBERT_directiveDDI，它旨在按顺序完成两个步骤：首先识别涉及 PK DDI 的句子，然后标记该句子中的目标药物与沉淀药物。

值得注意的是，该过程的第一步将句子分类为一个关系类别，但没有识别句子中的哪些实体具有这种关系。相比之下，文献中的关系提取（RE）任务通常识别与句子中的实体相关的关系类别，并对实体进行预先识别和匿名化。这使得这里的句子分类任务（第一步）与 RE 任务相似，即识别关系类别，但识别该关系涉及哪些实体不是任务的一部分。该程序的第二步将完成此 NER 任务。

图示：训练和验证流程。（来源：论文）

研究人员使用传统的分类性能指标（例如精度和召回率）以及 F 分数来评估模型的准确性。根据 TAC 2019 DDI 轨道预先指定的验证数据集，该模型在识别 PK DI 句子（第一步）方面的 F 分数为 0.82，在识别对象药物与沉淀药物（第二步）方面的 F 分数为 0.97。

值得注意的是，该神经网络的最后一层是 softmax 层，它将产生输入样本属于每个类别的概率。例如，在第一步之后，每个句子将被分配一个概率 X (0 < X < 1) 属于「PK-DDI」类别，1-X 属于「其他或无 DDI」类别。由于 X 是连续变量，理论上可以使用接受者操作特征 (ROC) 曲线来说明整个可能分类阈值范围（即 X 的范围）的性能，并选择一个阈值以获得最大性能。研究人员使用了一种更简单的「最大参数」方法，本质上将 X 的分类阈值固定为 0.5，因为这种方法广泛应用于采用神经网络进行分类的机器学习文献中。

总之，该模型能够在制定心脏安全国际指南期间有效评估一些参考药物的高临床暴露，预计将在药物开发活动中发挥重要作用，在药物开发活动中，有必要收集由于 DDI 与其他沉淀药物引起的特定药物临床暴露变化的信息。

论文链接：bmcbioinformatics.biomedcentral.com/articles/10...