Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: Student Research Workshop, pages 82--92 November 1--4, 2023. ©2023 Association for Computational Linguistic
https://aclanthology.org/2023.ijcnlp-srw.11.pdf
研究了生物医学领域中语言模型与知识图谱(UMLS)的融合问题,分析现有模型局限,提出四个研究问题,通过开发新的表示对齐方法、探索知识融合策略等,利用 PubMed 摘要等数据进行实验和评估,旨在提升生物医学语言模型性能,深化对文本 - 知识库交互理解,解决知识库利用和低资源语言等问题。
问题
- 最优知识融合策略未明确 :尽管已有多种知识融合策略被提出,但对于生物医学领域,从零开始的知识增强语言模型预训练、基于知识库的任务特定微调、预训练语言模型与知识库表示对齐这三种策略中,哪一种或如何组合能达到最优效果尚不明确。
- LM 与生物医学 KB 表示对齐困难:目前尚无有效的语言模型(LM)与生物医学知识库(KB)表示的对齐方法,且直接应用现有方法存在诸多阻碍,如模型架构差异和任务模态差异等。
- LM 缺乏生物医学知识:现有领域特定的语言模型缺乏足够的生物医学事实知识,可能源于提示方法不完善或模型本身知识的缺失或不完整,如何将生物医学知识库中的知识融入语言模型是一个挑战。
- 低资源语言利用问题:多数生物医学 NLP 研究集中于英语数据,低资源语言被忽视,如何利用丰富的英语知识库提升低资源语言在生物医学 NLP 任务中的表现是亟待解决的问题。
挑战
- 语言模型自身局限 :现有生物医学语言模型在存储大量事实知识、本体记忆、推理能力以及捕捉复杂专业领域术语方面存在不足。在一般领域,大型语言模型已被证明在这些方面能力有限,生物医学领域同样面临该问题,例如在生物医学知识探测任务中,模型难以捕捉复杂术语,对某些提示存在偏差且不了解同义词12。
- 知识库利用挑战 :虽然有像 UMLS 这样的大规模知识库,但将其知识融入语言模型面临困难。如在处理低资源语言文本时,存在严重的语言不平衡问题(从 UMLS 中不同语言概念名称数量占比可看出,英语占比达 70.78%,而许多语言占比极低)。此外,将知识库知识融入语言模型的现有方法存在局限性,如基于知识库增强的语言模型预训练或微调方法中,现代语言模型的注意力机制与知识库图的稀疏结构矛盾,知识库图的线性化也阻碍了文本与知识库模态的直接对齐;同时,一些方法过于依赖特定下游任务,缺乏文本与生物医学概念的明确对齐345。
创新点
- 探索新的知识融合策略 :提出对比从零开始 的知识增强语言模型预训练 、基于知识库的任务特定微调 以及预训练语言模型与知识库表示对齐 这三种策略,尤其关注基于对齐的策略在生物医学领域的适用性和有效性,这种探索在该领域相对新颖。
- 开发新的表示对齐方法 :针对文本与知识库表示对齐这一未被充分探索的领域,计划开发新方法,包括隐式对齐(通过辅助知识库引导训练目标,提出单模态和混合模态图恢复的思路)和显式对齐(结合上下文概念提及与知识库图表示,通过对比目标函数直接最小化二者距离)。
- 跨模态跨语言研究视角 :从跨模态(文本与图)和跨语言角度研究知识融合,如在跨语言方面,探索如何利用多语言 UMLS 知识库的概念节点特征,通过跨语言跨模态表示对齐来提升低资源语言在生物医学任务中的性能,这在已有研究中较少被全面深入探讨。
贡献
- 提出研究问题与计划:系统地提出了生物医学语言模型领域的四个重要研究问题,并详细阐述了针对这些问题的研究计划,包括研究方法、实验设置、评估指标等,为后续研究提供了清晰的方向和框架。
- 创新方法思路:为解决语言模型与知识库的融合问题提供了创新的方法思路,如在表示对齐方面的新探索,有望提升生物医学语言模型对知识的利用能力,从而改善在各种生物医学 NLP 任务中的表现。
- 促进跨领域理解:通过研究计划的实施,预期能够加深对文本与知识库交互机制的理解,不仅有助于生物医学 NLP 领域的发展,也可能为其他领域中语言模型与知识库的融合提供参考和借鉴。
提出的方法
- 表示对齐
- 隐式对齐:通过引入多模态目标实现信息交换,考虑两种情况。一是单模态图恢复,将文本和图恢复任务视为单独单模态任务,用单个图编码器编码三元组的头和尾概念;二是混合模态图恢复,用不同模态的嵌入初始化头概念和尾概念,并采用 TransE 或 ComplEx 模型。
- 显式对齐:明确告知模型文本和图嵌入是同一概念的互补表示。包括单模态文本方法(仅用语言模型填充掩码概念槽)和基于投影的方法(学习文本与图嵌入的投影以进行相似性搜索),本研究计划结合上下文概念提及和知识库图表示,通过 Multi - Similarity 或 InfoNCE 损失函数最小化二者距离678。
- 知识探测:将知识注入视为双模态问题,把三元组完成基线重新表述为双模态文本到图任务,即给定文本提示,预测最佳匹配的知识库节点,同时探索结合显式和隐式的模态对齐策略来提高语言模型在知识探测任务中的能力。
- 跨语言对齐:基于跨语言跨模态表示对齐来解决低资源语言利用问题,利用固定概念名的多语言特性和概念节点在图中的语言独立性,以跨语言概念名对齐对 BCN 质量的提升为基础,研究跨模态对齐对其他生物医学任务性能的影响,虽因非英语数据缺乏在其他任务应用受限,但可先从 BCN 实验入手9。
指标
- 主要任务指标:针对研究问题 1 和 2,重点关注问答(QA)和生物医学概念归一化(BCN)任务的相关指标,如准确率、召回率、F1 值等,因为这些任务已有较多知识增强的解决方案可供对比。
- 知识探测指标:对于研究问题 3,采用生物医学知识探测任务(如 MedLAMA 和 BioLAMA 基准)中的评估指标,具体未明确提及,但应与判断模型对生物医学知识的掌握和应用能力相关,可能包括对概念填充准确性、推理能力评估等方面的指标。
- 跨语言任务指标:在研究问题 4 中,为探索低资源语言利用,对比当前跨语言 BCN 模型的性能,采用零样本排名评估,如基于 Mantra 语料库(Kors et al., 2015)和 XL - BEL(Liu et al., 2021b)的跨语言 BCN 基准进行评估,指标可能涉及不同语言环境下概念归一化的准确性、不同语言间知识迁移效果等方面的衡量。
模型结构
- 文本编码器:采用 PubMedBERT 作为获取文本语言表示的编码器,它是在 PubMed 摘要上预训练的先进生物医学语言模型。
- 图编码器:使用 Message Passing 框架,并通过 GraphSAGE 或 GAT 编码器获取概念节点嵌入,每个节点初始化为其概念名的 PubMedBERT 嵌入(随机初始化)。
- 对齐模块(计划开发)
- 隐式对齐:在单模态图恢复中,利用单个图编码器处理文本和图恢复任务;混合模态图恢复则涉及不同模态嵌入的交互,通过特定模型(如 TransE 或 ComplEx)对头尾概念进行关系建模。
- 显式对齐:涉及文本与图嵌入的直接关联,可能通过学习投影或结合上下文概念提及与图表示,利用对比目标函数(如 Multi - Similarity 或 InfoNCE)实现文本与图表示的对齐。
结论
- 明确了现有生物医学预训练语言模型和相关解决方案在处理下游 NLP 任务时存在的关键局限性,如模型对事实知识利用不充分、缺乏文本 - 知识库显式对齐等问题。
- 提出的四个研究问题及相应研究计划,旨在克服这些局限性,通过探索不同知识融合策略、开发新的表示对齐方法等手段,预期能深化对文本 - 知识库交互的理解,为生物医学 NLP 领域中知识库的有效利用提供更优策略。
剩余挑战和未来工作
- 知识图谱特性影响:使用如 UMLS 这样的大型知识图谱时,其规模和复杂性可能影响模型学习和预测能力,不同规模和结构的知识图谱对模型性能的影响仍需深入研究,未来工作可探索如何优化模型以适应不同特性的知识图谱。
- 模型偏差与数据覆盖问题:训练模型可能继承语言模型和知识库中的偏差(如种族、性别等方面)和毒性行为,且现有数据集和知识图谱主要关注文献中常见的医学概念,对罕见事件覆盖不足。未来需要研究如何减少模型偏差,并提高模型对罕见生物医学事件的处理能力,可能涉及数据增强、更公平的模型训练方法等方面的探索。
- 跨语言与跨任务拓展:虽然提出了跨语言跨模态的研究思路,但在实际应用中,非英语数据的缺乏限制了跨语言方法在其他生物医学任务中的应用。未来需进一步收集和整理多语言生物医学数据,拓展跨语言方法在更多任务中的有效性研究,以实现对低资源语言更全面有效的支持。
数据集
- 训练数据 :使用 PubMed 摘要作为各种对齐方法的训练数据,并采用 BERN2(一种新的生物医学实体识别和归一化工具)来识别和对齐文本概念提及与 UMLS 概念。
- 评估数据集
- QA 和 BCN 任务:采用 BigBio 基准中的相关数据集,该基准包含 126 个生物医学 NLP 数据集,涵盖 13 种任务(包括 QA 和 BCN),涉及 10 多种语言,用于回答研究问题 1 和 2。
- 知识探测任务:采用 MedLAMA 和 BioLAMA 基准来评估研究问题 3 中模型在生物医学知识探测任务中的性能。
- 跨语言 BCN 任务:除了对比当前跨语言 BCN 模型外,采用基于 Mantra 语料库(Kors et al., 2015)和 XL - BEL(Liu et al., 2021b)的跨语言 BCN 基准进行零样本排名评估,以研究问题 4 中探索低资源语言利用情况。
抽象
生物医学自然语言处理(NLP)的最新进展是由特定领域的预训练语言模型(LMs)推动的,但有效存储大量生物医学事实知识的挑战仍然存在。尽管经过微调的语言模型在下游自然语言处理任务中表现出色,但这些模型在本体记忆、推理能力和捕获复杂的专业领域术语方面存在局限性。为了解决这些问题,我们提出了四个研究问题,探索将语言模型与大型知识图谱(KGs)(如统一医学语言系统(UMLS))相结合。我们的提案引入了新颖的对齐方法,以将语言模型与 UMLS 知识图谱连接起来,目的是利用结构化的背景知识来增强生物医学语言模型的推理和泛化能力。该研究提案讨论了知识库的多语言特性以及跨各种数据集的评估指标。
1 介绍
近年来见证了由领域特定的预训练语言模型(LMs)引起的各种生物医学自然语言处理(NLP)的重大进展(Lee et al.,2020;彭 et al.,2019;阿尔森泽 et al.,2019; Beltagy et al.,2019;Michalopoulos et al.,2021;顾 et al.,2022;Yasunaga et al.,2022b)。尽管,这些模型在生物医学语言理解和推理基准(BLURB)(顾 et al.,2022)和 BigBio 基准(Fries et al.,2022)上表现出卓越的性能,但它们存储广泛的生物医学事实知识的能力仍然是一个悬而未决的问题。在一般领域,大型 LMs(LLMs)被证明具有有限的本体论记忆和推理能力(Wu et al.,2023)。现有的生物医学知识探测任务研究表明,生物医学 LMs 难以捕获复杂的专门领域
术语(孟等人,2022 年),高度偏向于某些提示,并且不知道同义词(Sung 等人,2021 年)。让 LM 充分了解领域内的事实可以帮助各种 NLP 应用,包括药物发现(Wu 等人,2018 年;Khrabrov 等人,2022 年;Zitnik 等人,2018 年)、临床决策(Sutton 等人,2020 年;Peiffer-Smadja 等人,2020 年)和生物医学研究(Lee 等人,2016 年;Fiorini 等人,2018 年;Soni 和 Roberts,2021 年)。
在生物医学领域,有大量的多语言知识库,如统一医学语言系统(UMLS)(Bodenreider,2004 年),这使得将事实知识注入语言系统成为可能。UMLS 中存在来自 27 种语言的 166 多个词汇 / 同义词表,其中包含超过 4M 的概念和 15M 的概念名称。然而,从表 1 中可以看出,严重的语言不平衡是处理低资源语言文本的巨大挑战。
在 KB 中,事实信息通常以知识三元组 的形式存储。每个三元组都反映了概念 h 与概念的类型 r 相关的事实概念集 V 和关系三元组的组合可以看作是一个知识图(KG)其中 R 是一组可能的关系类型。尽管大量研究集中于为 LM 开发有效的知识增强通用预训练 方法,但这一主题仍然具有挑战性。一种方法 是在 KB 三元组增强的文本序列 上应用 LM (Wang et al.,2019a; Mannion et al.,2023;徐 et al.,2023;Liu et al.,2020)。这些方法有两个主要的局限性(KE et al.,2021)。首先,现代 LM 中存在的注意力机制的完全连接性质与现有KB 图的稀疏结构 相矛盾。其次,KB 图的线性化阻止了文本和 KB 模式之间的直接对齐。Wang 等人。(2021)获得了维基百科的表示
通过使用 LM 编码简短的文本实体和关系描述来标记,这在生物医学领域是不可行的,因为大多数生物医学概念缺乏文本描述。
由于从零开始的 LM 预训练 需要大量的计算资源,因此更便宜的替代方案是特定任务的 KB 感知微调。 最近,一系列研究集中在利用 UMLS 概念名称和概念间关系来改进生物医学概念规范化(BCN)(Liu et al.,2021a, b;袁 et al.,2022b;Sakhovskiy et al.,2023)。虽然 Sakhovskiy et al.(2023)提出的 GEBERT 明确地学习了同义概念名称和概念节点表示之间的同一性,但该模型与 BCN 极其相关,并且没有为其推广到其他生物医学任务留下空间。最近提出的问答(QA)(Yasunaga et al.,2022a,2021a;Zhang et al.,2022b)系统采用消息传递(MP)(Gilmer et al.,2017)图神经网络 在 KB 上执行有充分根据的推理,从而提高了一般和生物医学领域的质量。这些模型依赖于 LM 和图编码器之间的隐式交互,并且没有显式学习两种模式之间的对齐,从而限制了 LM 记忆知识库事实的能力。
2 相关工作
Chang et al.(2020)对各种生物医学知识表示学习方法 进行了广泛的比较。他们比较了语义匹配方法,例如 TransE(Bordes et al.,2013)、DisMult(Yang et al.,2015)、ComplEx(Trouillon et al.,2016)、SimplE(Kazemi and Poole,2018)和 RotatE(Sun et al.,2019),以提高 SNOMED-CT 数据集的链路预测质量。尽管这些方法优于更简单的 Snamed2Vec(Agarwal et al.,2019)和 Cui2Vec(Beam et al.,2020)基线,但它们低于基于 LM 的方法(Wang et al.,2019a)。
将预训练的生物医学 LM 与外部知识库集成的几次尝试提高了各种下游任务的性能。Sakhovskiy 等人(2021 年);Sakhovskiy 和 Tutubalina(2022 年)使用面向药物的化学数据库 DrugBank(Wishart 等人,2008 年,2017 年)将 LM 嵌入与分类层中的药物化学特征相结合,以检测提及药物不良反应的文本。SapBERT(Liu 等人,2021a,b)通过应用对比目标从统一医学语言系统中学习同义生物医学概念名称,实现了最先进的医学概念规范化(MCN)性能
CODER(袁等人,2022b)和 GEBERT(Sakhovskiy 等人,2023)通过引入额外的基于图的对比目标来扩展该想法,以从 UMLS 图中捕获概念间关系。CODER(袁等人,2022b)和多语言 SapBERT(刘等人,2021b)在单语言英语和多语言设置中实现了规范化改进。
在通用和生物医学领域,许多最先进的 QA 解决方案从 KB 中检索相关子图(Lin et al.,2019;冯 et al.,2020; Yasunaga et al.,2021a;Zhang et al.,2022b,a;Yasunaga et al.,2022a)以执行知识感知推理。Yasunaga et al.(2022a)提出了一种语言知识 DRAGON 模型,该模型受益于通用和生物医学领域的联合语言建模和图形完成目标以及文本和图形编码器之间的双向交互。
因此,现有的知识增强文本处理模型至少具有以下关键限制之一。首先,它们过于依赖于特定的下游任务,如 MCN 或 QA。第二,它们没有提供生物医学概念和文本中提及的生物医学概念之间的明确对齐,而是依赖于文本和图形编码器之间的隐式交互。第三,除了多语言 BCN 方法之外,它们主要关注具有最广泛知识库的英语,忽略了低资源案例。
3 研究计划
3.1 研究问题
尽管已经提出了广泛的知识感知语言建模技术,但几个基本的研究问题仍然没有得到回答。在这个提议中,我们制定了一些重要的问题以及回答这些问题的可能轨迹。首先,我们看到三种主要的知识融合策略:
-
从零开始的知识增强 LM 预培训;
-
KB 增强的特定任务微调;3. 预训练的 LM 和信息丰富的 KB 表示之间的对齐。
RQ1。什么是最佳知识融合策略?
虽然现有的知识增强的通用领域和生物医学 LM 受益于外部知识的预训练,但它们通常至少有以下关键限制之一。首先,它们意味着对 LM 架构的修改(Peter et al.,2019; Zhang et al.,2022b;Yasunaga et al.,2022a)。其次,它们需要在增加了外部知识的文本输入上对所有模型参数进行额外的预训练(Wang et al.,2021;Lauscher et al.,2020;El Boukkouri et al.,2022;袁 et al.,2022a;Mannion et al.,2023)。这两个限制都导致从头开始对所有 LM 参数进行资源密集型预训练,这可能是不可行的。最近在文本和图像领域提出的 FROMAGe(Koh 等人,2023b)和 GILL(Koh 等人,2023a)建议在冻结文本编码器的轻量级场景中,通过对比 InfoNCE(Oord 等人,2018)目标将图像表示与其文本标题对齐。这些对齐方法的可训练参数要少得多
ods 甚至能够优于完全可训练的双峰变压器(Vaswani et al.,2017)模型。受基于对齐策略在文本和图像任务中成功的启发,我们努力探索其在生物医学领域的适用性和有效性,并与其余两种策略进行比较。
RQ2。如何在生物医学领域调整知识库和 LM?
据我们所知,到目前为止还没有提出 LM 和生物医学 KB 表示对齐方法。GILL 和 FROMAGe 对生物医学文本和 KB 的直接适应受到两个关键问题的阻碍。首先,这两种模型都依赖于 Transform 编码器 - 解码器架构并采用文本生成任务,而现有的大多数最先进的生物医学 LM 都是仅编码器的 BERT 模型(Alenszer 等人,2019 年;彭等人,2019 年;Beltagy 等人,2019 年;Lee 等人,2020 年;顾等人,2022 年;Liu 等人,2021a;Mannion 等人,2023 年)。其次,虽然图像到文本和文本到图像任务本质上是双模态的,但大多数生物医学 NLP 任务并非如此(即,在微调和评估期间仅提供文本序列)。
3.1.1RQ3。如何用生物医学知识丰富 LM?
当前的生物医学知识探索基准(Sung 等人,2021 年;孟等人,2022 年)表明,现有的特定领域 LMs 缺乏事实知识。这可能是由以下两个原因引起的:(一)提示方法的不完善或(二)LMs 中知识的实际缺失或不完整。我们认为,来自生物医学知识库的领域内知识的集成(例如,来自 UMLS 的生物医学概念之间的相互作用)仍然是一个开放的挑战,需要彻底的探索。
如何为低资源语言开发丰富的英语知识库?
大多数现有的生物医学 NLP 研究都使用了大量的英语数据,将低资源语言排除在范围之外。虽然多语言 UMLS 概念名称的对齐被证明在单模态设置中显着提高了 BCN 质量(Liu et al.,2021b;袁等人,2022b),但他们仍然难以处理 UMLS 概念名称的严重语言不平衡(见表 1)。或者,可以从双模态文本和图形的角度来处理 UMLS 知识库,并使用图形模态捕获 language-independent
概念节点的特点。
3.2 拟议方法论
3.2.1 表示对齐
目前,文本和知识库表示的对齐仍然是一个未被充分讨论的话题。为了回答 RQ1 和 RQ2,我们计划开发新的对齐方法。为了将文本表示与知识库知识对齐,我们计划使用从文本中的上下文化 提及嵌入中获得的生物医学概念表示。 我们预见了两种可能的对齐方法:(i)通过辅助知识库指导的训练目标进行隐式对齐 ,以及(ii)通过文本和图形表示的显式对齐。
隐式对齐实现两个或多个模态之间的信息交换的方法之一是引入多模态目标。之前在通用领域 QA 上的工作(Yasunaga et al.,2022a; ke et al.,2021)引入了多任务文本和图恢复目标,以从对齐的文本序列和文本中提及的实体的 KB 子图中学习。然而,这种方法依赖于文本和图模态之间的隐式交互,并且没有明确告知模型子图是由文本诱导的,实际上是它从另一个模态获得的替代表示。在我们的工作中,我们计划采用和扩展图恢复目标的思想,并考虑其以下两种情况:
单模态图恢复:继 Yasunaga 等人(2022a)和 KE 等人(2021)之后,我们将文本和图恢复任务视为单独的单模态任务,使用单个图编码器对三元组的头和尾概念进行编码;
混合模态图恢复:由于概念的 LM 和基于图的表示是互补的,我们建议通过嵌入第一个模态来初始化头部概念,通过嵌入第二个模态来初始化尾部概念。
虽然第一种情况是传统的,但据我们所知,混合模态问题陈述没有得到充分的探索。对于这两种情况,我们将使用 TransE 或 ComplEx,将尾概念建模为头部概念的基于关系的转换。
显式对齐组合多种模式的另一种方法是显式告知模型文本和图嵌入是单个概念的两个互补表示。
单模态文本方法涉及仅使用 LM 填充掩蔽概念槽;
Biemann 等人(2018)提出了图与语言模型对齐的早期尝试:图的稀疏表示与词义的稀疏分布表示相关联。Nikishina 等人(2022)试图通过学习其内部表示的投影来将标准文本 BERT 模型与基于图的 BERT 对齐。同样,静态图和文本嵌入之间的投影可用于计算给定文本图中的相似性搜索,例如用于问答(黄等人,2019)。
在之前的工作(Sakhovskiy et al.,2023)中,应用对比目标从由概念名称和概念节点组成的双峰正对中学习。GILL 和 FROMAGe 受益于通过对比目标和小对齐模型对齐上下文 LM 标记和图像。在我们的研究中,我们计划将这两种方法结合起来,并通过图形编码器对从 UMLS 获得的上下文化概念提及及其图形表示进行上下文对齐。我们期望引入多相似度(Wang et al.,2019b)或 InfoNCE(Oord et al.,2018)损失函数,以直接最小化相同生物医学概念的文本和图形表示之间的距离。
3.2.2 知识探索
提高 LM 能力作为 KB 和回答 RQ3 的两种可能方法是(i)改进提示策略和(ii)修改 LM 及其训练管道。尽管孟等人(2022)和 Sung 等人(2021)在适当的及时调整后观察到探测质量的提高,但就准确率而言,该任务仍远未解决约 10%。我们将坚持第二种选择,并尝试通过与 KB 模态的对齐来提高生物医学 LM 的知识意识:包括隐式和显式。由于当前的生物医学知识探测基准需要在从知识三元组推断的提示中填充掩蔽概念,我们将把知识注入作为一个双模态问题进行研究,并重点关注以下知识探测问题陈述:
双模态文本和 KB 方法将三元组完成基线重新制定为双模态文本图谱任务:给定文本提示,目标是预测最佳匹配的 KG 节点。
虽然纯文本方法通常与多词概念名称作斗争,但我们的目标是探索任务的重新表述是否有助于克服这个问题。此外,第二种方法允许结合上述模态对齐策略:显式和隐式。
3.2.3 跨语言对齐
我们期望通过跨语言跨模态表示对齐来解决 RQuar。虽然固定的概念名称是单语言的,但从语言的角度来看,概念本身是多语言的,从图形的角度来看,它独立于语言。虽然跨语言概念名称对齐提高了 BCN 质量(Liu et al.,2021b;袁等人,2022b),但我们的目标是研究跨模态对齐是否可以进一步提高性能。不幸的是,由于缺乏非英语数据,其他生物医学任务的应用受到阻碍,但关于 BCN 的实验可以作为一个很好的起点。
3.3 实验设置
训练数据作为各种对齐方法的训练数据,我们将利用 PubMed 摘要 。为了识别文本概念 提及并将其与 UMLS 概念对齐 ,我们将采用最近提出的生物医学实体识别和归一化工具 BERN2(Sung et al.,2022)。
文本和图编码器为了获得语言表示,我们将采用 PubMedBERT(gu 等人,2022 年),这是一种在 PubMed 摘要上预训练的最先进的生物医学 LM。为了产生图表示,我们将采用消息传递框架(Gilmer 等人,2017 年),并使用 GraphSAGE(Hamilton 等人,2017 年)或 GAT(Velickovi'c 等人,2018 年)编码器获得概念节点嵌入。每个节点都将随机使用其概念名称的 PubMedBERT 嵌入进行初始化。
计算效率由于对齐策略,我们假设文本和图形编码器都已经训练有素,我们努力探索是否
我们可以减少对齐过程的计算负担。对于每个编码器,我们将考虑三种情况:(i)具有小型外部对齐模型的完全冻结编码器,(ii)部分冻结编码器,(iii)完全可训练编码器。
概念掩蔽为了强制知识库对齐的 LM 从完整上下文中学习,而不是仅仅从概念提及中学习,我们将以固定的概率掩蔽概念提及。同样,为了刺激图编码器从 KG 中的概念相邻概念传递更多信息性消息,我们将掩蔽锚的概念名称。掩蔽有望提高模型与知识探测基准的兼容性。
3.4 评价
Fries et al.(2022)发布了 BigBio,这是一个大型数据中心基准测试,包括 126 个生物医学 NLP 数据集,涵盖 13 个任务,包括 10 多种语言的 QA 和 BCN。为了回答 RQ1 和 RQ2,我们将主要关注 QA 和 BCN,因为这些任务已经有知识增强的特定任务解决方案可以与之进行比较。为了探索 RQuar,我们将与当前最先进的 BCN 跨语言模型进行比较(Liu et al.,2021b;袁等人,2022b;Sakhovskiy 等人,2023 年),并另外采用两个跨语言 BCN 基准,用于基于零次排名的评估:(i)基于 Mantra 语料库的(Alekacev 等人,2022 年)(Kors 等人,2015 年)和(ii)XL-BEL(Liu 等人,2021b)。我们**将采用 KG 增强的最新 QA 模型:QA-GNN(Yasunaga 等人,2021b)、GreseLM(Zhang 等人,2022b)、JointGT(KE 等人,2021 年)和 DRAGON(Yasunaga 等人,2022a)作为知识增强的 QA 基线。**对于 BCN 和 QA 以及其他任务,我们将采用强大的特定领域生物医学 LM,例如 BioBERT(Lee 等人,2020 年)。
对于生物医学知识探索任务和 RQ3,我们将采用上述 MedLAMA 和 BioLAMA 基准。我们将根据现有的生物医学 LM 进行评估,例如 BioBERT(Lee et al.,2020)、Bio-LM(Lewis et al.,2020)和 PubMedBERT(gu et al.,2022)。
4 结论
在本文中,我们确定了现有特定领域预训练生物医学 LM 的关键限制以及当前解决下游 NLP 任务的最先进的特定领域解决方案。我们
提出四个重要的研究问题并提出探索它们的计划。现代 LM 无法充分揭示事实知识的潜力,并且在当前的预训练管道中缺乏明确的文本 - 知识库对齐程序。虽然知识库的使用已经提高了生物医学概念规范化和问答的质量,但将领域知识融合到通用生物医学 LM 中的方法有待探索。为了克服现有的 LM 限制,我们提出了明确对齐知识库概念及其在文本中的代表的想法。我们研究计划的完成有望加深对文本 - 知识库相互作用的理解,并更好地理解生物医学 NLP 中知识库利用的最佳策略。
致谢这项工作得到了俄罗斯科学基金会赠款 #23-11-00358 的支持。
5 道德、限制和风险
大型特定领域图。我们计划采用大型生物医学知识图谱,即统一医学语言系统(UMLS),其中包含 400 万概念和 1500 万概念名称。需要注意的是,对于节点和边数量较少的不同领域使用知识图谱可能会影响性能。知识图谱的大小和复杂性会显著影响模型学习和做出准确预测的能力。
偏见。因此,重要的是要承认经过训练的模型可以继承语言模型和用于初始化的知识图表中存在的偏见和有害行为。例如,语言模型已被证明包含了关于种族、性别和其他人口统计属性的偏见。生物医学研究和临床试验可能无法充分代表某些人群。同样,知识图谱可能包含刻板印象,而不是提供公正的常识性知识。
生物医学概念的多样性。重要的是要强调,数据集和知识图表主要关注文献中有据可查的医学概念。这限制了模型对不频繁或不常见事件的暴露。因此,调整训练有素的模型来处理罕见的生物医学事件可能需要额外的努力和关注。
拓展论文
2023b。为多模态输入和输出将语言模型接地到图像。在国际机器学习大会上,ICML 2023,2023 年 7 月 23-29 日,美国夏威夷檀香山,《机器学习研究论文集》第 202 卷,第 17283-17300 页。PMLR
Jing Yu Koh, Ruslan Salakhutdinov, and Daniel Fried.
2023b. Grounding language models to images for
multimodal inputs and outputs. In International Con-
ference on Machine Learning, ICML 2023, 23-29
July 2023, Honolulu, Hawaii, USA, volume 202 of
Proceedings of Machine Learning Research, pages
17283--17300. PMLR