论文浅尝 | TaxoLLaMA: 用基于WordNet的模型来解决多个词汇语义任务(ACL2024)

笔记整理:屠铭尘,浙江大学硕士,研究方向为知识图谱

论文链接:https://arxiv.org/abs/2403.09207

发表会议:ACL2024

1. 动机

探索LLM在解决经典词汇语义任务上的能力。

(1)本文假设:使用hypernym上位词(IS-A关系)来finetune模型,可以提升模型解决分类相关任务(taxonomy-related tasks)的能力。

(2)基本方法:建立了一个基于taxonomy、源于English WordNet的指令集,微调模型TaxoLLaMA。

本文探索的具体词汇语义任务:

(1)Hypernym Discovery: 预测给定下位词的上位词。

(2)Taxonomy Enrichment: 在已有的分类(Taxonomy)中加入一个新的、正确的上位词。

(3)Lexical Entailment: 辨别两个短语对之间的语义关系,是否蕴含。

(4)Taxonomy Construction: 给定一系列领域专业词汇,提取词汇间的上位词-下位词关系,并建立专业领域分类(Taxonomy)

图1 本文所探究的四种词汇语义任务概要

2. 贡献

(1)利用WordNet构建taxonomy指令集、通过上位词预测相关任务来微调LLM,解决词汇语义任务;

(2)提供了一个解决一系列词汇语义任务的统一模型TaxoLLaMA,在11/16个任务上达到SOTA,并在4个任务上排在第二名;

(3)提出了基于WordNet的指令数据集,以及一些输入词汇的定义;

(4)提供了基于人工和ChatGPT的全面的错误分析;

3. 方法

3.1 Data Collection

仿照Are Large Language Models Good at Lexical Semantics? A Case of Taxonomy Learning(LREC2024)的算法,随机从WordNet-3.0中采样出名词和动词,随机选择边组成上位词-下位词对。为避免歧义,通过以下方法获得词语的定义,加入instruction:①从WordNet中获取;②由ChatGPT3.5生成;③从Wikidata中获得。

图2 指令调优集示例

3.2 Training Details

主要训练两种模型:①TaxoLLaMA,在整个WordNet-3.0数据集上训练,后期社区使用,44772 samples;②TaxoLLaMA-bench,保证训练集中没有测试集四种任务的节点,36775 samples。另外训练一种③TaxoLLaMA-Verb,使用WordNet中的verb子树训练,7712 samples。

基座模型LLaMA-2(7B),使用QLoRA方法高效微调。

图3 训练过程

3.3 Task Adaptation

如下图(b)下方所示,"TRUE"和"两点有链接"形式上没有不同,但实际上两个任务又是不同的,因此需要有所设计。

总的来说,对于四个任务,分成两种pipeline:

(1)Generative Approach 给定一个下位词,让模型生成一系列对应上位词。在Hypernym Discovery和Taxonomy Enrichment任务上使用。

(2)Ranking Approach 使用模型困惑度perplexity来评估,困惑度越低表示关系越紧密。同时为了表征上下位关系,互换两个词关系,看困惑度是否变高。用这两个分数的比来衡量排名。比值越低,两者的上下位关系越紧密。在Taxonomy Construction和Lexical Entailment数据集上使用,使用时轻微调整。

图4 四种任务(a)及对应pipeline(b)

4. 实验

4.1 Hypernym Discovery

采用测试集SemEval-2018,包含一个英文子集(通用问题+音乐、医药领域特定问题)和一个意大利西班牙语子集(通用问题)。用Mean Reciprocal Rank (MRR) metric评估。

Finetune后的模型都达到了SOTA(对比方法都finetune过)。

通过Figure3a可以看出,除了2B任务,当用50个例子finetune就能达到SOTA。

在两个非英语任务下用in-context few-shot learning达不到SOTA,认为是压缩模型的原因。

4.2 Taxonomy Enrichment

包括WordNet Noun, WordNet Verb, MAGPSY和MAG-CS四个datasets。每个数据集Sample 1000个节点。Metric:scaled MRR。

①在WordNet Noun和WordNet Verb任务上SOTA;②在MAG-CS和MAG-PSY上达不到SOTA;③在少量数据上训练的bench版本比完整模型表现更好。

4.3 Taxonomy Construction

数据集:TexEval-2 中的子任务,"Eurovoc science"、"Eurovoc environment"和"WordNet food";评估指标:F1。

特别注意,前述比例在"食品"域的阈值设置为1.8,"环境"域的阈值设置为4.6,"科学"域的阈值设置为1.89。

模型在Environment和Food子集上达到SOTA,在Science子集保持第二。

4.4 Lexical Entailment

Dataset:

①ANT entailment subset 考察相似句子间的关系。(Metric: 刚刚提到的正向Perplexity/f反转后Perplexity的比例用L2范数正则化,衡量两个句子之间的蕴含关系。)

②HyperLex Dataset 考察动词和名词之间的蕴含关系。把perplexity看做模型预测。

ANT Dataset:在Average Precision上达到SOTA,在normalized AUC上第二。

HyperLex Dataset:①在Lexical子集上SOTA;②与过往模型在Random上通常表现比Lexcical相反,这可能说明其他模型通过Random子集的训练对模型有更多的提升。

5. 总结

本文提出了一个基于WordNet、上下位词关系进行指令微调的LLM------TaxoLLaMA,通过提升模型预测上位词的能力,使模型能更好地解决各种经典词汇语义任务。在16项任务中,11项取得了SOTA,在另外4项任务中排名第二。

基于人工和chatgpt的错误分析表明,由于过度拟合特殊的WordNet结构和无法适应目标数据集等原因,75%的错误例子都表现为将概念预测得过于宽泛。与先前研究相同,实验表明指令中加入词汇定义能更好地消除输入单词的歧义,从而有利于在Taxonomy Enrichment任务上的表现。总体而言,最困难的测试数据集是MAGs,这可能是因为该测试集与我们模型训练所用的数据有很大差异。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文 ,进入 OpenKG 网站。

相关推荐
张人玉2 小时前
人工智能——猴子摘香蕉问题
人工智能
草莓屁屁我不吃2 小时前
Siri因ChatGPT-4o升级:我们的个人信息还安全吗?
人工智能·安全·chatgpt·chatgpt-4o
小言从不摸鱼2 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
AI科研视界2 小时前
ChatGPT+2:修订初始AI安全性和超级智能假设
人工智能·chatgpt
霍格沃兹测试开发学社测试人社区2 小时前
人工智能 | 基于ChatGPT开发人工智能服务平台
软件测试·人工智能·测试开发·chatgpt
小R资源3 小时前
3款免费的GPT类工具
人工智能·gpt·chatgpt·ai作画·ai模型·国内免费
artificiali5 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
酱香编程,风雨兼程6 小时前
深度学习——基础知识
人工智能·深度学习
Lossya6 小时前
【机器学习】参数学习的基本概念以及贝叶斯网络的参数学习和马尔可夫随机场的参数学习
人工智能·学习·机器学习·贝叶斯网络·马尔科夫随机场·参数学习
#include<菜鸡>7 小时前
动手学深度学习(pytorch土堆)-04torchvision中数据集的使用
人工智能·pytorch·深度学习