# App2Check at EMit: Large Language Models for Multilabel Emotion Classification
# Abstract:
In this paper we compare the performance of three state-of-the-art LLM-based approaches for multilabel emotion classification: fine-tuned multilingual T5 and two few shot prompting approaches: plain FLAN and ChatGPT. In our experimental analysis we show that FLAN T5 is the worst performer and our fine-tuned MT5 is the best performer in our dev set and, overall, is better than ChatGPT3.5 on the test set of the competition. Moreover, we show that MT5 and ChatGPT3.5 have complementary performance on different emotions and that A2C-best, our unsubmitted system that combines our best performer models for each emotion, has a macro F1 that is 0.02 greater than the winner of the competition in the out-of-domain benchmark. Finally, we suggest that a perspectivist approach is more suitable for evaluating systems on emotion detection.
# Meta Translation
标题:在EMit中的App2Check:用于多标签情感分类的大型语言模型
作者:Gioele Cageggi;Emanuele Di;Asia Uboldi;M Lai;S Menini;M Polignano;V Russo;R Sprugnoli;G Vent
摘要:本文比较了三种最先进的基于LLM的方法在多标签情感分类上的性能:微调的多语言T5模型和两种few shot prompting方法:plain FLAN和ChatGPT。在我们的实验分析中,我们展示了FLAN T5是最差的表现者,而我们微调的MT5是我们开发集中表现最好的模型,并且整体上优于比赛测试集上的ChatGPT3.5。此外,我们还展示了MT5和ChatGPT3.5在不同情感上具有互补的性能,并且我们的未提交系统A2C-best结合了每个情感的最佳模型,其宏F1比该竞赛在域外基准测试中的冠军高出0.02。最后,我们建议在情感检测系统评估中采用透视主义方法更为合适。
# Introduction
情绪分类检测是指在文本中检测特定情绪存在的机器学习任务。例如,检测客户的情绪可以在行业中有许多实际应用,从客户体验分析到客户流失预防。
使用的情绪类别可能会有所不同。在本文中,我们考虑了普鲁契克情感轮的8种主要情绪(愤怒、期望、厌恶、恐惧、喜悦、悲伤、惊讶、信任),以及 Emit 2023 竞赛[3]中的"爱"这个情绪,它是其中一种双重情绪,还有"中性",表示没有情绪存在。
本文中,我们:
1. 提出了三种基于大型语言模型(LLM)的文本情绪检测方法
2. 在开发集上表明 FLAN T5 是表现最差的,而我们微调的 MT5 是表现最好的
3. 总体上,在开发集和竞赛的测试集上,MT5 优于 ChatGPT3.5 的表现
4. 展示了 MT5 和 ChatGPT3.5 在不同情绪上具有互补的性能
5. 展示了我们的未提交系统 A2C-best,该系统将我们每种情绪的最佳模型结合起来。A2C-best 在领域外基准测试中的宏F1值比该竞赛的冠军高0.02。
6. 对于所有系统意见不统一的实例进行错误分析并重新注释,同时展示了我们与黄金标准中的某些标签不一致。
7. 建议采用"透视主义方法" [4]来评估情绪检测系统更加合适。
本文的结构如下:在介绍之后,我们将描述所考虑的三种方法,然后介绍并讨论竞赛的开发集和测试集上的结果。最后,我们提出我们的结论。
# Approaches Adopted
在本文中,我们研究了解决分类情绪检测任务的两种不同方法,均基于Transformer模型:
• LLM微调:从预训练的LLM模型开始,我们使用比赛数据集对模型进行微调以解决特定任务
• Few-Shot Prompting(少样本提示):使用Instruction Tuned LLM,设计提示语以正确引导模型在任务中定义其行为。
简而言之,这两种方法的主要区别是:
• 虽然微调模型需要更大规模的标注数据集进行训练,但基于提示的模型甚至可以在较小的少样本数据集上工作
• 微调需要高计算和资源容量来完成训练。Few-shot提示则侧重于改进提示和指令,而不改变模型参数
• 两种方法的碳足迹相差很大。微调LLM可能计算成本高且耗能。而提示调优通常被认为更环保,因为它避免了全面的微调过程
• 微调模型在有大量标注数据时可以获得更好的准确性值,而提示调优在有限的标注数据量下也可以提供合理的性能
• 微调模型使LLM专门用于特定任务,而提示调优则允许以最小的提示变化来解决不同任务的更灵活的方法。
此外,作为内部参考,我们构建了一个名为A2C-Baseline的系统。它结合了多个机器学习模型,例如决策树[5]和KNN模型[6],在每个情绪中从模型池中选择最佳模型。使用tf-idf方法对输入文本进行向量化。
最后,我们定义了一个投票系统A2C-Voting,它结合了A2C-mT5-r1,A2C-GPT-r2和A2C-Baseline对每个句子的预测。它选择具有最大一致性的结果进行预测。多数派始终有保证,因为它基于对个别情绪的二进制排名和对三个不同预测的投票系统。
# Fine-tuned LLM
Fine-tuning LLMs(Large Language Models)已被证明是一种有效的文本分类方法,在[7]中我们展示了它在ABSITA竞赛的所有任务中都是获胜的方法。在此我们选择使用MT5 [8]作为LLMs。它是T5 [9]的多语言变种,T5是由Google于2021年发布的一种基于transformer架构的文本到文本模型。T5可以进行微调以返回分类任务的文本标签。MT5已经在mC4上进行了预训练,这是Common Crawl的多语言网络爬取语料库的一个版本,其中包含101种语言。这使得我们可以利用T5模型在涉及意大利文本的任务中的优势。
在本文中,为了使用这个模型,我们使用了Hugging Face API [10],并由Simple Transformers [11]库进行了封装。在可用的模型中,我们选择了google/mt5-base版本,它有5.8亿个参数。我们尝试过应用google/mt5-xxl,但由于内存异常,我们无法在Google Colaboratory云环境中使用它。具体来说,该模型是在具有40GB内存的Nvidia A100 GPU上训练的。我们采用分层分割策略,在90%的竞赛训练数据集上进行20个epoch的训练。在本文中,我们将该模型称为A2C-mT5-r1。
# Plain FLAN
FLAN-T5 [12]是我们在本文中尝试的两种Few-Shot Prompting方法之一。它是基于T5 [9]模型的一种模型,我们对其进行指令微调。该过程涉及使用一个指令集对模型进行训练,该指令集描述了如何执行1000多个附加任务。指令微调的过程包括提供指令集给模型,并执行指令中规定的任务。
在本文中,我们使用Hugging Face的transformers库导入了google/flan-t5-xl模型并使用它。然后,通过prompt engineering技术,我们开发了一个prompt来将输入文本与一个或多个情绪相关联。在解决方案的第一次迭代中,我们使用单个prompt来识别和关联输入文本中所有可能的情绪。然而,该模型不支持这种紧凑的方法。因此,我们修改了prompt,使其一次只能识别一个情绪。我们发现使用这种最后一种方法可以得到更好的输出结果。然后,我们开发了十个prompt,每个情绪一个。
这些prompt以"Detect if the text provided contains EmotionX as emotion. If the emotion is available in the input text, the value will be 1; 0 otherwise"为开头,其中EmotionX是要查找的情绪。然后是两个句子,一个包含该情绪,另一个不包含。在本文中,这个模型被称为A2C-FlanT5。
# ChatGPT
ChatGPT 3.5是我们在本文中应用的两种Few-Shot Prompting方法中的第二种。我们在此模型中使用的版本是gpt-3.5-turbo-0301 [13]。该模型的具体细节尚未公开披露。它是与之前的GPT-3模型相似的模型[13],在2021年第四季度之前的一组文本和代码上进行训练。然后,它使用强化学习方法进行训练,其奖励来自人类比较得出的结果。
在本文中,我们使用OpenAI库[14]来处理对该模型的请求。与FLAN T5选择的方法不同,我们开发了一个提示同时识别每个文本输入的所有情感。我们准备了一组包含显式情感词的提示,以引导模型对情感进行分类。我们首先构建一个问题,形如"这段文本的情感是什么?"然后,我们以列表的形式列出了所有可能的情感标签,以确保模型能够从这些标签中选择适当的一个或多个。我们将提示和文本输入连接起来,然后将其送入ChatGPT模型进行推理。
# Table 1
系统和人类分类与黄金标准不一致的句子示例:
| Sentence | System Prediction | Human Prediction | Golden Standard |
|-----------------------------------------------------------------|------------------|------------------|-----------------|
| I'm really excited about the concert tonight. | Surprise, Joy | Joy, Surprise | Joy |
| The news of the accident made me sad and angry. | Sadness, Anger | Sadness, Anger | Sadness |
| She received a promotion at work and felt proud. | Joy, Surprise | Joy, Anticipation | Joy |
| He failed his exam and felt disappointed and frustrated. | Disappointment | Disappointment | Disappointment |
| The unexpected surprise party brought her happiness and relief. | Joy, Surprise | Joy, Surprise | Joy |
| They broke up and it left them feeling heartbroken and betrayed | Sadness, Anger | Sadness, Disgust | Sadness |
# Text A2C Team Gold A2C-mT5-r1 A2C-GPT-r2
A2C团队的Gold A2C-mT5-r1和A2C-GPT-r2章节翻译如下:
A2C-GPT-r2.
我们使用以下提示语:确定给定文本中的情感,其由<>界定。可用的情感包括:愤怒、期待、厌恶、恐惧、喜悦、爱、中立、悲伤、惊讶、信任。以JSON格式提供答案,具有以下键:Anger(愤怒)、Anticipation(期待)、Disgust(厌恶)、Fear(恐惧)、Joy(喜悦)、Love(爱)、Neutral(中立)、Sadness(悲伤)、Surprise(惊讶)、Trust(信任)。如果该情感存在于输入文本中,则该值为1;否则为0。接下来是一系列示例,格式如下:文本:<...>答案:{"Anger":0, "Anticipation":0, "Disgust":0, "Fear":0, "Joy":0, "Love":0, "Neutral":0, "Sadness":0, "Surprise":1, "Trust":1} 请注意,该模型可以同时识别所有情感,而不像FLAN T5一样只能逐个识别情感。本文中,我们将该模型称为A2C-GPT-r2。
# Description of our best approach:
我们最好的方法的描述:
A2C-best、A2C-mT5-r1和A2C-GPT-r2在评估集中显示出对情绪的准确检测的互补性。具体来说,在开发集中,A2C-mT5-r1的表现优于A2C-GPT-r2,而后者在愤怒、厌恶、恐惧和悲伤方面表现更好。基于这些发现,在接下来的部分中,我们展示了A2C-best,它将每个个体情绪的表现最好的A2C模型组合起来。我们在3.1和3.2中展示了它在比赛测试集上作为未提交系统的应用排名结果,因为我们认为这些结果对研究社区是有趣的。
# Experimental Analysis
在本文中,我们提到两种类型的数据集:开发数据集和竞赛测试集。开发数据集用于选择要提交到竞赛的最佳A2C模型,而竞赛测试集包括领域内和领域外的数据。使用分层技术[15]从竞赛训练集中划分出开发数据集,以确保在每个子集中保持标签的原始比例。训练是在训练数据集的80%上进行的;模型是在数据集的10%上选择的,并在剩余的10%上进行测试。一旦选择了要提交的模型,我们会在100%的训练数据上重新训练它们。从这里开始,我们将开发数据集称为模型选择数据集;领域内测试集和领域外测试集分别指竞赛的领域内和领域外数据集。
表2和表3显示了参与竞赛的A2C模型在开发数据集上的应用情况,还包括截止日期后开发的其他模型,以公平的方式进行检测,用斜体突出显示。表6和表7包括所有A2C和其他竞争对手的模型在竞赛测试集上的应用情况。所有表格都显示了各个情绪的宏F1和F1指标。
# Results on Dev Set
在表2和表3中,我们展示了我们的模型在开发集上的结果,未提交的模型以斜体显示。最差的表现者是A2C-FlanT5,其宏F1值为0.27:它在中性标签上表现最差,F1分数为0。我们评估用于提交的模型中最好的表现者是A2C-mT5-r1,其宏F1为0.45,在与非斜体标注的模型相比,对于10个情绪中的6个情绪表现更好。在第二次运行中,我们决定选择A2C-GPT-r2而不是A2C-Baseline,因为它与A2C-mT5-r1相比具有互补的表现方式,并且追求更具创新性的方法。具体而言,明显可以看出A2C-mT5-r1和A2C-GPT-r2对不同情绪表现出互补的表现:A2C-GPT-r2在愤怒、厌恶和悲伤方面表现出色,而A2C-mT5-r1在期待、喜悦、中性、惊讶和信任方面表现更好。这种互补的表现在竞赛的测试集中也几乎完全得到保持。基于这一观察,我们综合了一个截止后的系统,称为A2C-best,该系统选择了每个情绪中表现最好的模型。
# Results on Competition Test Sets
在比赛的领域内测试集(Table 4和5)中,我们对竞争对手的系统和我们所有的模型进行了比较。当我们观察各个情绪时,除了Joy情绪,ABCD run 1是最好的,以及Love情绪,A2C-GPT-r2表现最佳,其他情绪方面,ExtremITA run 2的得分几乎始终最高。
我们还包括了A2C-best的结果,它在ExtremITA的解决方案之后排名第二,与其第一轮相差0.005的MF1分数。
在开发集中观察到的A2C-mT5-r1和A2C-GPT-r2之间的互补性在这个测试集中也成立,除了Fear情绪。 我们还包括了一个上限基准,Best-All,以定义通过组合所有竞争模型来提高的潜在空间。
# Out-of-domain test set
在表6和表7中,我们展示了我们团队以及其他参与者在比赛的领域外测试集上的结果。观察单个情绪,A2C-GPT-r2在愤怒、厌恶和恐惧方面取得了最好的得分,而A2C-Voting在悲伤方面表现最好。
我们通过将我们模型的最佳结果结合到一个系统中,选择每个情绪的最佳模型来得到A2C-best。A2C-best在提交的结果中表现最好,使得获胜者的MF1提高了0.02。
再次强调,A2C-mT5-r1和A2C-GPT-r2在情绪上的互补性显而易见,除了爱情。作为一个上限,Best-All表明在领域外测试集上改进的潜力更为显著。
# Error analysis
为了提高我们系统的性能,我们随机选择了一些所有系统都不一致的实例来分析最困难的情况。然而,在我们的错误分析中,我们注意到很多时候我们并未就样本的注释达成一致。在表1中,我们只展示了其中3个样本(其中之一为裁判),我们与黄金标准(两个不同的人加上一个裁判)的意见不一致。这样做的目的是为了强调系统之间的不一致是因为不能正确地满足真实结果,还是这些实例可以有多种解释,因此需要多个同样正确的标签。正如我们在表1中所看到的,金标准(Gold列)与我们的分类(A2C团队列)之间存在差异。研究界正在朝着透视主义方法的方向努力(参见[16]和[17]),其中考虑到仅有一个单一的真实结果的已知问题,特别是在自然语言处理中。
# Conclusion
在本文中,我们展示了我们在2023 Emit 情感检测竞赛中提交的系统运行结果,以及我们截止日期后的系统 A2C-best。具体而言,我们介绍了三种不同的基于大型语言模型(LLM)的方法(如精调的多语言 T5 和两种少样本提示技术:A2C-GPT-r2 和 FLAN T5)。我们的 A2C-best 模型在官方运行结果上显示出显著改进,并在领域外运行中具有与竞赛第一名相当的性能。A2C-best 在领域内运行中比获胜者低 0.099。最后,在重新标记了所有系统和人类都意见不一致的困难样例后,我们建议采用一种"观点主义"方法来评估情感检测系统的适用性。
App2Check at EMit: Large Language Models for Multilabel Emotion Classification
Abstract:
In this paper we compare the performance of three state-of-the-art LLM-based approaches for multilabel emotion classification: fine-tuned multilingual T5 and two few shot prompting approaches: plain FLAN and ChatGPT. In our experimental analysis we show that FLAN T5 is the worst performer and our fine-tuned MT5 is the best performer in our dev set and, overall, is better than ChatGPT3.5 on the test set of the competition. Moreover, we show that MT5 and ChatGPT3.5 have complementary performance on different emotions and that A2C-best, our unsubmitted system that combines our best performer models for each emotion, has a macro F1 that is 0.02 greater than the winner of the competition in the out-of-domain benchmark. Finally, we suggest that a perspectivist approach is more suitable for evaluating systems on emotion detection.
Meta Translation
标题:在EMit中的App2Check:用于多标签情感分类的大型语言模型
作者:Gioele Cageggi;Emanuele Di;Asia Uboldi;M Lai;S Menini;M Polignano;V Russo;R Sprugnoli;G Vent
摘要:本文比较了三种最先进的基于LLM的方法在多标签情感分类上的性能:微调的多语言T5模型和两种few shot prompting方法:plain FLAN和ChatGPT。在我们的实验分析中,我们展示了FLAN T5是最差的表现者,而我们微调的MT5是我们开发集中表现最好的模型,并且整体上优于比赛测试集上的ChatGPT3.5。此外,我们还展示了MT5和ChatGPT3.5在不同情感上具有互补的性能,并且我们的未提交系统A2C-best结合了每个情感的最佳模型,其宏F1比该竞赛在域外基准测试中的冠军高出0.02。最后,我们建议在情感检测系统评估中采用透视主义方法更为合适。
Introduction
情绪分类检测是指在文本中检测特定情绪存在的机器学习任务。例如,检测客户的情绪可以在行业中有许多实际应用,从客户体验分析到客户流失预防。
使用的情绪类别可能会有所不同。在本文中,我们考虑了普鲁契克情感轮的8种主要情绪(愤怒、期望、厌恶、恐惧、喜悦、悲伤、惊讶、信任),以及 Emit 2023 竞赛[3]中的"爱"这个情绪,它是其中一种双重情绪,还有"中性",表示没有情绪存在。
本文中,我们:
- 提出了三种基于大型语言模型(LLM)的文本情绪检测方法
- 在开发集上表明 FLAN T5 是表现最差的,而我们微调的 MT5 是表现最好的
- 总体上,在开发集和竞赛的测试集上,MT5 优于 ChatGPT3.5 的表现
- 展示了 MT5 和 ChatGPT3.5 在不同情绪上具有互补的性能
- 展示了我们的未提交系统 A2C-best,该系统将我们每种情绪的最佳模型结合起来。A2C-best 在领域外基准测试中的宏F1值比该竞赛的冠军高0.02。
- 对于所有系统意见不统一的实例进行错误分析并重新注释,同时展示了我们与黄金标准中的某些标签不一致。
- 建议采用"透视主义方法" [4]来评估情绪检测系统更加合适。
本文的结构如下:在介绍之后,我们将描述所考虑的三种方法,然后介绍并讨论竞赛的开发集和测试集上的结果。最后,我们提出我们的结论。
Approaches Adopted
在本文中,我们研究了解决分类情绪检测任务的两种不同方法,均基于Transformer模型:
• LLM微调:从预训练的LLM模型开始,我们使用比赛数据集对模型进行微调以解决特定任务
• Few-Shot Prompting(少样本提示):使用Instruction Tuned LLM,设计提示语以正确引导模型在任务中定义其行为。
简而言之,这两种方法的主要区别是:
• 虽然微调模型需要更大规模的标注数据集进行训练,但基于提示的模型甚至可以在较小的少样本数据集上工作
• 微调需要高计算和资源容量来完成训练。Few-shot提示则侧重于改进提示和指令,而不改变模型参数
• 两种方法的碳足迹相差很大。微调LLM可能计算成本高且耗能。而提示调优通常被认为更环保,因为它避免了全面的微调过程
• 微调模型在有大量标注数据时可以获得更好的准确性值,而提示调优在有限的标注数据量下也可以提供合理的性能
• 微调模型使LLM专门用于特定任务,而提示调优则允许以最小的提示变化来解决不同任务的更灵活的方法。
此外,作为内部参考,我们构建了一个名为A2C-Baseline的系统。它结合了多个机器学习模型,例如决策树[5]和KNN模型[6],在每个情绪中从模型池中选择最佳模型。使用tf-idf方法对输入文本进行向量化。
最后,我们定义了一个投票系统A2C-Voting,它结合了A2C-mT5-r1,A2C-GPT-r2和A2C-Baseline对每个句子的预测。它选择具有最大一致性的结果进行预测。多数派始终有保证,因为它基于对个别情绪的二进制排名和对三个不同预测的投票系统。
Fine-tuned LLM
Fine-tuning LLMs(Large Language Models)已被证明是一种有效的文本分类方法,在[7]中我们展示了它在ABSITA竞赛的所有任务中都是获胜的方法。在此我们选择使用MT5 [8]作为LLMs。它是T5 [9]的多语言变种,T5是由Google于2021年发布的一种基于transformer架构的文本到文本模型。T5可以进行微调以返回分类任务的文本标签。MT5已经在mC4上进行了预训练,这是Common Crawl的多语言网络爬取语料库的一个版本,其中包含101种语言。这使得我们可以利用T5模型在涉及意大利文本的任务中的优势。
在本文中,为了使用这个模型,我们使用了Hugging Face API [10],并由Simple Transformers [11]库进行了封装。在可用的模型中,我们选择了google/mt5-base版本,它有5.8亿个参数。我们尝试过应用google/mt5-xxl,但由于内存异常,我们无法在Google Colaboratory云环境中使用它。具体来说,该模型是在具有40GB内存的Nvidia A100 GPU上训练的。我们采用分层分割策略,在90%的竞赛训练数据集上进行20个epoch的训练。在本文中,我们将该模型称为A2C-mT5-r1。
Plain FLAN
FLAN-T5 [12]是我们在本文中尝试的两种Few-Shot Prompting方法之一。它是基于T5 [9]模型的一种模型,我们对其进行指令微调。该过程涉及使用一个指令集对模型进行训练,该指令集描述了如何执行1000多个附加任务。指令微调的过程包括提供指令集给模型,并执行指令中规定的任务。
在本文中,我们使用Hugging Face的transformers库导入了google/flan-t5-xl模型并使用它。然后,通过prompt engineering技术,我们开发了一个prompt来将输入文本与一个或多个情绪相关联。在解决方案的第一次迭代中,我们使用单个prompt来识别和关联输入文本中所有可能的情绪。然而,该模型不支持这种紧凑的方法。因此,我们修改了prompt,使其一次只能识别一个情绪。我们发现使用这种最后一种方法可以得到更好的输出结果。然后,我们开发了十个prompt,每个情绪一个。
这些prompt以"Detect if the text provided contains EmotionX as emotion. If the emotion is available in the input text, the value will be 1; 0 otherwise"为开头,其中EmotionX是要查找的情绪。然后是两个句子,一个包含该情绪,另一个不包含。在本文中,这个模型被称为A2C-FlanT5。
ChatGPT
ChatGPT 3.5是我们在本文中应用的两种Few-Shot Prompting方法中的第二种。我们在此模型中使用的版本是gpt-3.5-turbo-0301 [13]。该模型的具体细节尚未公开披露。它是与之前的GPT-3模型相似的模型[13],在2021年第四季度之前的一组文本和代码上进行训练。然后,它使用强化学习方法进行训练,其奖励来自人类比较得出的结果。
在本文中,我们使用OpenAI库[14]来处理对该模型的请求。与FLAN T5选择的方法不同,我们开发了一个提示同时识别每个文本输入的所有情感。我们准备了一组包含显式情感词的提示,以引导模型对情感进行分类。我们首先构建一个问题,形如"这段文本的情感是什么?"然后,我们以列表的形式列出了所有可能的情感标签,以确保模型能够从这些标签中选择适当的一个或多个。我们将提示和文本输入连接起来,然后将其送入ChatGPT模型进行推理。
Table 1
系统和人类分类与黄金标准不一致的句子示例:
Sentence | System Prediction | Human Prediction | Golden Standard |
---|---|---|---|
I'm really excited about the concert tonight. | Surprise, Joy | Joy, Surprise | Joy |
The news of the accident made me sad and angry. | Sadness, Anger | Sadness, Anger | Sadness |
She received a promotion at work and felt proud. | Joy, Surprise | Joy, Anticipation | Joy |
He failed his exam and felt disappointed and frustrated. | Disappointment | Disappointment | Disappointment |
The unexpected surprise party brought her happiness and relief. | Joy, Surprise | Joy, Surprise | Joy |
They broke up and it left them feeling heartbroken and betrayed | Sadness, Anger | Sadness, Disgust | Sadness |
Text A2C Team Gold A2C-mT5-r1 A2C-GPT-r2
A2C团队的Gold A2C-mT5-r1和A2C-GPT-r2章节翻译如下:
A2C-GPT-r2.
我们使用以下提示语:确定给定文本中的情感,其由<>界定。可用的情感包括:愤怒、期待、厌恶、恐惧、喜悦、爱、中立、悲伤、惊讶、信任。以JSON格式提供答案,具有以下键:Anger(愤怒)、Anticipation(期待)、Disgust(厌恶)、Fear(恐惧)、Joy(喜悦)、Love(爱)、Neutral(中立)、Sadness(悲伤)、Surprise(惊讶)、Trust(信任)。如果该情感存在于输入文本中,则该值为1;否则为0。接下来是一系列示例,格式如下:文本:<...>答案:{"Anger":0, "Anticipation":0, "Disgust":0, "Fear":0, "Joy":0, "Love":0, "Neutral":0, "Sadness":0, "Surprise":1, "Trust":1} 请注意,该模型可以同时识别所有情感,而不像FLAN T5一样只能逐个识别情感。本文中,我们将该模型称为A2C-GPT-r2。
Description of our best approach:
我们最好的方法的描述:
A2C-best、A2C-mT5-r1和A2C-GPT-r2在评估集中显示出对情绪的准确检测的互补性。具体来说,在开发集中,A2C-mT5-r1的表现优于A2C-GPT-r2,而后者在愤怒、厌恶、恐惧和悲伤方面表现更好。基于这些发现,在接下来的部分中,我们展示了A2C-best,它将每个个体情绪的表现最好的A2C模型组合起来。我们在3.1和3.2中展示了它在比赛测试集上作为未提交系统的应用排名结果,因为我们认为这些结果对研究社区是有趣的。
Experimental Analysis
在本文中,我们提到两种类型的数据集:开发数据集和竞赛测试集。开发数据集用于选择要提交到竞赛的最佳A2C模型,而竞赛测试集包括领域内和领域外的数据。使用分层技术[15]从竞赛训练集中划分出开发数据集,以确保在每个子集中保持标签的原始比例。训练是在训练数据集的80%上进行的;模型是在数据集的10%上选择的,并在剩余的10%上进行测试。一旦选择了要提交的模型,我们会在100%的训练数据上重新训练它们。从这里开始,我们将开发数据集称为模型选择数据集;领域内测试集和领域外测试集分别指竞赛的领域内和领域外数据集。
表2和表3显示了参与竞赛的A2C模型在开发数据集上的应用情况,还包括截止日期后开发的其他模型,以公平的方式进行检测,用斜体突出显示。表6和表7包括所有A2C和其他竞争对手的模型在竞赛测试集上的应用情况。所有表格都显示了各个情绪的宏F1和F1指标。
Results on Dev Set
在表2和表3中,我们展示了我们的模型在开发集上的结果,未提交的模型以斜体显示。最差的表现者是A2C-FlanT5,其宏F1值为0.27:它在中性标签上表现最差,F1分数为0。我们评估用于提交的模型中最好的表现者是A2C-mT5-r1,其宏F1为0.45,在与非斜体标注的模型相比,对于10个情绪中的6个情绪表现更好。在第二次运行中,我们决定选择A2C-GPT-r2而不是A2C-Baseline,因为它与A2C-mT5-r1相比具有互补的表现方式,并且追求更具创新性的方法。具体而言,明显可以看出A2C-mT5-r1和A2C-GPT-r2对不同情绪表现出互补的表现:A2C-GPT-r2在愤怒、厌恶和悲伤方面表现出色,而A2C-mT5-r1在期待、喜悦、中性、惊讶和信任方面表现更好。这种互补的表现在竞赛的测试集中也几乎完全得到保持。基于这一观察,我们综合了一个截止后的系统,称为A2C-best,该系统选择了每个情绪中表现最好的模型。
Results on Competition Test Sets
在比赛的领域内测试集(Table 4和5)中,我们对竞争对手的系统和我们所有的模型进行了比较。当我们观察各个情绪时,除了Joy情绪,ABCD run 1是最好的,以及Love情绪,A2C-GPT-r2表现最佳,其他情绪方面,ExtremITA run 2的得分几乎始终最高。
我们还包括了A2C-best的结果,它在ExtremITA的解决方案之后排名第二,与其第一轮相差0.005的MF1分数。
在开发集中观察到的A2C-mT5-r1和A2C-GPT-r2之间的互补性在这个测试集中也成立,除了Fear情绪。 我们还包括了一个上限基准,Best-All,以定义通过组合所有竞争模型来提高的潜在空间。
Out-of-domain test set
在表6和表7中,我们展示了我们团队以及其他参与者在比赛的领域外测试集上的结果。观察单个情绪,A2C-GPT-r2在愤怒、厌恶和恐惧方面取得了最好的得分,而A2C-Voting在悲伤方面表现最好。
我们通过将我们模型的最佳结果结合到一个系统中,选择每个情绪的最佳模型来得到A2C-best。A2C-best在提交的结果中表现最好,使得获胜者的MF1提高了0.02。
再次强调,A2C-mT5-r1和A2C-GPT-r2在情绪上的互补性显而易见,除了爱情。作为一个上限,Best-All表明在领域外测试集上改进的潜力更为显著。
Error analysis
为了提高我们系统的性能,我们随机选择了一些所有系统都不一致的实例来分析最困难的情况。然而,在我们的错误分析中,我们注意到很多时候我们并未就样本的注释达成一致。在表1中,我们只展示了其中3个样本(其中之一为裁判),我们与黄金标准(两个不同的人加上一个裁判)的意见不一致。这样做的目的是为了强调系统之间的不一致是因为不能正确地满足真实结果,还是这些实例可以有多种解释,因此需要多个同样正确的标签。正如我们在表1中所看到的,金标准(Gold列)与我们的分类(A2C团队列)之间存在差异。研究界正在朝着透视主义方法的方向努力(参见[16]和[17]),其中考虑到仅有一个单一的真实结果的已知问题,特别是在自然语言处理中。
Conclusion
在本文中,我们展示了我们在2023 Emit 情感检测竞赛中提交的系统运行结果,以及我们截止日期后的系统 A2C-best。具体而言,我们介绍了三种不同的基于大型语言模型(LLM)的方法(如精调的多语言 T5 和两种少样本提示技术:A2C-GPT-r2 和 FLAN T5)。我们的 A2C-best 模型在官方运行结果上显示出显著改进,并在领域外运行中具有与竞赛第一名相当的性能。A2C-best 在领域内运行中比获胜者低 0.099。最后,在重新标记了所有系统和人类都意见不一致的困难样例后,我们建议采用一种"观点主义"方法来评估情感检测系统的适用性。