【大语言模型】ACL2024论文-30 探索语言模型在文本分类中的伪相关性：概念层面的分析

本文研究了语言模型（LMs）在文本分类任务中由于训练数据中不平衡的标签分布或上下文学习（ICL）示例而产生的伪相关性问题。以往的研究主要集中在单词、短语和句法特征上，而忽略了概念层面，这通常是由于缺乏概念标签和难以识别输入文本中的概念内容。本文的主要贡献有两个：首先，我们使用ChatGPT为文本分配概念标签，评估模型在细调和ICL测试数据中的概念偏差；其次，我们引入了一种数据重平衡技术，通过结合ChatGPT生成的反事实数据，平衡标签分布，减轻伪相关性。我们的方法在减少偏见的同时保持了LMs的效用（即准确性），并通过广泛的测试验证了其有效性。

研究背景

预训练语言模型（LMs）在自然语言理解任务中表现出色。然而，LMs在微调或遵循指令阶段面临鲁棒性挑战，这些挑战源于训练数据中不平衡的标签分布或ICL示例中的伪相关性。这些相关性涉及在训练数据中普遍存在的特定特征与标签之间的关联，这些关联被错误地泛化为规则，导致性能下降。当前关于LMs中伪相关性的研究涵盖了多个维度，如文本分类中的标记级捷径、自然语言推理中的句法启发式和文本分类中的句子触发器。此外，与种族或性别等人口统计概念的伪相关性引发了公平性问题。然而，很少有研究涉及更广泛概念层面的语义伪相关性。

问题与挑战

定义概念层面的伪相关性：在训练数据（或提示）中，大多数包含特定概念的文本与特定标签相关联，导致LMs不适当地依赖这种关联进行预测。例如，在训练数据或提示中，"食品"概念与标签1之间的普遍关联导致LMs形成概念层面的伪相关性，错误地将一些与"食品"相关的文本归类为标签1。LMs倾向于学习概念层面的捷径，这可能源于在微调或预训练期间为与同一概念相关的表达形成相似嵌入，由于它们的语义相似性而受到驱动。

如何解决

我们首先使用ChatGPT为文本分类数据集中的句子注释概念标签，并预测这些概念标签的存在。然后，我们通过在测试数据上进行细调和ICL来评估模型，以确定LMs是否在训练或提示中遇到概念与标签之间的伪相关性时依赖捷径进行预测。最后，我们引入了一种数据重平衡技术，通过结合ChatGPT生成的反事实数据，平衡标签分布，减轻伪相关性。

创新点

首次在一般概念层面研究伪相关性，并引入量化这些相关性的度量。
通过在各种基准数据集上进行实验，展示了LMs在细调和ICL设置中倾向于采用学习到的概念层面捷径。
引入了一种有效的上采样方法，结合LLMs生成的反事实数据，以减轻概念层面的偏见。

算法模型

概念标签获取

我们使用ChatGPT（GPT-3.5）为文本分类数据集中的句子注释概念标签。注释过程涉及一个包含注释指令和五个示例的注释提示Pa，一个文本输入x，一个LLM Ma，以及一个候选概念集C。我们重复注释过程两次，以确保可靠性。

测量概念伪相关性

我们提出了一个度量方法来量化模型对捷径映射的依赖，即在所有标签组合中准确性差异的平均差异。

模型鲁棒性评估

我们通过在原始数据集和概念偏差数据集上微调模型，并使用Bias@C来量化伪相关性，评估模型对概念捷径的鲁棒性。

数据重平衡技术

我们提出了一种上采样策略，结合ChatGPT生成的反事实文本，有效减少偏见，同时保持LMs的效用。

实验效果

伪相关性测量结果

在细调设置中，模型在原始数据集上训练时表现出明显的概念偏差。
在ICL设置中，模型在概念偏差的提示下进行推理时，表现出更大的概念偏差。

减轻伪相关性的方法

数据重平衡方法有效减轻了伪相关性。
上采样方法通过添加LLMs生成的反事实输入，在减少偏见和提高效用方面表现最佳。

重要数据与结论

在细调设置中，模型在原始数据集上训练时，对于某些概念的标签分布非常不平衡，导致模型倾向于利用这些伪相关性进行推断。
在ICL设置中，当提示从平衡变为偏差时，对于大多数概念，模型的Bias@C绝对值增加，表明LMs受到提示中概念捷径的影响。
数据重平衡方法有效减轻了伪相关性，特别是上采样方法在减少偏见和提高效用方面表现最佳。

推荐阅读指数：★★★★☆

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 **AI前沿技