本文是LLM系列文章,针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。
GPT-4时代的评估度量:在序列到序列的任务中可靠地评估大型语言模型
摘要
大型语言模型(LLM)评估是一个不完整和不一致的领域,很明显,自动评估指标的质量没有跟上生成模型的发展步伐。我们的目标是通过在三个NLP基准上对一系列开源和闭源生成LLM进行初步和混合评估来提高对当前模型性能的理解:文本总结、文本简化和语法纠错(GEC),同时使用自动和人工评估。我们还探索了最近发布的GPT-4作为评估器的潜力。我们发现,根据人类评审员的说法,ChatGPT在大多数指标上始终优于许多其他流行模型,而在使用经典的自动评估指标时,得分要低得多。我们还发现,人类评审员对黄金参考的评价远低于最佳模型的输出,这表明许多流行基准的质量很差。最后,我们发现GPT-4能够以一种与人类判断合理紧密一致的方式对模型的输出进行排序,尽管任务有特定的变化,但在GEC任务中的一致性较低。
1 引言
2 实验设置
3 评估指标
4 结果和讨论
5 结论
模型评估是一个越来越引起社会关注的话题。梁等人最近发表了一份关于LLM的广泛评估报告,但他们大多关注自动评估。在最新LLM生成能力的最新进展的推动下,我们进行了这项研究,以探索人类判断与零样本模型性能的自动、基于参考的评估之间的漂移。我们还探索了GPT-4的模型对模型评估。这项研究是使用大型开源数据集进行的,这些数据集通常作为各自任务的基准。
我们的工作揭示了一系列生成任务中基于参考的自动度量和人类评估之间的系统性错位,突出了公共NLP基准中黄金参考的不足。目前尚不清楚这种偏差是否纯粹是由于自动度量的限制,或者较差的参考质量是否使使用任何基于参考的比较度量变得不可靠。尽管ChatGPT在大多数指标上被人类评审员评为最佳模型之一,但最好的开源LLM也始终优于参考输出。我们还探索了GPT-4作为评审员的潜力,发现它与总结和简化任务的人类判断有很强的相关性,与GEC有中等的相关性。
未来的工作将着眼于提高提示的质量,提供少量的上下文学习,或探索思维链提示在提高模型输出方面的潜力。考虑到上述偏差,将人类评估扩展到更大的数据集和更广泛的模型设置也将是未来特别感兴趣的,以最大限度地减少在使用自动度量选择用于人类评估的子集时引入的偏差。最后,为每个任务引入多个自动评估指标(例如,无参考)可能有助于加深我们对这些指标与人类判断之间关系的理解。
局限性
本文存在以下局限性:
- 进行了有限数量的快速调整和快速空间调查。每个任务尝试了2到5种不同的提示,因此,对提示工程进行更集中的研究可能会带来显著的改进,但这是一个独立的探索主题,我们将其留给未来的工作。
- 我们没有进行任何上下文学习或思维链提示,这已被证明可以显著提高生成模型的性能。因此,可能有提高模型输出质量的余地,而黄金参考的质量将保持不变,直到新的数据集可用。
- 我们使用自动指标(SARI、ROGE和F0.5)来确定每个任务的最佳设置组合(型号、提示、温度)。然而,由于这项研究揭示了人类判断与这些指标之间的相关性较差,我们不能排除我们为人类评估选择的设置不是最合适的,这意味着该研究可能受到了一些偏见的影响,这些偏见是通过使用自动指标来选择人类评估研究的输出而间接引入的。当可能存在多个同等有效的输出时,传统的开源数据集每个样本只提供一个黄金参考输出,导致得分不可靠,这进一步加剧了这种情况;例如,同一个故事的两个摘要可能都很好,但很少包含常见的二进制图,导致在进行自动评估时ROUGE分数很低。
- 鉴于我们使用的大多数模型都是在各种各样的文本语料库上进行预训练的,很可能至少有一些模型是在我们用来评估它们的一些开源数据集上进行训练的。虽然很难缓解这种情况(例如,OpenAI没有发布用于训练其模型的数据集列表),但我们的结果可能受到了影响,使用新的未发布数据集会更好地减少这种偏差。然而,这是不可能的,因为从头开始创建高质量大型数据集的任务非常昂贵和耗时,这是整个研究界众所周知的问题。
- 虽然我们没有使用相同的模型进行推理和评估,但我们使用GPT-4来评估所有模型,包括ChatGPT的输出。考虑到它们属于同一家族的OpenAI模型,GPT-4可能对ChatGPT的输出评级高于其他模型有偏见。然而,我们的结果无法验证或反驳这一点,因为人类评审人员也将ChatGPT的输出评为大多数指标中最好的。
- 由于时间和预算限制,我们只能雇佣3名评审员(不包括GPT-4),并要求评审员为每个数据集注释100个样本,这在每个数据集中只占很小的比例。由于审查人员和审查样本数量较少,信噪比可能会影响我们研究结果的强度和可推广性。此外,使用人类评估作为黄金标准也容易引入偏见。然而,我们发现,在大多数情况下,所有注释器都认为黄金标准比最佳模型的输出更差,因此,考虑到不同任务和注释器之间的一致性,我们确实相信这是一个有效的结论。