NLP论文速读(NeurIPS 2024)|大语言模型在评估的时候更倾向于自己生成的内容

**论文速读|**LLM Evaluators Recognize and Favor Their Own Generations

论文信息:

简介:

这篇论文探讨了大型语言模型(LLMs)在自我评估时出现的自我偏好问题。具体来说,它研究了LLMs在评估文本时倾向于给自己生成的文本打高分,而人类评估者则认为这些文本与其他LLM或人类生成的文本质量相当。论文的核心问题是探究LLMs是否因为能够识别出自己的输出而产生这种自我偏好,还是这种偏好仅仅是巧合。研究动机在于自我评估在LLM生命周期中变得越来越重要,尤其是在奖励建模、基于模型的基准测试、自我完善和宪法AI等方法中。LLMs作为评估者时,其评估的中立性受到质疑,可能导致系统性偏差。这种自我偏好偏差不仅影响了模型间的公平比较,还可能对AI的安全性和可靠性构成威胁。因此,理解并减轻自我偏好对于提高LLMs的评估准确性和安全性至关重要。

论文方法:

研究者们采取了以下方法来探究自我识别能力和自我偏好之间的关联:

**1)数据集和模型:**研究集中在文本摘要任务上,使用了XSUM和CNN/DailyMail数据集中的1000篇新闻文章及其人类编写的摘要。实验使用了GPT-3.5、GPT-4和Llama 2这三种LLMs。

**2)自我识别与自我偏好的定义和测量:**自我偏好被定义为LLM倾向于偏好自己生成的文本,而自我识别是LLM区分自己生成的文本与其他LLM或人类生成文本的能力。研究者通过成对测量和个体测量两种方式来评估LLMs的这些能力。

**3)实验设计:**研究者通过提示(prompting)和微调(fine-tuning)来改变LLM的自我识别能力,并测量其自我偏好的变化。他们还通过控制实验来排除其他可能的混杂因素。

**4)微调:**研究者对LLMs进行了监督微调,以改变它们的自我识别能力。他们使用成对的例子进行训练,让模型预测哪个摘要是由自己生成的。微调在不同数据集上进行,并在领域内和领域外进行评估。

**5)相关性分析:**研究者分析了自我识别能力与自我偏好之间的相关性,并探讨了这种相关性是否能够通过控制其他潜在的混杂变量来解释。

论文实验:

Figure 2 展示了大型语言模型(LLMs)在成对设置(pairwise setting)中的自我识别能力。实验结果通过两种不同的测量方式呈现:成对测量(pairwise measurement)个体测量(individual measurement),并且这些结果是基于两个数据集(XSUM和CNN/DailyMail)的汇总。

在成对测量中,LLMs需要比较两个文本片段,其中一个是自己生成的,另一个来自另一个LLM或人类,并判断哪一个是自己生成的。

成对测量实验结果显示:

**1)**GPT-4在自我识别方面明显优于其他两个模型。

**2)**所有三个LLM评估器都能更容易地区分自己和人类写的摘要。特别是Llama 2,它能有效地区分自己和人类生成的摘要。

**3)**较弱的LLMs在区分自己和较强的LLMs时存在困难:Llama 2无法区分自己和GPT-3.5及GPT-4生成的摘要,而GPT-3在区分自己和GPT-4时也存在挑战。

**4)**GPT-4评估器并没有比GPT-3.5评估器更容易区分Llama 2的摘要和自己的摘要,这与我们直觉中自我识别分数应该随着评估器和被评估对象之间的差异增加而增加的预期相反。

在个体测量中,LLMs被呈现单个文本片段,并被要求判断该文本是否为自己生成的。与成对测量相比,个体测量中LLMs失去了比较两个文本的优势,导致自我识别能力普遍下降。

个体测量实验结果显示:

**1)**GPT-4是唯一一个在个体设置中能够以非平凡准确度区分作者的模型。

**2)**未标准化的置信分数(raw confidence scores)显示,GPT-4强烈倾向于不预测任何文本是自己生成的,无论实际作者是谁;而GPT-3.5和Llama 2则表现出相反的倾向。

该篇论文主要以实验为主来进行论述,这里仅仅放了小部分实验和对应分析。感兴趣的同学可以再深入阅读一下原论文。

论文链接:

https://arxiv.org/abs/2404.13076

原文来自:

NLP论文速读(NeurIPS 2024)|大语言模型在评估的时候更倾向于自己生成的内容

相关推荐
Mr.谢尔比5 分钟前
李宏毅机器学习课程知识点摘要(1-5集)
人工智能·pytorch·深度学习·神经网络·算法·机器学习·计算机视觉
我是博博啦6 分钟前
matlab例题
人工智能·算法·matlab
DieYoung_Alive12 分钟前
一篇文章了解机器学习
人工智能·机器学习
2023数学建模国赛比赛资料分享13 分钟前
2024亚太杯国际赛C题宠物预测1234问完整解题思路代码+成品参考文章
人工智能·数学建模·宠物·2024亚太杯国际赛数学建模·2024亚太杯国际赛a题·2024亚太杯国际赛数模abc·2024亚太杯数学建模
思通数科AI全行业智能NLP系统22 分钟前
六大核心应用场景,解锁AI检测系统的智能安全之道
图像处理·人工智能·深度学习·安全·目标检测·计算机视觉·知识图谱
做程序员的第一天1 小时前
在PyTorch中,钩子(hook)是什么?在神经网络中扮演什么角色?
pytorch·python·深度学习
程序员小范1 小时前
孙玲:从流水线工人到谷歌程序员
人工智能·程序员·谷歌·远程工作
醉酒柴柴1 小时前
【代码pycharm】动手学深度学习v2-07 自动求导
ide·深度学习·pycharm
风走茶未凉2 小时前
转置卷积与全卷积网络FCN在语义分割中的应用
网络·深度学习·cnn
命里有定数2 小时前
Paper -- 洪水深度估计 -- 利用图像处理和深度神经网络绘制街道照片中的洪水深度图
图像处理·人工智能·dnn·洪水深度·高度估计