NLP论文速读(NeurIPS 2024)|大语言模型在评估的时候更倾向于自己生成的内容

**论文速读|**LLM Evaluators Recognize and Favor Their Own Generations

论文信息:

简介:

这篇论文探讨了大型语言模型(LLMs)在自我评估时出现的自我偏好问题。具体来说,它研究了LLMs在评估文本时倾向于给自己生成的文本打高分,而人类评估者则认为这些文本与其他LLM或人类生成的文本质量相当。论文的核心问题是探究LLMs是否因为能够识别出自己的输出而产生这种自我偏好,还是这种偏好仅仅是巧合。研究动机在于自我评估在LLM生命周期中变得越来越重要,尤其是在奖励建模、基于模型的基准测试、自我完善和宪法AI等方法中。LLMs作为评估者时,其评估的中立性受到质疑,可能导致系统性偏差。这种自我偏好偏差不仅影响了模型间的公平比较,还可能对AI的安全性和可靠性构成威胁。因此,理解并减轻自我偏好对于提高LLMs的评估准确性和安全性至关重要。

论文方法:

研究者们采取了以下方法来探究自我识别能力和自我偏好之间的关联:

**1)数据集和模型:**研究集中在文本摘要任务上,使用了XSUM和CNN/DailyMail数据集中的1000篇新闻文章及其人类编写的摘要。实验使用了GPT-3.5、GPT-4和Llama 2这三种LLMs。

**2)自我识别与自我偏好的定义和测量:**自我偏好被定义为LLM倾向于偏好自己生成的文本,而自我识别是LLM区分自己生成的文本与其他LLM或人类生成文本的能力。研究者通过成对测量和个体测量两种方式来评估LLMs的这些能力。

**3)实验设计:**研究者通过提示(prompting)和微调(fine-tuning)来改变LLM的自我识别能力,并测量其自我偏好的变化。他们还通过控制实验来排除其他可能的混杂因素。

**4)微调:**研究者对LLMs进行了监督微调,以改变它们的自我识别能力。他们使用成对的例子进行训练,让模型预测哪个摘要是由自己生成的。微调在不同数据集上进行,并在领域内和领域外进行评估。

**5)相关性分析:**研究者分析了自我识别能力与自我偏好之间的相关性,并探讨了这种相关性是否能够通过控制其他潜在的混杂变量来解释。

论文实验:

Figure 2 展示了大型语言模型(LLMs)在成对设置(pairwise setting)中的自我识别能力。实验结果通过两种不同的测量方式呈现:成对测量(pairwise measurement)个体测量(individual measurement),并且这些结果是基于两个数据集(XSUM和CNN/DailyMail)的汇总。

在成对测量中,LLMs需要比较两个文本片段,其中一个是自己生成的,另一个来自另一个LLM或人类,并判断哪一个是自己生成的。

成对测量实验结果显示:

**1)**GPT-4在自我识别方面明显优于其他两个模型。

**2)**所有三个LLM评估器都能更容易地区分自己和人类写的摘要。特别是Llama 2,它能有效地区分自己和人类生成的摘要。

**3)**较弱的LLMs在区分自己和较强的LLMs时存在困难:Llama 2无法区分自己和GPT-3.5及GPT-4生成的摘要,而GPT-3在区分自己和GPT-4时也存在挑战。

**4)**GPT-4评估器并没有比GPT-3.5评估器更容易区分Llama 2的摘要和自己的摘要,这与我们直觉中自我识别分数应该随着评估器和被评估对象之间的差异增加而增加的预期相反。

在个体测量中,LLMs被呈现单个文本片段,并被要求判断该文本是否为自己生成的。与成对测量相比,个体测量中LLMs失去了比较两个文本的优势,导致自我识别能力普遍下降。

个体测量实验结果显示:

**1)**GPT-4是唯一一个在个体设置中能够以非平凡准确度区分作者的模型。

**2)**未标准化的置信分数(raw confidence scores)显示,GPT-4强烈倾向于不预测任何文本是自己生成的,无论实际作者是谁;而GPT-3.5和Llama 2则表现出相反的倾向。

该篇论文主要以实验为主来进行论述,这里仅仅放了小部分实验和对应分析。感兴趣的同学可以再深入阅读一下原论文。

论文链接:

https://arxiv.org/abs/2404.13076

原文来自:

NLP论文速读(NeurIPS 2024)|大语言模型在评估的时候更倾向于自己生成的内容

相关推荐
weixin_437497775 小时前
读书笔记:Context Engineering 2.0 (上)
人工智能·nlp
喝拿铁写前端5 小时前
前端开发者使用 AI 的能力层级——从表面使用到工程化能力的真正分水岭
前端·人工智能·程序员
goodfat5 小时前
Win11如何关闭自动更新 Win11暂停系统更新的设置方法【教程】
人工智能·禁止windows更新·win11优化工具
北京领雁科技5 小时前
领雁科技反洗钱案例白皮书暨人工智能在反洗钱系统中的深度应用
人工智能·科技·安全
落叶,听雪5 小时前
河南建站系统哪个好
大数据·人工智能·python
清月电子5 小时前
杰理AC109N系列AC1082 AC1074 AC1090 芯片停产替代及资料说明
人工智能·单片机·嵌入式硬件·物联网
Dev7z6 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
七月shi人6 小时前
AI浪潮下,前端路在何方
前端·人工智能·ai编程
橙汁味的风6 小时前
1隐马尔科夫模型HMM与条件随机场CRF
人工智能·深度学习·机器学习
极客小云6 小时前
【生物医学NLP信息抽取:药物识别、基因识别与化学物质实体识别教程与应用】
python·机器学习·nlp