评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集,欢迎大家探索。
为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家,司南 OpenCompass 特别开展了顶会评测集解读系列,今天我们将解读 ACL 2024 Accepted Papers --- AlignBench: Benchmarking Chinese Alignment of Large Language Models.
论文地址:
https://aclanthology.org/2024.acl-long.624.pdf
AlignBench 开源仓库:
https://github.com/THUDM/AlignBench
评测集社区 CompssHub:
https://hub.opencompass.org.cn/dataset-detail/AlignBench
摘要
在人工智能和自然语言处理领域的飞速发展中,大语言模型(LLMs)展现出令人惊叹的能力。然而,对于新兴的中文 LLMs,其对齐效果的评估仍然是一个亟待探索的领域。为了填补这一空白, AlignBench 应运而生,这是一个全面的、多维度的基准测试,专门用于评估 LLMs 在中文环境下的对齐情况。
AlignBench 的独特之处在于其精心设计的人机协作数据策划流程。它包含了八个 主要类别,涵盖683个基于真实场景的查询,每个查询都配有经过人工验证的参考答案。此外,对于知识密集型的查询,AlignBench 还提供了来自可靠网络来源的证据,包括 URL 和引用,大大提高了评估的可靠性和真实性。
在评估方法上,AlignBench 采用了创新的规则校准多维 LLM-as-Judge方法,并结合了思维链(Chain-of-Thought)技术。这种方法不仅能生成解释性评价,还能给出最终评分,为研究人员提供了深入洞察LLMs表现的窗口。
本期顶会评测集解读让我们一起深入探讨 AlignBench 评测基准,揭示中文LLMs在对齐方面的潜力与挑战,推动中文自然语言处理技术迈向新高度!
介绍
在自然语言处理(NLP)领域,对齐(Alignment)已成为大型语言模型(LLMs)发展的关键挑战。随着ChatGPT等产品的兴起,LLMs在各种任务中展现出惊人的能力。然而,如何准确评估这些模型在中文环境下的对齐程度,一直是一个亟待解决的问题
图1:AlignBench 的整体框架
针对上述问题,该团队提出了 AlignBench,这是一个全面的多 维评测基准 ,用于评估中文 LLMs 的对齐能力。参考一个线上 LLM 服务,该团队建立了一个半自动化的数据策划流程并结合人类参与,以创建高质量的查询来构建 AlignBench。AlignBench 总结了一个包含8 个主要类别的查询分类法,以全面覆盖和对齐真实场景的使用情况(参见图 1)。为了使评估模型生成客观和公正的评估,每个样本都附有一个经过人类修正的 LLM 生成的参考。为确保知识密集型查询(占 66.5%)的参考正确性,该团队要求注释员提供在网上搜索的包括 URL 和引用,最终合成参考文献。
为了增强评估的自动化,AlignBench 利用 GPT-4 作为其主要模型评估器,这有助于识别数据样本并通过逐点分结合 CoT 进行评估。不同于 MT-Bench 的是,AlignBench 进一步强调了评分中的规则校准和任务特定多维判断。实验表明,这些策略有助于 AlignBench 与人类判断更加一致并拥有更好的可解释性。基于 AlignBench,该团队评估了 17 个常见的中文 API LLMs 和开源 LLMs,并提供了这些模型在中文对齐能力的细致比较。
数据集
数据集构成
AlignBench 基于真实用户指令,将大语言模型(LLMs)的能力框架总结为 8 个主要类别,共包含 683 个样本。这种分类旨在进行系统性的评估,涵盖了 LLMs 在各种场景下的应用能力。如表 1 所示。
表1:AlignBench 示例分布
数据集构建
AlignBench 中的每个样本包含一个任务导向的查询、高质量的参考答案,以及它所属于的类别。详细的构建流程如下所述。
查询筛选: 为了确保查询的多样性和真实性,该团队主要参考两个来源:在线聊天服务中的场景和研究人员撰写的挑战性问题。考虑到数据的噪声特性,该团队需要经过高标准的数据筛选流程:1) 任务导向 : 查询应体现人类意图,并引导 LLMs 完成指定任务。2) 清晰度与流畅性 : 查询应清晰易懂,要求应流畅表达。3) 复杂性与难度 : 查询应对大多数 LLMs 来说具有挑战性,需要它们充分利用能力来全面解决。4) 去敏感化: 确保查询是安全的且不具敏感性。
**参考答案的获取与改进:**对于 AlignBench 的逐点评分,已有研究发现使用关键参考答案进行评分有助于提高 LLM-as-Judge 的可靠性(Zheng et al., 2023; Zhang et al., 2020)。因此,该团队决定提供由人类筛选的参考答案,以帮助评审者判断答案的正确性。然而,由于 AlignBench 被设计为具有挑战性且覆盖广泛,初步试验中人类注释者从零开始提供答案非常困难。因此,该团队首先利用 GPT-4 生成答案,然后要求人类注释者仔细审查、修订和完善这些答案,作为 AlignBench 的参考答案。为了确保参考答案的质量,特别是对于来自专业知识、数学和逻辑推理等类别的知识密集型查询,该团队明确要求注释者在验证过程中进行网络搜索。在搜索过程中,要求记录网页的 URL 和引用内容,以便撰写参考文献,如表 2 所示。
表 2:AlignBench 知识增强查询注释的示例
**过滤与分类:**为了区分强 LLMs 之间的评分,有必要过滤出更具挑战性的样本进行评估。因此,该团队使用了三种相对先进的支持中文的 LLMs,包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk,作为该团队构建流程中的难度过滤器。该团队对这些模型进行评估,分析它们对处理过的查询的响应,然后利用 GPT-4 对答案进行评分。通过计算响应的平均分,并将其作为信号,该团队丢弃了获得最高平均分的 50% 查询,这表明它们的难度较低。这种方法确保了样本的细致和精准选择,有效地区分了不同能力的强 LLMs。
方法
AlignBench评估系统的核心是使用GPT-4作为主要评估模型。这种方法充分利用了强大LLM的理解和分析能力,但同时也面临着确保评判一致性和公正性的挑战。
因此,在 AlignBench 中,该团队设计了一种新颖的规则校准多维逐点 LLM-as-Judge 的方法,图 2 展示了一个例子。
图 2 :AlignBench 在逻辑推理类别中的评分过程
逐点评分与思维链
在使用 LLM-as-Judge 时,之前研究已经实现了两种评分方法:逐点评分 (point-wise grading)(Zheng et al., 2023)和成对评分 (pairwise grading)(Li et al., 2023)。然而,先前的研究表明,逐点评分与人类意图一致性相比于成对评分更高,后者存在位置偏差。此外,考虑到评估效率,逐点评分在费用和时间方面具有优势。因此,AlignBench 也采用逐点评分。在评估过程中,输入查询、模型响应和人类筛选的参考答案,输出为多维分析解释和最终评分,范围从 1 到 10。由于评分任务涉及复杂推理,引入思维链(Chain-of-Thought)有助于提高评分的可靠性和可解释性。
规则校准参考
为使AI评判更接近人类评判习惯,该方法提供了详细的评分指南,明确定义了不同分数区间的标准。特别地,将参考答案设置为8分作为评分基准。这种规则校准机制有效提高了评分的区分度,使得评分分布更加合理,更接近人类评判的结果。
图 3 绘制了人类评审、一般评审和规则校准评审的累积分布,显示规则校准评审与人类评估的累积分布之间的差距更小。通常,规则校准评审的高分(9 和 10)数量明显少于一般评审,这与人类评分习惯一致,从而增强了 AlignBench 的区分能力。
图 3 :人类评审、一般评审和规则校准评审的累积分布
多维分析
由于任务性质和特点各不相同,使用相同的评估标准来评估所有任务是不公平的。例如,写作任务应优先考虑创造力,而逻辑推理任务则主要需要逻辑连贯性。为了解决这一问题,该团队提出了一种多维评分方法来评估 LLM 的响应,针对具体任务量身定制评估,从而提供更全面和有条理的解释。它不仅给出评分,还提供了详细的分析过程,使评估结果更加可靠和可解释,为中文大语言模型的对齐评估提供了有力工具。
人类评估
为了验证该团队为 AlignBench 设计的规则校准多维逐点评分 LLM-as-Judge 的方法,该团队对 AlignBench 选定的查询进行了广泛的人类评估。主要关注两个方面:方法与人类评审的一致性,以及方法对于更具人类可解释性的结果的批判质量。
一致性评估
基准: 实验中包含了两个稳健的基准比较,以评估该团队的方法。请注意,所有方法均使用 GPT-4 进行评估,以确保公平性。1) 一般评分 : 采用 MT-bench 中的中文版评估提示;2) 规则校准评分: 为了更好地指导模型比较模型答案和参考答案,并减少评分差异,该团队将评分规则纳入评估过程。该方法包含五个评分区间,每个区间与特定的质量描述相关联。参考答案的评分设定为 8,作为相对评分基准。
分析: 一致性实验的结果呈现在表 3 中。结果显示,该团队的规则校准多维逐点评分 LLM-as-Judge 的方法表现最佳,特别是在样本级皮尔逊 相关指标和成对一致性 (不含平局)指标上,从而证明了与人类评审的一致性极佳。此外值得注意的是,所有方法在系统级皮尔逊相关指标上均表现出色,表明 LLM-as-Judge 的可靠性和稳健性。
表 3 :一致性实验
质量评估
先前的研究主要关注模型评审与人类评审在评估 LLM-as-Judge 方法时的一致性。然而评估在评分之前模型评审生成的解释质量也具有重要意义。为了评估方法生成的解释质量,以及确定最终评分,该团队进行了成对质量比较实验。
表 4:质量评估的结果
质量评估的结果呈现在表 4 中。结果表明,该团队的方法生成了最高质量的解释和有用的反馈,在成对比较中以高胜率击败了两个基准。此外,基于规则的评分在解释方面优于一般评分,该结果证明了评分规则能够提供明确的基于参考的标准,从而有助于清晰地比较参考答案和模型答案。
AlignBench 评测结果
基于 AlignBench 的 LLM-as-Judge 评分的有效性,该团队评测了多种 LLMs 的中文对齐能力。该团队使用 gpt-4-0613 作为评审模型来评估各个模型的表现。结果如表 5 所示,大多数闭源 LLMs 分数较高(超过或接近 6 分),表明这些 LLMs 在满足用户意图和提供高质量响应方面具有强大的能力,表现了优秀的对齐水平。对于中文 LLMs 而言,某些中文 LLMs 的表现与 gpt-3.5-turbo 相当,甚至略有超越,逐渐接近领先模型 gpt-4-1106-preview。
表 5:多种 LLMs 的中文对齐能力
结论
在本文中,介绍了AlignBench,这是一个全面的多维度基准测试,用于评估大语言模型(LLMs)在中文环境下的对齐程度。该团队设计了一个可持续的、包含人工参与的数据策划流程,并改进了LLM作为评判者(LLM-as-Judge)的方法,使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。
局限性
改进自动化 LLM-as-Judge
AlignBench 展示了利用 GPT-4 作为评审可以与人类评估实现相对高的一致性,但在一致性和细致度方面仍有很大改进空间。此外,研究表明 LLM-as-Judge 存在一些潜在的偏差,包括位置偏差、复杂度和自我增强等。这些偏差可能会影响对某些模型评估的正确性。
拓展主题与查询
尽管 AlignBench 在类别中拥有相对较大的查询集,但仍需要进一步丰富,以实现更稳定和可靠的 LLMs 评估。此外,AlignBench 目前未涵盖对长文本查询的评估。
司南 OpenCompass 将持续推动大模型评测的公正性和客观性,提供丰富的大模评测基准信息,以促进大语言模型技术的健康发展和持续创新。本篇解读的 AlignBench 评测集已在评测集社区 CompssHub 上线,欢迎大家点击了解更多!
https://hub.opencompass.org.cn/dataset-detail/AlignBench
同时,司南 OpenCompass 期待更多的社区用户在评测集社区 CompssHub 发布各专业领域的评测集,让您的学术成果在我们的平台上得到更多的关注与应用!