大模型评估论文粗读“AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models“

Zhong W, Cui R, Guo Y, et al. Agieval: A human-centric benchmark for evaluating foundation models[J]. arXiv preprint arXiv:2304.06364, 2023.

摘要翻译

评估大模型在处理人类层级的任务时的通用能力，是AGI发展和应用中至关重要的一环。传统的衡量标准通常依赖于人工生成的数据集，在人类层级能力的展现上并不准确。在本文中，作者设计了一种新的衡量标准AGIEval用于评估大模型在以人为中心的标准考试中的能力，包含大学入学考试，法学院入学考试，数学竞赛，以及律师资格证考试。作者使用此评判基准测试了一些前沿的大模型如GPT-4，ChatGPT和Text-Davinci-003。一系列详细的模型能力（understanding, knowledge, reasoning, and calculation）的分析展示了这些模型的优势和限制，也为模型通用能力的增强提供了一定的方向。通过聚焦于和人类认知及决策相关的任务，本文的评估基准交付了一个在现实生活场景下有意义且较为鲁棒的大模型评价标准。

结果展示

Human-Centric Benchmark

设计原则

重点关注人类层级的认知任务：和人类认知和解决问题相对齐的任务。
和现实世界场景相关：在现实生成场景中挖掘人类层面的相关能力。

考试选择

本文认为和人类层级的理解相关联的任务最直接的就是现实中的各种较为标准的高质量考试。涉及到的考试相关的数据集信息如下图所示：

标准的构建

考虑到在主观题的评估上如果没有人类专家的参与，模型很难给出可信赖的评估，因此在评估数据集的构建中剔除了主观题。并且为了保证评估指标的鲁棒和标准，评估数据集中保留了两种形式的客观题：选择题和填空题。其中，在数据集的处理中，带有问题解析的考试，对答案和解析都进行了收集。最终构建了包含8062个（双语：中文和英文）问题的benchmark用于评估。