大模型评估论文粗读“AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models“

Zhong W, Cui R, Guo Y, et al. Agieval: A human-centric benchmark for evaluating foundation models[J]. arXiv preprint arXiv:2304.06364, 2023.

摘要翻译

评估大模型在处理人类层级的任务时的通用能力,是AGI发展和应用中至关重要的一环。传统的衡量标准通常依赖于人工生成的数据集,在人类层级能力的展现上并不准确。在本文中,作者设计了一种新的衡量标准AGIEval用于评估大模型在以人为中心的标准考试中的能力,包含大学入学考试,法学院入学考试,数学竞赛,以及律师资格证考试。作者使用此评判基准测试了一些前沿的大模型如GPT-4,ChatGPT和Text-Davinci-003。一系列详细的模型能力(understanding, knowledge, reasoning, and calculation)的分析展示了这些模型的优势和限制,也为模型通用能力的增强提供了一定的方向。通过聚焦于和人类认知及决策相关的任务,本文的评估基准交付了一个在现实生活场景下有意义且较为鲁棒的大模型评价标准。

结果展示
Human-Centric Benchmark
设计原则
  • 重点关注人类层级的认知任务:和人类认知和解决问题相对齐的任务。
  • 和现实世界场景相关:在现实生成场景中挖掘人类层面的相关能力。
考试选择

本文认为和人类层级的理解相关联的任务最直接的就是现实中的各种较为标准的高质量考试。涉及到的考试相关的数据集信息如下图所示:

标准的构建

考虑到在主观题的评估上如果没有人类专家的参与,模型很难给出可信赖的评估,因此在评估数据集的构建中剔除了主观题。并且为了保证评估指标的鲁棒和标准,评估数据集中保留了两种形式的客观题:选择题和填空题。其中,在数据集的处理中,带有问题解析的考试,对答案和解析都进行了收集。最终构建了包含8062个(双语:中文和英文)问题的benchmark用于评估。

评价指标

两种形式的客观题:选择题和填空题分别选用的是标准的分类准确率和Exact Match (EM) and F1 指标。

人类评估

对于该基准数据集的评估测试,本文还选用了不同层级的人进行评估测试,分别是average(50%)以及top(1%)测试者。这里需要注意的是,虽然该数据集和人类准确性提供了人类考生能力的有用近似值,但它们并不能完全代表这些人可能拥有的技能和知识范围。

大模型评估
模型:GPT-4,ChatGPT和Text-Davinci-003
评估任务:零样本和小样本

标准的零样本和小样本评估

*

带有CoT推理的零样本和小样本评估

评价指标

涉及到定量和定性分析两种:

  • 定量:特定于任务的准确率(选择),EM(填空)

定性:涉及人类评估者评估模型在语义理解能力、知识利用率和推理质量方面的反应

可以看出在JEC-QA的数据集上,各模型的的表现都低于平均值。说明在法律领域的大模型的提升空间还很大。


先做个记录把。。
最后编辑于:2025-03-31 20:57:13
© 著作权归作者所有,转载或内容合作请联系作者

喜欢的朋友记得点赞、收藏、关注哦!!!

相关推荐
双普拉斯1 小时前
Spring WebFlux调用生成式AI提供的stream流式接口,实现返回实时对话
java·vue.js·人工智能·后端·spring
come112342 小时前
深入Spring Boot的核心——配置管理(指南四)
java·spring boot·后端
Python极客之家2 小时前
基于数据挖掘的在线游戏行为分析预测系统
人工智能·python·机器学习·数据挖掘·毕业设计·课程设计
come112343 小时前
深入分析JAR和WAR包的区别 (指南七)
android·spring boot·后端
武昌库里写JAVA3 小时前
Java 设计模式在 Spring 框架中的实践:工厂模式与单例模式
java·vue.js·spring boot·sql·学习
千里码aicood3 小时前
springboot+vue心理健康服务小程序(源码+文档+调试+基础修改+答疑)
数据库·vue.js·spring boot
编程乐学3 小时前
小程序原创--基于微信开发者工具实现的猜谜游戏程序
微信小程序·课程设计·小游戏·微信开发者工具·课设·猜谜游戏·小程序大作业
李慕婉学姐3 小时前
【开题答辩过程】以《基于SpringBoot+Vue的扶贫助农平台的设计与实现》为例,不会开题答辩的可以进来看看
vue.js·spring boot·后端
麦兜*3 小时前
Redis高可用架构设计:主从复制、哨兵、Cluster集群模式深度对比
java·数据库·spring boot·redis·spring·spring cloud·缓存
小二·3 小时前
在 VSCode 中运行 Vue.js 项目
ide·vue.js·vscode