大模型之基准(Benchmark)测评集-云栖大会上给通义千问测评的10个权威测评集

  • 感谢某学友中提供的'通义千问2.0'的测评雷达图,由此笔者开始了收集有关评测集的资料。
  • 评测集有点多,本文笔者以新闻搞通义千问2.0的评测雷达图上的信息为基线整理
  • 附录上还有一些好东西,请看目录
  • 笔者认为技术人员也需要懂一些周边的知识-这样有利于体系化的知识的建立
  • 笔者水平有限,敬请勘误

引言

在今年(2023)云栖大会上,阿里云正式发布千亿级参数大模型通义千问2.0。据现场介绍,在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。以下是通义千问在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上的表现:

上图可以看出通义千问2.0的得分整体超越META的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小 (新闻来自新浪财经)。

那么问题来了,上图中Benchmark测评集分别是什么?侧重点在哪些方面?

基准测评集介绍

CMMLU

CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中国基准。是国内两大权威评测之一。

MMLU

MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是一个由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基准,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练。

C-Eva

C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。是国内两大权威评测之一。C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。

论文C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
官网cevalbenchmark.com/
网址github.com/hkust-nlp/c...
排行浏览

C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示

GSM8K

GSM8K是由OpenAI发布的大模型数学推理能力评测基准。一个由8.5K高质量的语言多样化的小学数学单词问题组成的数据集(其中7.5K训练集,1K测试集)。这些问题都是由人类写手创造的。每个问题需要2-8步推理来求解,主要是使用基本的算术运算(+-/*)进行一连串的基本计算,以得出最终答案。

两个数学推理基准之一,该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准。

提出背景:像GPT-3这样的大型语言模型有许多令人印象深刻的技能,包括模仿许多写作风格的能力,以及广泛的事实知识。然而,他们很难完成需要精确多步骤推理的任务,比如解决小学数学单词问题。为了匹配人类在复杂逻辑领域中的表现,我们使用验证器在许多提出的解决方案中选择最好的解决方案。我们收集了新的GSM8K数据集来评估我们的方法,并发布该数据集以促进研究。

论文:Training Verifiers to Solve Math Word Problems

项目:github.com/openai/grad...

博客:openai.com/research/so...

Gaokao-Bench

GAOKAO-bench是一个以中国中考试题为数据集,评估大型语言模型的语言理解和逻辑推理能力的评估框架。

官网:github.com/OpenLMLab/G... 论文:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

AGIEval

微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文。

论文:AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models 数据:github.com/microsoft/A...

MATH

MATH 数学领域的推理和解决问题能力测试。MATH是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集,与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法。MATH数据集目前对现有模型仍非常具挑战性。

MATH 是一个包含 12,500 个具有挑战性的数学竞赛问题的新数据集。 MATH 中的每个问题都有一个完整的逐步解决方案,可用于教模型生成答案推导和解释。

项目地址github.com/hendrycks/m...
论文Measuring Mathematical Problem Solving With the MATH Dataset

BBH

BIG bench hard(BBH)基准,通过选择大语言模型表现出比人类更差性能的具有挑战性的任务,专注于研究大语言模型目前无法解决的任务。BIG-bench Hard是BIG-bench的一个仅包含目前模型表现无法超过人类的任务子集。

BIG-bench 是一个协作基准,旨在从各个方面调查现有的大语言模型。它包括204项任务,涵盖了广泛的主题,包括语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等。通过缩放模型大小,大语言模型甚至可以在BIG-bench上65%的任务中,在少样本设置下的平均人类表现

论文:Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them

github: github.com/suzgunmirac...

HumanEval

它用于测量从文档字符串合成程序的功能正确性。它由164个原始编程问题组成,评估语言理解、算法和简单数学,其中一些问题与简单的软件面试问题相当。

论文: arxiv.org/abs/2107.03...

github: github.com/openai/huma...

MBPP

该基准测试由大约1000个众包Python编程问题组成,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。每个问题都由任务描述、代码解决方案和3个自动化测试用例组成。主要反映大模型的代码理解和生成任务能力。

论文Program Synthesis with Large Language Models
github : github.com/.../mbpp

附录

榜单

UC伯克利主导的「LLM排位赛」

LMSYS Org是UC伯克利(University of California,Berkeley)的研究人员发起的一个大语言模型版排位赛!顾名思义,就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。

该排位赛使用MT-bench作为聊天机器人评估基准。

创始人之一盛颖是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作,目前已获8k星,她是斯坦福大学计算机科学系的博士生。另外两位是Lianmin Zheng和Hao Zhang。

AlpacaEval

OpenCompass

MT-Bench

MT-Bench是一个经过精心设计的基准测试,包含80个高质量的多轮问题。8个主要的类别:写作、角色扮演、提取、推理、数学、编程、知识I(科学技术工程数学)和知识II(人文社科)。其中,每个类别有10个多轮问题,总共160个问题。

下图是LMSYS Org上的2023年榜单上的雷达图

项目说明如下:

  • Writing - 写作
  • Humanities - 人类行业
  • Roleplay - 角色扮演
  • STEM - 理工科任务
  • Reasoning - 推理任务
  • Extraction - 提取(蒸馏)
  • Math - 数学任务
  • Coding - 代码任务

MathVista

MathVista由微软发布的全新多模态数学推理基准数据集,同时提供了一份涵盖 112 页的详细评测报告,专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型,如 GPT-4V,来说也是一项挑战,显示了这些模型在多模态数学问题解决方面的局限性。

国外的一个评测综述的论文:大型语言模型评估综述

参考

(可能有遗漏,欢迎补充)

相关推荐
2401_85044049715 分钟前
激发AI创造力:掌握Prompt提示词的高效提问方法
人工智能·prompt
Terry Cao 漕河泾1 小时前
SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World
人工智能·计算机视觉·3d·目标跟踪
多猫家庭1 小时前
宠物毛发对人体有什么危害?宠物空气净化器小米、希喂、352对比实测
人工智能·宠物
AI完全体1 小时前
AI小项目4-用Pytorch从头实现Transformer(详细注解)
人工智能·pytorch·深度学习·机器学习·语言模型·transformer·注意力机制
AI知识分享官1 小时前
智能绘画Midjourney AIGC在设计领域中的应用
人工智能·深度学习·语言模型·chatgpt·aigc·midjourney·llama
程序小旭2 小时前
Objects as Points基于中心点的目标检测方法CenterNet—CVPR2019
人工智能·目标检测·计算机视觉
阿利同学2 小时前
yolov8多任务模型-目标检测+车道线检测+可行驶区域检测-yolo多检测头代码+教程
人工智能·yolo·目标检测·计算机视觉·联系 qq1309399183·yolo多任务检测·多检测头检测
CV-King2 小时前
计算机视觉硬件知识点整理(三):镜头
图像处理·人工智能·python·opencv·计算机视觉
天南星2 小时前
PaddleOCR和PaddleLite的关联和区别
深度学习·图像识别
Alluxio官方2 小时前
Alluxio Enterprise AI on K8s FIO 测试教程
人工智能·机器学习