推理效果对比
主流测试数据集
-
GSM8K:包含 8.5K 高质量语言多样化小学数学应用题的英文数据集。
-
GAOKAO以中国高考题目为数据集,旨在提供和人类对齐的,直观,高效地测评大模型语言理解能力、逻辑推理能力进行测评。收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的主要评测数据。
-
BBH:是一个挑战性任务 Big-Bench 的子集。Big-Bench 目前包括 204 项任务。任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。BBH 是从 204 项 Big-Bench 评测基准任务中大模型表现不好的任务单独拿出来形成的评测基准。
-
MMLU:由来自各个知识分支的多个英文选择题组成,测试涵盖人文科学、社会科学、硬科学等学习领域的科目,包括基础数学、美国历史、计算机科学、法律等57项任务。
-
C-Eval:C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。
-
CMMLU:综合性的中文评估基准,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,专门用于评估语言模型在中文语境下的知识和推理能力,共涵盖了67个主题,涉及自然科学、社会科学、工程、人文以及常识等。
-
HumanEval:一个用于评估代码生成模型性能的英文数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。
-
AGIEval:以人为中心的基准,专门设计用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通考生的官方、公开、高标准的入学和资格考试,例如普通大学入学考试(例如中国高考和美国 SAT)、法学院入学考试考试、数学竞赛、律师资格考试、国家公务员考试。
以下得分均来自于各大模型的 GitHub 页面汇总
7B 模型测评得分
Model | GSM8K | GAOKAO | BBH | MMLU | C-Eval | CMMLU | HumanEval | AGIEval |
---|---|---|---|---|---|---|---|---|
GPT-4 | 89.9 | 66.1 | 75.1 | 83.9 | 68.4 | 70.3 | 69.5 | 63.2 |
LLama2-7B | 16.2 | 25.9 | 39.1 | 45.7 | 28.9 | 31.3 | 12.8 | 26.5 |
ChatGLM2-6B | 32.4 | 49.4 | 33.7 | 47.9 | 51.7 | 50.0 | 9.1 | 45.2 |
ChatGLM3-6B | 72.3 |
- | 66.1 |
61.4 | 69.0 |
67.5 | - | 53.7 |
Qwen-7B-Chat | 50.3 | - | - | 55.8 | 59.7 | - | 37.2 |
- |
Baichuan2-7B-Chat | 24.4 | 47.4 | 41.5 | 54.1 | 54.0 | 57.0 | 18.2 | 42.7 |
Yi-6B-Chat | 38.4 | 67.2 |
39.7 | 58.2 | 68.8 | 69.4 |
- | - |
XVERSE-7B-Chat | - | 57.5 | - | 63.7 |
55.4 | - | - | 48.9 |
从数据来看 ChatGLM3-6B
模型得分相对要高一些。
13B 模型测评得分
Model | GSM8K | GAOKAO | BBH | MMLU | C-Eval | CMMLU | HumanEval | AGIEval |
---|---|---|---|---|---|---|---|---|
GPT-4 | 89.9 | 66.1 | 75.1 | 83.9 | 68.4 | 70.3 | 69.5 | 63.2 |
LLama2-13B | 28.8 | 30.8 | 46.9 | 55.0 | 35.8 | 37.9 | 15.2 | 32.2 |
Qwen-14B-Chat | 60.1 |
62.5 | 49.6 |
64.6 |
69.8 |
67.7 |
43.9 |
- |
Baichuan2-13B-Chat | 52.7 | 54.3 | 48.7 | 59.1 | 58.1 | 61.9 | 17.0 | 48.1 |
XVERSE-13B-Chat | 54.9 | 67.5 |
38.0 | 61.2 | 63.5 | 66.2 | 39.6 | 54.5 |
从数据来看 Qwen-14B-Chat
模型得分相对要高一些,几乎全面领先于其他模型。
34B 以上模型测评得分
Model | GSM8K | GAOKAO | BBH | MMLU | C-Eval | CMMLU | HumanEval | AGIEval |
---|---|---|---|---|---|---|---|---|
GPT-4 | 89.9 | 66.1 | 75.1 | 83.9 | 68.4 | 70.3 | 69.5 | 63.2 |
Yi-34B-Chat | 71.6 | 77.8 |
51.4 | 67.6 | 77.0 | 79.1 |
- | - |
LLama2-70B-Chat | 47.0 | 49.8 | 42.3 | 59.4 | 34.9 | 36.1 | - | - |
Qwen-70B-Chat | 76.4 |
- | - | 74.3 |
80.1 |
- | 64.6 | - |
推理效率对比
参考资料