感谢某学友中提供的'通义千问2.0'的测评雷达图，由此笔者开始了收集有关评测集的资料。

评测集有点多，本文笔者以新闻搞通义千问2.0的评测雷达图上的信息为基线整理

附录上还有一些好东西，请看目录

笔者认为技术人员也需要懂一些周边的知识-这样有利于体系化的知识的建立

笔者水平有限，敬请勘误

引言

在今年(2023)云栖大会上，阿里云正式发布千亿级参数大模型通义千问2.0。据现场介绍，在10个权威测评中，通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4。以下是通义千问在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上的表现：

上图可以看出通义千问2.0的得分整体超越META的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小 (新闻来自新浪财经)。

那么问题来了，上图中Benchmark测评集分别是什么？侧重点在哪些方面？

基准测评集介绍

CMMLU

CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测，由MBZUAI、上海交通大学、微软亚洲研究院共同推出，包含67个主题，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中国基准。是国内两大权威评测之一。

论文：CMMLU: Measuring massive multitask language understanding in Chinese
数据、代码与最新榜单：github.com/haonan-li/C...

MMLU

MMLU(Massive Multitask Language Understanding，大规模多任务语言理解)是一个由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基准，旨在通过仅在零样本和少样本设置下评估模型来衡量预训练。

官网: paperswithcode.com/dataset/mml...
大模型排行榜: paperswithcode.com/sota/multi-...
paperswithcode.com/paper/measu...

C-Eva

C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集，覆盖52个学科，是目前权威的中文AI大模型评测榜单之一。是国内两大权威评测之一。C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。

论文：C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
官网：cevalbenchmark.com/
网址：github.com/hkust-nlp/c...
排行：浏览

C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，如下所示

GSM8K

GSM8K是由OpenAI发布的大模型数学推理能力评测基准。一个由8.5K高质量的语言多样化的小学数学单词问题组成的数据集（其中7.5K训练集，1K测试集）。这些问题都是由人类写手创造的。每个问题需要2-8步推理来求解，主要是使用基本的算术运算（+-/*)进行一连串的基本计算，以得出最终答案。

两个数学推理基准之一，该项测试在2021年10月份发布，至今仍然是非常困难的一种测试基准。

提出背景：像GPT-3这样的大型语言模型有许多令人印象深刻的技能，包括模仿许多写作风格的能力，以及广泛的事实知识。然而，他们很难完成需要精确多步骤推理的任务，比如解决小学数学单词问题。为了匹配人类在复杂逻辑领域中的表现，我们使用验证器在许多提出的解决方案中选择最好的解决方案。我们收集了新的GSM8K数据集来评估我们的方法，并发布该数据集以促进研究。

论文：Training Verifiers to Solve Math Word Problems

项目：github.com/openai/grad...

博客：openai.com/research/so...