主流大预言模型推理效果对比

推理效果对比

主流测试数据集

  • GSM8K:包含 8.5K 高质量语言多样化小学数学应用题的英文数据集。

  • GAOKAO以中国高考题目为数据集,旨在提供和人类对齐的,直观,高效地测评大模型语言理解能力、逻辑推理能力进行测评。收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的主要评测数据。

  • BBH:是一个挑战性任务 Big-Bench 的子集。Big-Bench 目前包括 204 项任务。任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面。BBH 是从 204 项 Big-Bench 评测基准任务中大模型表现不好的任务单独拿出来形成的评测基准。

  • MMLU:由来自各个知识分支的多个英文选择题组成,测试涵盖人文科学、社会科学、硬科学等学习领域的科目,包括基础数学、美国历史、计算机科学、法律等57项任务。

  • C-Eval:C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。

  • CMMLU:综合性的中文评估基准,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,专门用于评估语言模型在中文语境下的知识和推理能力,共涵盖了67个主题,涉及自然科学、社会科学、工程、人文以及常识等。

  • HumanEval:一个用于评估代码生成模型性能的英文数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。

  • AGIEval:以人为中心的基准,专门设计用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通考生的官方、公开、高标准的入学和资格考试,例如普通大学入学考试(例如中国高考和美国 SAT)、法学院入学考试考试、数学竞赛、律师资格考试、国家公务员考试。

以下得分均来自于各大模型的 GitHub 页面汇总

7B 模型测评得分

Model GSM8K GAOKAO BBH MMLU C-Eval CMMLU HumanEval AGIEval
GPT-4 89.9 66.1 75.1 83.9 68.4 70.3 69.5 63.2
LLama2-7B 16.2 25.9 39.1 45.7 28.9 31.3 12.8 26.5
ChatGLM2-6B 32.4 49.4 33.7 47.9 51.7 50.0 9.1 45.2
ChatGLM3-6B 72.3 - 66.1 61.4 69.0 67.5 - 53.7
Qwen-7B-Chat 50.3 - - 55.8 59.7 - 37.2 -
Baichuan2-7B-Chat 24.4 47.4 41.5 54.1 54.0 57.0 18.2 42.7
Yi-6B-Chat 38.4 67.2 39.7 58.2 68.8 69.4 - -
XVERSE-7B-Chat - 57.5 - 63.7 55.4 - - 48.9

从数据来看 ChatGLM3-6B 模型得分相对要高一些。

13B 模型测评得分

Model GSM8K GAOKAO BBH MMLU C-Eval CMMLU HumanEval AGIEval
GPT-4 89.9 66.1 75.1 83.9 68.4 70.3 69.5 63.2
LLama2-13B 28.8 30.8 46.9 55.0 35.8 37.9 15.2 32.2
Qwen-14B-Chat 60.1 62.5 49.6 64.6 69.8 67.7 43.9 -
Baichuan2-13B-Chat 52.7 54.3 48.7 59.1 58.1 61.9 17.0 48.1
XVERSE-13B-Chat 54.9 67.5 38.0 61.2 63.5 66.2 39.6 54.5

从数据来看 Qwen-14B-Chat 模型得分相对要高一些,几乎全面领先于其他模型。

34B 以上模型测评得分

Model GSM8K GAOKAO BBH MMLU C-Eval CMMLU HumanEval AGIEval
GPT-4 89.9 66.1 75.1 83.9 68.4 70.3 69.5 63.2
Yi-34B-Chat 71.6 77.8 51.4 67.6 77.0 79.1 - -
LLama2-70B-Chat 47.0 49.8 42.3 59.4 34.9 36.1 - -
Qwen-70B-Chat 76.4 - - 74.3 80.1 - 64.6 -

推理效率对比

参考资料

相关推荐
摇滚侠2 小时前
Spring Boot 3零基础教程,WEB 开发 静态资源默认配置 笔记27
spring boot·笔记·后端
天若有情6735 小时前
Java Swing 实战:从零打造经典黄金矿工游戏
java·后端·游戏·黄金矿工·swin
一只叫煤球的猫5 小时前
建了索引还是慢?索引失效原因有哪些?这10个坑你踩了几个
后端·mysql·性能优化
magic334165637 小时前
Springboot整合MinIO文件服务(windows版本)
windows·spring boot·后端·minio·文件对象存储
开心-开心急了7 小时前
Flask入门教程——李辉 第一、二章关键知识梳理(更新一次)
后端·python·flask
掘金码甲哥7 小时前
调试grpc的哼哈二将,你值得拥有
后端
小学鸡!7 小时前
Spring Boot实现日志链路追踪
java·spring boot·后端
用户21411832636029 小时前
OpenSpec 实战:用规范驱动开发破解 AI 编程协作难题
后端
Olrookie9 小时前
若依前后端分离版学习笔记(二十)——实现滑块验证码(vue3)
java·前端·笔记·后端·学习·vue·ruoyi
LucianaiB10 小时前
招聘可以AI面试,那么我制作了一个AI面试教练不过分吧
后端