OpenCompass 大模型评测实战学习笔记

大模型开源开放评测体系 "司南" (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下:

开源可复现:提供公平、公开、可复现的大模型评测方案

全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力

丰富的模型支持:已支持 20+ HuggingFace 及 API 模型

分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测

多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能

灵活化拓展:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展

除此之外还有一些工具支持

在opencompass官网中,还可以看到一些教程

支持的评估指标(部分)

感觉用opencompass这个框架进行评测,会比自己写评测脚本方便一点,因为涉及到不同的指标什么的。

相关推荐
weixin_514548894 分钟前
机器学习课程学习周报十五
人工智能·学习·机器学习
Themberfue10 分钟前
基础算法之双指针--Java实现(下)--LeetCode题解:有效三角形的个数-查找总价格为目标值的两个商品-三数之和-四数之和
java·开发语言·学习·算法·leetcode·双指针
AIGC破防黑吗喽11 分钟前
Midjourney零基础学习
人工智能·gpt·学习·ai·stable diffusion·midjourney·ai绘画
LearnTech_12325 分钟前
【学习笔记】手写一个简单的 Spring MVC
笔记·学习·spring·spring mvc
一尘之中1 小时前
网 络 安 全
网络·人工智能·学习·安全
TNT_JQR1 小时前
电子信息类专业技术学习及比赛路线总结(大一到大三)
单片机·嵌入式硬件·学习
漏刻有时1 小时前
微信小程序学习实录9:掌握wx.chooseMedia实现多图片文件上传功能(选择图片、预览图片、上传图片)
学习·微信小程序·notepad++
笑鸿的学习笔记1 小时前
工具笔记之生成图表和可视化的标记语言Mermaid
笔记
大霞上仙2 小时前
jmeter学习(7)beanshell
学习·jmeter
大霞上仙2 小时前
jmeter学习(1)线程组与发送请求
java·学习·jmeter