OpenCompass 大模型评测实战学习笔记

大模型开源开放评测体系 "司南" (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下:

开源可复现:提供公平、公开、可复现的大模型评测方案

全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力

丰富的模型支持:已支持 20+ HuggingFace 及 API 模型

分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测

多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能

灵活化拓展:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展

除此之外还有一些工具支持

在opencompass官网中,还可以看到一些教程

支持的评估指标(部分)

感觉用opencompass这个框架进行评测,会比自己写评测脚本方便一点,因为涉及到不同的指标什么的。

相关推荐
UpUpUp……2 小时前
HTML简单语法标签(后续实操:云备份项目)
笔记·html
小彭律师2 小时前
门禁人脸识别系统详细技术文档
笔记·python
是孑然呀4 小时前
【小记】word批量生成准考证
笔记·学习·excel
ll7788116 小时前
C++学习之路,从0到精通的征途:继承
开发语言·数据结构·c++·学习·算法
LuckyLay7 小时前
React百日学习计划——Deepseek版
前端·学习·react.js
安和昂7 小时前
【iOS】SDWebImage源码学习
学习·ios
毫秒AI获客8 小时前
小红书多账号运营效率优化:技术方案与自动化实践
笔记
菜一头包8 小时前
c++ std库中的文件操作学习笔记
c++·笔记·学习
猴子请来的逗比4898 小时前
tomcat搭建内网论坛
学习·tomcat
belldeep8 小时前
如何阅读、学习 Git 核心源代码 ?
git·学习·源代码