智源与HuggingFace联合推出开放中文大语言模型榜单 - 旗鉴榜

近日,智源研究院与 Hugging Face 开发者社区合作,发布 Open Chinese LLM Leaderboard,旨在跟踪、排名和评估开放式中文大语言模型 ,通过开源社区共建、用户自主贡献的方式,持续推动和完善中文语言大模型的科学、客观排名榜。该评测从2月24日试上线至今,已经完成了78个模型的评测,当前正在评测的有7个,还有20个在队列中。

了解更多,请访问

https://huggingface.co/spaces/BAAI/open_cn_llm_leaderboard

在以往的Hugging Face社区上,始终缺乏一个开放共建更具客观性质的中文榜单,而Open-Chinese-LLM-leaderboard的建设填补了这一部分的空白。

Hugging Face Spaces页

共建共享,推动技术进步

任何技术的长远发展都离不开社区的广泛参与和贡献。而Open-Chinese-LLM-leaderboard的建设初衷,是期望依托Hugging Face这一开源社区平台,鼓励和吸引更多的中文大语言模型开发者加入,共同推动中文大语言模型的持续进步与完善,为中文大语言模型的发展提供强有力的支撑。

Open-Chinese-LLM-leaderboard主页图

公正、标准化的评估流程

为确保评估的公正性,所有的模型均通过FlagEval平台提供的底层能力进行评估,FlagEval平台为该榜单提供评测服务与社区共建的相关数据集,同时使用平台标准化的GPU和统一的评估环境进行测试,保障评估结果的可比性和可信度。

采用更全面的数据集

Open Chinese LLM Leaderboard基于Eleuther AI Language Model Evaluation Harness评测框架,对模型在七个关键基准上进行评估,所有采用的英文数据集均已完成中文的转换。

在数据集方面,针对中文大语言模型的评估,该Leaderboard 将相关的英文数据集,进行了中文的翻译与校验。为了更好的评估中文大语言模型的能力,该Leaderboard 提供了更加完善的基准数据集,覆盖学科教育、专业知识、推理、幻觉和常识。最终得分为每个评估数据集的平均得分,包含以下数据集:

ARC (25-shot)

包含7,787个科学考试问题,源自不同来源,要求模型在25个示例后进行推理,用于评估模型的多步推理能力,已翻译为中文。

HellaSwag (10-shot)

用于评估常识推理的挑战性数据集,它特别难以应对现有的先进模型,尽管问题对人类来说非常简单(准确率 >95%),已翻译为中文。

TruthfulQA (0-shot)

包含817个问题,覆盖38个类别,旨在衡量语言模型在生成答案时是否真实,以及它们是否倾向于复制人类的虚假信息,已翻译为中文。

Winogrande (5-shot)

是一个大规模对抗性高难度 Winograd 基准,用于常识推理,要求模型在5个示例后进行推理,已翻译为中文。

GSM8k (5-shot)

是一个包含8,000个问题的小学数学数据集,用于衡量模型解决多步骤数学推理问题的能力,它要求模型展示出对数学问题的深入理解,已翻译为中文。

C-SEM_v2 (5-shot)

针对中文模型的综合语义评估基准,侧重于通过多样化和具有挑战性的任务评估词汇和句子层面的语义理解。

CMMLU (5-shot)

专为中文模型设计的基准,用于评估文本模型在 67 个不同任务中的多任务准确性。这些任务涵盖数学、中国文学、计算机科学、法律等学科,突出了该基准对中文文本处理能力的关注。

这些数据集不仅全面,而且深入,能够全方位地评估语言模型的性能。

诚邀开发者与我们共建

我们十分重视不同开发者和用户的反馈与建议,也期望大家能够参与到Open Chinese LLM Leaderboard的建设中来,共同探讨评估体系的演化与提升,感兴趣的用户可以直接在Hugging Face的submit页面添加需要评估的模型,参与评测。我们期待与全球的开发者与研究人员共同推动中文大语言模型的发展。

相关推荐
半个落月26 分钟前
从 Tokenization 到 Embedding:用 Node.js 搞懂大模型为什么先“分词”再“向量化”
人工智能·node.js
vanuan30 分钟前
MCP协议实战(Java版):用Spring Boot让AI直接查你的数据库
人工智能
雪隐1 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
Coffeeee1 小时前
帮你快速理解AI Agent之我想招个Android实习生
android·人工智能·agent
新新技术迷1 小时前
AI聊天自动跟随滚动,附回到底部按钮
人工智能
先锋部队1 小时前
用Web Worker解析AI返回的大文本不卡UI
人工智能
把你拉进白名单1 小时前
8.OpenClaw源码解析——三层洋葱重试
人工智能·llm·agent
用户632415031782 小时前
拖文档进AI对话框解析,前端要处理哪些脏活
人工智能
姗姗来迟了2 小时前
AI回答里的引用来源卡片,前端怎么做
人工智能
用户7106207733402 小时前
Codex-端口配置错误排查案例(stream disconnected before completion)
人工智能