1. Hugging Face Open LLM Leaderboard
-
特点:全球开源大模型的核心 "打榜" 阵地,自动化评估模型在知识、推理、常识等多个维度的表现,覆盖 MMLU(57 个学科的通用知识评测)、ARC、TruthfulQA 等核心基准。
-
官方地址 :https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
-
优势:更新快,覆盖几乎所有主流开源模型,是开源社区最权威的参考指标。
2. OpenCompass(开放 compass)
-
特点:由上海人工智能实验室推出的国产评测平台,是全球最具影响力的开源评测体系之一,对中文模型的评测尤为全面,覆盖 CMMLU(中文多任务知识评测)、C-Eval 等中文知识类基准。
-
优势:对中文百科、专业知识的评测精度更高,更适合国内用户参考。
3. LMSYS Chatbot Arena
-
特点:采用 "双盲测试" 机制,隐藏模型身份,由全球真实用户基于回答质量投票,有效规避了传统评测中 "针对数据集刷榜" 的问题,其中 Expert 榜单专门针对高难度专业知识任务。
-
官方地址 :https://arena.lmsys.org
-
优势:更贴近真实用户的使用体验,能反映模型在真实知识问答中的实际表现。
4. SuperCLUE
-
特点:专门针对中文大模型的评测平台,通过 3700 + 客观题和匿名对战机制,每月更新国内外主流模型的排名,覆盖中文百科、常识、专业知识等多个维度。
5. Stanford HELM
-
特点:斯坦福大学推出的全面评测框架,从多个维度评估模型的能力,包括知识的真实性、鲁棒性等,避免模型 "一本正经地胡说八道"。