大模型评测网站合集

稚枭天卓2026-05-02 11:21

1. Hugging Face Open LLM Leaderboard

特点：全球开源大模型的核心 "打榜" 阵地，自动化评估模型在知识、推理、常识等多个维度的表现，覆盖 MMLU（57 个学科的通用知识评测）、ARC、TruthfulQA 等核心基准。
官方地址 ：https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
优势：更新快，覆盖几乎所有主流开源模型，是开源社区最权威的参考指标。

2. OpenCompass（开放 compass）

特点：由上海人工智能实验室推出的国产评测平台，是全球最具影响力的开源评测体系之一，对中文模型的评测尤为全面，覆盖 CMMLU（中文多任务知识评测）、C-Eval 等中文知识类基准。
官方地址 ：https://opencompass.org.cn
优势：对中文百科、专业知识的评测精度更高，更适合国内用户参考。

3. LMSYS Chatbot Arena

特点：采用 "双盲测试" 机制，隐藏模型身份，由全球真实用户基于回答质量投票，有效规避了传统评测中 "针对数据集刷榜" 的问题，其中 Expert 榜单专门针对高难度专业知识任务。
官方地址 ：https://arena.lmsys.org
优势：更贴近真实用户的使用体验，能反映模型在真实知识问答中的实际表现。

4. SuperCLUE

特点：专门针对中文大模型的评测平台，通过 3700 + 客观题和匿名对战机制，每月更新国内外主流模型的排名，覆盖中文百科、常识、专业知识等多个维度。
官方地址 ：https://www.superclueai.com

5. Stanford HELM

特点：斯坦福大学推出的全面评测框架，从多个维度评估模型的能力，包括知识的真实性、鲁棒性等，避免模型 "一本正经地胡说八道"。
官方地址 ：https://crfm.stanford.edu/helm/

上一篇：LeetCode 30：Substring with Concatenation of All Words 题解（含 C 语言 uthash 实现）

热门推荐

01要裂开了！ChatGPT要手机号验证了？注册Codex要求验证电话号码怎么办？2026年登陆Codex要手机号验证的解决办法 02GitHub 镜像站点 03裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 04【AI】2026 年具身智能模型和世界模型总结 05Codex 接入 DeepSeek API 完整配置文档 062026年4月AI大事件深度解读：大模型竞争进入“深水区“07实测可用｜小米 MiMo 百万亿 Token 免费领，开发者速冲 082026年AI前瞻：量子AI、具身智能与科学发现的新纪元 09零基础教你claude code 接入 deepseek V4 10在Windows 11上安装Docker的踩坑记录