大模型评测网站合集

1. Hugging Face Open LLM Leaderboard

  • 特点:全球开源大模型的核心 "打榜" 阵地,自动化评估模型在知识、推理、常识等多个维度的表现,覆盖 MMLU(57 个学科的通用知识评测)、ARC、TruthfulQA 等核心基准。

  • 官方地址https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

  • 优势:更新快,覆盖几乎所有主流开源模型,是开源社区最权威的参考指标。

2. OpenCompass(开放 compass)

  • 特点:由上海人工智能实验室推出的国产评测平台,是全球最具影响力的开源评测体系之一,对中文模型的评测尤为全面,覆盖 CMMLU(中文多任务知识评测)、C-Eval 等中文知识类基准。

  • 官方地址https://opencompass.org.cn

  • 优势:对中文百科、专业知识的评测精度更高,更适合国内用户参考。

3. LMSYS Chatbot Arena

  • 特点:采用 "双盲测试" 机制,隐藏模型身份,由全球真实用户基于回答质量投票,有效规避了传统评测中 "针对数据集刷榜" 的问题,其中 Expert 榜单专门针对高难度专业知识任务。

  • 官方地址https://arena.lmsys.org

  • 优势:更贴近真实用户的使用体验,能反映模型在真实知识问答中的实际表现。

4. SuperCLUE

  • 特点:专门针对中文大模型的评测平台,通过 3700 + 客观题和匿名对战机制,每月更新国内外主流模型的排名,覆盖中文百科、常识、专业知识等多个维度。

  • 官方地址https://www.superclueai.com

5. Stanford HELM

  • 特点:斯坦福大学推出的全面评测框架,从多个维度评估模型的能力,包括知识的真实性、鲁棒性等,避免模型 "一本正经地胡说八道"。

  • 官方地址https://crfm.stanford.edu/helm/

相关推荐
Darling噜啦啦5 小时前
拆解 LLM 的内部黑盒:从 Token 到 Self-Attention 的逐层解码之旅
llm·aigc
武子康9 小时前
调查研究-209 Apptronik Robot Park 深度解析:人形机器人竞争,开始拼“真实世界数据工厂“
人工智能·google·llm
DigitalOcean1 天前
DigitalOcean 推出大模型自动化评估功能,上线前精准避坑
llm·agent
ch_09181 天前
从0构建SDK第3节:实现 ReActAgent 的推理与行动循环
typescript·llm·agent
得物技术1 天前
AI UITester:AI Native 的 UI 自动化测试新范式|得物技术
llm·aigc·测试
不好听6131 天前
Harness Engineering:给千里马套上缰绳
llm·agent
小林ixn1 天前
LLM如何预测下一个词?从Token到概率,一文看懂大模型推理内幕
人工智能·llm
树獭非懒1 天前
从零构建ReAct智能体:让AI学会边想边做
人工智能·llm·agent
Hyyy2 天前
SSE和WebSocket 是什么,AI 场景下如何选择
llm