大模型评测网站合集

1. Hugging Face Open LLM Leaderboard

  • 特点:全球开源大模型的核心 "打榜" 阵地,自动化评估模型在知识、推理、常识等多个维度的表现,覆盖 MMLU(57 个学科的通用知识评测)、ARC、TruthfulQA 等核心基准。

  • 官方地址https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

  • 优势:更新快,覆盖几乎所有主流开源模型,是开源社区最权威的参考指标。

2. OpenCompass(开放 compass)

  • 特点:由上海人工智能实验室推出的国产评测平台,是全球最具影响力的开源评测体系之一,对中文模型的评测尤为全面,覆盖 CMMLU(中文多任务知识评测)、C-Eval 等中文知识类基准。

  • 官方地址https://opencompass.org.cn

  • 优势:对中文百科、专业知识的评测精度更高,更适合国内用户参考。

3. LMSYS Chatbot Arena

  • 特点:采用 "双盲测试" 机制,隐藏模型身份,由全球真实用户基于回答质量投票,有效规避了传统评测中 "针对数据集刷榜" 的问题,其中 Expert 榜单专门针对高难度专业知识任务。

  • 官方地址https://arena.lmsys.org

  • 优势:更贴近真实用户的使用体验,能反映模型在真实知识问答中的实际表现。

4. SuperCLUE

  • 特点:专门针对中文大模型的评测平台,通过 3700 + 客观题和匿名对战机制,每月更新国内外主流模型的排名,覆盖中文百科、常识、专业知识等多个维度。

  • 官方地址https://www.superclueai.com

5. Stanford HELM

  • 特点:斯坦福大学推出的全面评测框架,从多个维度评估模型的能力,包括知识的真实性、鲁棒性等,避免模型 "一本正经地胡说八道"。

  • 官方地址https://crfm.stanford.edu/helm/

相关推荐
怪我冷i7 小时前
如何在VsCode中安装Golang插件
golang·llm
钟智强9 小时前
DeepSeek-R1 V3.2 V4架构训练推理性能实测分析,企业私有化部署选型对照表
ai·架构·llm·deepseek
研究点啥好呢1 天前
高德多模态算法工程师面试题精选:10道高频考题+答案解析
python·面试·llm·求职招聘·笔试·高德
程序设计实验室1 天前
用本地大模型驱动中文输入法,我做了一个实验性的项目
ai·llm
怪我冷i1 天前
多租户管理系统,用户表,IsSuperAdmin,IsTenantAdmin,IsCompanyAdmin,IsDeptAdmin需要吗?
golang·llm·多租户·skill
测试员周周1 天前
【AI测试系统】第2篇:拒绝盲目 AI:规则引擎 10ms 自动生成 36 条测试用例实战(附源码)
llm·ai编程·测试
冬奇Lab1 天前
RAG 系列(三):调对这 4 个参数,让你的 RAG 从「能用」变「好用」
人工智能·llm
数据智能老司机1 天前
人人都能学会的提示词工程——人人都能学会的提示词工程
llm
数据智能老司机1 天前
人人都能学会的提示词工程——提示素养:从习惯到精通
llm