用于评估大语言模型(LLMs)能力的重要基准任务(Benchmark)

基准任务涵盖了 多领域(如语言理解、数学、推理、编程、医学等)和 多能力维度(如事实检索、计算、代码生成、链式推理、多语言处理)。常用于模型发布时的对比评测,例如 GPT-4、Claude、Gemini、Mistral 等模型的论文或报告中。

Benchmark 简介 用途 地址 许可证
MMLU Massive Multitask Language Understanding 测试模型在多学科考试(如历史、法律、医学等)中的表现 https://arxiv.org/abs/2009.03300, https://github.com/hendrycks/test MIT License
MATH Mathematical Problem Solving 测试模型解决中学和大学级数学问题的能力 https://arxiv.org/abs/2103.03874, https://github.com/hendrycks/math MIT License
GPQA Graduate-level, Google-proof Q&A 高阶、无法通过搜索引擎解答的物理问答题 https://arxiv.org/abs/2311.12022, https://github.com/idavidrein/gpqa/ MIT License
DROP Discrete Reasoning Over Paragraphs 阅读理解测试,侧重数值运算、推理和信息整合 https://arxiv.org/abs/1903.00161, https://allenai.org/data/drop Apache 2.0
MGSM Multilingual Grade School Math 多语言小学数学题,考察链式思维能力 https://arxiv.org/abs/2210.03057, https://github.com/google-research/url-nlp CC-BY 4.0
HumanEval Code Generation and Evaluation 模型在 Python 编程题上的代码生成与准确性测试 https://arxiv.org/abs/2107.03374, https://github.com/openai/human-eval MIT License
SimpleQA Short-form Factuality Benchmark 测试模型对简单事实问答(如"地球离太阳多远?")的准确性 https://openai.com/index/introducing-simpleqa MIT License
BrowseComp Web-based Browsing Agent Task 测试具有浏览网页能力的智能体在任务场景中的能力 https://openai.com/index/browsecomp MIT License
HealthBench Health-related LLM Evaluation 面向医疗健康场景的模型能力评估,强调事实准确性和安全性 https://openai.com/index/healthbench MIT License
相关推荐
YuanDaima2048几秒前
图论基础原理与题目说明
数据结构·人工智能·python·算法·图论·手撕代码
code bean1 分钟前
【Langchain】 ChatPromptTemplate:从“手动拼字符串“到“专业模板“的进化之路
人工智能·机器学习·langchain
Aipollo3 分钟前
AI助手模块工作流程技术总结
人工智能·ai
eastyuxiao4 分钟前
主流物联网协议 超详细讲解
大数据·人工智能·物联网·智慧城市·能源·数字孪生
清风lsq5 分钟前
大模型-vllm 实现lora解析
人工智能·vllm·大模型推理
心疼你的一切8 分钟前
从零到一:鸿蒙健康监测应用的全流程开发实录
人工智能·华为·harmonyos·鸿蒙·鸿蒙系统
青岛前景互联信息技术有限公司13 分钟前
大典型案例,详细阐述分级预警与应急联动机制的构建逻辑
人工智能·物联网
Lyon1985052819 分钟前
注解:汉字逻辑 与 字母逻辑——DeepSeek体验《文字定律》
人工智能·ai·ai写作·deepseek
蜘蛛小助理23 分钟前
从一张表到一套系统:AI自动生成跨表关联与自动化工作流
人工智能·ai·多维表·多维表格·蜘蛛表格
X54先生(人文科技)23 分钟前
X54先生与陈晓岚弹硅协同开发经验分享
人工智能·开源·零知识证明