大模型基础之评测数据集

在大模型基础之评测里概述性介绍评测相关的理论体系。本文专注于数据集：分类汇总、如何构建高质量评测数据集。

数据集

只能说学术界、科研界、工程领域（尚未涵盖生物、医药、法律等其他领域）等的数据集实在太多，只是简单汇总一些基础类别。

且本文的分类也没有大局观。

中文

参考大模型测评之：CLUE、SuperCLUE。

CLUECorpus2020：100GB+的高质量中文文本语料，用于预训练，不直接用于评测但常作为微调基础。

C3（Chinese Crowd-sourced Comprehension Challenge）：

混合域阅读理解，包含对话和阐述性文本
候选答案选项来自众包标注
特别设计"需要常识推理"的题目类型

中文数学评测

数据集	来源	规模	说明
MATH-CN	MATH数据集中文版	12,500	竞赛数学翻译版
CMath	原创	1,000	小学数学应用题
GaoKaoMath	高考题	1,200+	历年高考数学真题
AGIEval-Math	高考/联考	2,672	AGIEval中的数学子集
CMATH	原创	1,000+	中学数学多难度层级

中文知识评测

数据集	类型	说明
CMMLU	中文MMLU	67个中文学科，包含中国特色知识（中医、古典文学等）
C-Eval	中文综合知识	52个学科，13,948题，含高中/大学/专业题目
KIEval	中文知识密集型推理	专注需要外部知识的推理题
GAOKAO-Bench	高考题库	覆盖高考所有科目，2010-2023年真题
AGIEval	人类资格考试	中英双语，包含高考、司法考试、GRE、SAT等

C-Eval是截至2024年使用最广泛的中文综合知识评测数据集，由上海AI实验室发布：

覆盖学科：52个学科，4个难度层级（初中、高中、大学、专业资格）
题目形式：单选题（A/B/C/D）
特色学科：中医基础、注册会计师、法律职业资格、马克思主义基本原理等中国特色内容
评测方式：Zero-shot CoT和5-shot两种设置
评分指标：各学科准确率及宏平均准确率（Macro Accuracy）

C-Eval学科分类：

STEM（理工）：数学、物理、化学、生物、计算机、工程
Humanities（人文）：历史、政治、语文、哲学
Social Science（社科）：经济、法律、教育、心理
Other（其他）：医学、会计、职业资格

对比

对比维度	C-Eval	CMMLU
学科数量	52	67
题目数量	~14K	~12K
中国特色	中等	较多（中医、古汉语等）
难度分布	明确层级	均匀分布
数据来源	网络+人工编写	网络收集

中文推理与常识评测

数据集	类型	说明
OCNLI	自然语言推理	原创（非翻译），5类关系标注
CMNLI	自然语言推理	中文版MultiNLI，翻译+原创混合
CommonsenseQA-ZH	常识推理	CommonsenseQA中文版
COPA-ZH	因果推理	COPA中文版，寻找原因/结果
WinoGrande-ZH	代词消歧	需要常识知识的代词指代
CRASS	反事实推理	中文反事实推理，"如果...会怎样"

中文安全与对齐评测

数据集	机构	说明
CValues	阿里巴巴	中国文化价值观对齐，2个维度：安全性和责任性
SafetyBench	THU/PKU	中文安全评测，7个安全类别，11K题
CHBias	清华	中文社会偏见评测
JADE	原创	中文越狱与有害内容评测
SuperCLUE-Safety	CLUE	中文安全合规综合评测
FLAMES	上海AI	面向中文社会价值观的细粒度安全评测

中文多模态评测

数据集	类型	说明
MMBench-CN	图文理解	MMBench的中文版本，20个能力维度
SEED-Bench-ZH	多模态理解	中文多模态理解，19K题
CCBench	中国文化多模态	专门测试对中国文化视觉内容的理解
TouchStone-ZH	多模态对话	中文多模态对话评测

英文

参考大模型测评之GLUE、SuperGLUE。

MMLU

Massive Multitask Language Understanding，多任务语言理解基准。

MMLU是过去三年中被引用最多的LLM评测基准，覆盖57个学科：

学科分类：

STEM（理工）：数学、物理、化学、生物、计算机科学、工程学
Humanities（人文）：历史、哲学、法律、道德
Social Sciences（社科）：经济、心理、社会学、政治
Other（其他）：医学、营养学、专业资质考试

关键参数：

题目总数：~14,000道多选题（4选1）
难度：高中到专业资格水平
评测设置：0-shot、5-shot两种
人类基准：~89.8%（专家）

GPT-4上的表现（截至2024）：

GPT-4：86.4%（5-shot）
Claude 3 Opus：86.8%
Gemini Ultra：83.7%
中国模型最高（如DeepSeek-V3）：~90%

存在问题：

部分题目答案有歧义，人工标注错误率约6%
已严重污染（大量训练数据包含MMLU题目）
多选题无法测试生成能力
不同学科之间权重不平衡（医学题目数量远多于哲学）

MMLU-Pro（2024升级版）：

题目数量：12,032（10选1，选项更多更难）
增加需要推理步骤的题目
降低可以通过表浅模式匹配猜到的题目比例
人类专家基准：~72%，GPT-4o：~72.6%

BIG-bench

Beyond the Imitation Game，谷歌等推出，集合204个多样化任务，由132个机构的研究人员贡献。

主要任务类别：

语言学：词法、语法、语义分析
常识推理：物理直觉、社会常识
数学：算术、代数、组合数学
逻辑推理：演绎、归纳、反事实
科学知识：物理、化学、生物
社会问题：道德推理、社会偏见
创意能力：写作、类比
多语言：翻译、跨语言理解

BIG-Bench Hard（BBH）：从BIG-bench中筛选出23个特别难的任务，模型在这些任务上的平均分低于随机基线，用于评测CoT的效果。

BBH任务	说明
Boolean Expressions	嵌套布尔逻辑
Causal Judgment	因果判断
Date Understanding	日期推理
Disambiguation QA	消歧问答
Dyck Languages	括号匹配语言
Formal Fallacies	形式谬误识别
Geometric Shapes	几何形状描述
Hyperbaton	语序重排
Logical Deduction	多实体逻辑推演（3/5/7 个对象）
Movie Recommendation	电影推荐（偏好一致性）
Multistep Arithmetic	多步算术
Navigate	方位导航
Object Counting	对象计数
Penguins in a Table	表格推理
Reasoning about Colored Objects	彩色对象推理
Ruin Names	文字游戏
Salient Translation Error Detection	翻译错误检测
Snarks	讽刺检测
Sports Understanding	体育规则推理
Temporal Sequences	时间序列推理
Tracking Shuffled Objects	多步对象追踪
Web of Lies	真假推理
Word Sorting	单词排序

HELM

Holistic Evaluation of Language Models缩写，斯坦福CRFM开源。核心理念是"全面性"，不只看单一指标，而是从多个角度综合评估。

评测场景 (Scenarios)

知识问答：NaturalQuestions、TriviaQA、MMLU
信息检索：MS-MARCO
摘要生成：CNN/DM、XSUM
情感分析：SST-5、IMDB
毒性检测：CivilComments、ToxiGen
偏见检测：BBQ
推理：BoolQ、NLI、HellaSwag

评测指标 (Metrics)

准确率 (Accuracy)
校准度 (Calibration)
鲁棒性 (Robustness)
公平性 (Fairness)
偏见 (Bias)
毒性 (Toxicity)
效率 (Efficiency)

与其他框架的差异：

多维度指标：同一场景同时报告多个指标，不只有准确率
生态多样性：覆盖不同文本类型（新闻/书籍/论坛/维基等）
公平性内置：将偏见和公平性评估集成到基础框架中
可扩展性：持续更新（HELM Classic、HELM Lite、HELM Instruct等子版本）

推理

常识推理

数据集	年份	类型	规模	特点
HellaSwag	2019	常识句子补全	70K	Adversarial Filtering 构造，难度高
PIQA	2020	物理常识	21K	日常物理操作知识
SIQA	2019	社交常识	38K	社交情景推理（行为后果）
WinoGrande	2020	代词消歧/常识	44K	Winograd Schema 大规模版
CommonsenseQA	2019	知识图谱驱动常识	12K	基于 ConceptNet 构造
OpenBookQA	2018	科学常识	6K	需要基础科学知识+常识
ARC-Easy/Challenge	2018	科学问答	7.7K	AI2 科学题库（四年级-八年级）
NumerSense	2020	数值常识	13.6K	数字常识填空

HellaSwag 使用 Adversarial Filtering 方法：

先从人工标注的正确续写中学习文本特征
然后训练一个分类器来识别"机器生成的误导性选项"
筛选出分类器无法识别的样本（即对模型最难的题）

使得HellaSwag的错误选项非常"看起来合理"，但在真正理解上下文的情况下是错的。GPT-4在HellaSwag上约95.3%，已超越平均人类水平。

数学推理

数据集	年份	难度	规模	特点
GSM8K	2021	小学	8.5K	小学数学应用题，需要多步推理
MATH	2021	高中竞赛	12.5K	5级难度，含证明题
AMC/AIME	-	竞赛	数百	美国数学竞赛题
AQUA-RAT	2017	GMAT/GRE	100K	代数应用题+推理过程
SVAMP	2021	小学	1K	GSM8K的对抗版，微小修改后答案变化
MultiArith	2015	小学	600	多步算术题
MathBench	2024	全层级	3K+	中文数学能力全面评测
MGSM	2023	多语言	250	GSM8K多语言版（11种语言）
GPQA	2023	博士级	448	生物、化学、物理博士难题
OlympiadBench	2024	奥赛级	8.5K	中英双语奥林匹克竞赛题

MATH数据集分类：

Algebra（代数）
Counting & Probability（计数与概率）
Geometry（几何）
Intermediate Algebra（中级代数）
Number Theory（数论）
Prealgebra（初级代数）
Precalculus（微积分预备）

GPQA（Graduate-level Google-Proof Q&A）：

专门设计为"Google搜索无法直接找到答案"
需要真正的专业领域推理
博士生正确率约65%，GPT-4约35-50%
o1-preview达到约73%，是第一个超越博士生平均水平的模型

逻辑与形式推理

数据集	类型	说明
LogiQA	逻辑推理	中国公务员考试逻辑判断题
RECLOR	研究生入学逻辑	GMAT/LSAT逻辑推理
AR-LSAT	法律逻辑	LSAT分析推理题
ProofWriter	演绎推理链	需要多步推理的真假判断
FOLIO	一阶逻辑推理	基于一阶逻辑的自然语言推理
Counterfactual	反事实推理	已知违反事实的假设推理
StrategyQA	隐式推理	需要分解成子问题的是否题

任务类型

自然语言理解（NLU）

文本分类

数据集	类别数	规模	来源领域
SST-2	2（正/负面）	68K	电影评论
IMDb	2	50K	长电影评论
AGNews	4（科技/体育/商业/世界）	127K	新闻标题
DBpedia	14	560K	维基百科摘要
Yelp	5	700K	商户评价
Amazon Reviews	5	3.6M	商品评论
TREC	6	5.5K	问题分类

命名实体识别（NER）

数据集	语言	说明
CoNLL-2003	英文/德文	经典 NER 基准，PER/ORG/LOC/MISC
OntoNotes 5.0	多语言	18 个实体类别，5 种文本类型
MSRA-NER	中文	微软中文命名实体识别
Weibo-NER	中文	中文社交媒体 NER
CLUENER	中文	细粒度中文 NER，10 个类别

关系抽取

数据集	类型	说明
TACRED	监督关系抽取	斯坦福关系抽取，41 类关系
DocRED	文档级关系抽取	需要跨句子推理
FewRel	小样本关系抽取	100 类关系，基于维基百科
DuIE	中文信息抽取	百度，中文关系和事件抽取

语义文本相似度（STS）

数据集	说明
STS-B	来自 SemEval，连续相似度分数（0-5）
SICK	蕴含和相似度双重标注
PAWSX	六种语言的语义相似度，句子结构相似但含义不同
STS-ZH	中文语义文本相似度

自然语言生成

即NLG

机器翻译

基准	语言对	常用指标	说明
WMT	多语言对	BLEU, COMET, ChrF++	年度机器翻译竞赛基准
FLORES-200	200 种语言	BLEU, CHRF	Meta 多语言翻译基准
CCMatrix	多语言对	-	大规模平行语料
NIST	EN-ZH 等	NIST score	政府文档翻译

COMET 指标：基于预训练模型（XLM-R）评估翻译质量，与人类判断相关性远高于 BLEU。COMET-22 是目前最常用的翻译质量评估指标。

文本摘要

数据集	来源	类型	摘要类型
CNN/DailyMail	新闻	单文档	抽取+生成混合
XSum	BBC	单文档	高度抽象摘要
Multi-News	多新闻源	多文档	跨文档摘要
BIGPATENT	专利文件	单文档	技术摘要
arXiv/PubMed	学术论文	单文档	长文档摘要
LCSTS	中文微博	单文档	中文短文摘要
CLTS	中文	长文档	中文长文档摘要

对话生成

数据集	类型	说明
DailyDialog	日常对话	31K 自然对话，带情感标注
PersonaChat	角色对话	基于角色设定的对话
Wizard of Wikipedia	知识对话	基于维基百科的知识型对话
DSTC8-9	任务型对话	任务完成型多轮对话
LCCC	中文闲聊	大规模中文对话语料
KdConv	中文知识对话	知识图谱驱动的中文多轮对话

创意写作评测

数据集/基准	说明
WritingPrompts	Reddit 创意写作提示，评测故事生成质量
EWoK	Elements of World Knowledge，评测写作中的世界知识
CreativeWritingBench	LLM 创意写作多维评测（连贯性、创意、结构）
StorySaladBench	故事生成与理解评测

数学与逻辑推理（深化）

数学推理评测全景

难度层级	数据集	代表性题目
初级（小学）	GSM8K, AddSub, MultiArith	"小明有 5 个苹果，给了 3 个..."
中级（初高中）	MATH-Algebra, MATH-Geometry	"求二次方程的根..."
高级（竞赛）	AIME, AMC, OlympiadBench	"证明对任意正整数 n..."
顶级（博士）	GPQA-Math, Putnam Problems	"设 f 为全纯函数，证明..."

数学评测的关键指标问题

数学评测中存在一个核心问题：答案格式的判断。早期 HumanEval 等使用精确字符串匹配，但 "1/2" 和 "0.5" 是同一答案。改进方向：

SymPy 等价性验证：用符号计算库判断答案等价
LaTeX 规范化：统一格式后再比较
数值近似：允许浮点误差范围
人工复核：对难题的开放形式答案人工审核

代码生成与编程

代码生成基准

数据集	年份	语言	规模	评测方式
HumanEval	2021	Python	164	pass@k，执行单元测试
MBPP	2021	Python	974	基于规范的代码生成
HumanEval+	2023	Python	164	HumanEval 的更严格测试用例版本
EvalPlus	2023	Python	464	HumanEval + MBPP 的严格版本集合
MultiPL-E	2022	多语言	18种语言	HumanEval 的多语言移植
DS-1000	2023	Python/数据科学	1000	真实数据科学任务
CodeContests	2022	多语言	10K+	Codeforces 竞赛题
APPS	2021	Python	10K	竞赛+面试题，三难度
SWE-bench	2024	Python	2294	真实 GitHub Issue 修复
SWE-bench Verified	2024	Python	500	人工验证的 SWE-bench 子集
BigCodeBench	2024	Python	1140	多库依赖的复杂代码生成
LiveCodeBench	2024	多语言	持续更新	持续从竞赛平台收集题目

HumanEval 详解：

HumanEval 是 OpenAI 发布的代码生成基准，每道题包含：

函数签名（Function Signature）
文档字符串（Docstring）描述功能
多个单元测试用例

评测指标 pass@k：

复制代码

pass@k = 1 - C(n-c, k) / C(n, k)
其中：
  n = 每道题生成的代码数量
  c = 通过测试的代码数量
  k = 从中挑选的代码数量

pass@1：生成 1 次，必须通过（最常用）
pass@10：生成 10 次，至少 1 次通过
pass@100：生成 100 次，至少 1 次通过

SWE-bench 详解：

SWE-bench 是目前最贴近真实工程能力的代码评测：

从 GitHub 收集真实的 Bug Report（Issue）
要求模型直接修改代码库来修复 Bug
用原始 PR 的测试用例验证修复是否正确
难度远超 HumanEval（早期 GPT-4 通过率仅 1.7%）
最新模型（如 Devin 2.0）通过率已达 55%+

代码理解与分析基准

数据集	类型	说明
CodeSearchNet	代码搜索	6 种语言，自然语言→代码检索
CodeXGLUE	多任务代码	微软，10 个代码相关任务
CruxEval	代码推理	给定输入/输出，推理代码行为
RepoEval	仓库级代码补全	需要理解完整代码仓库上下文
DevBench	软件开发全流程	从需求到部署的完整开发评测

特定语言代码评测

语言	数据集/基准
Java	JavaBench、Defects4J
C/C++	HumanEval-C、CWEval
JavaScript	JSBench
SQL	Spider、BIRD、Text2SQL
Bash/Shell	ShellEval、NL2Bash
Verilog/HDL	VerilogEval（硬件设计语言）

知识问答与常识推理

开放域问答

数据集	来源	规模	特点
Natural Questions	Google 搜索日志	323K	真实用户问题+维基百科答案
TriviaQA	竞猜题库	95K	事实性知识问答
WebQuestions	Freebase	5.8K	需要知识图谱辅助
PopQA	维基百科	14K	评测长尾知识（低频实体）
EntityQuestions	实体为中心	22K	测试对不同实体的知识泛化

阅读理解

即Reading Comprehension

数据集	类型	规模	特点
SQuAD 1.1	抽取式	107K	从维基百科段落抽取答案
SQuAD 2.0	抽取式+无答案	150K	引入无法回答的问题
NewsQA	抽取式	100K	基于新闻文章
QuALITY	长文档多选	6.7K	5,000+ tokens 的长文章
SCROLLS	长文档	-	7 个长文档理解任务
NarrativeQA	叙事理解	46K	需要理解整本书/电影剧本
RACE	阅读理解多选	97K	中国英语考试材料
DREAM	对话阅读理解	10K	对话文本多选
CosmosQA	叙事理解	35.6K	需要上下文推理的选择题

长上下文与文档理解

随着LLM上下文窗口从4K扩展到128K+，长上下文处理能力成为关键差异：

数据集	上下文长度	说明
SCROLLS	3K~65K	7 个任务的长文档理解集合
ZeroSCROLLS	长文档	Zero-shot 版 SCROLLS
QuALITY	5K+	长文章多选阅读理解
LongBench	平均 ~7K	中英双语长上下文理解，涵盖 6 种任务类型
LongBench v2	32K-2M	更难的长上下文评测，人工出题
RULER	4K-128K	合成测试：Needle in a Haystack 变体
InfiniteBench	100K-1M	超长上下文能力评测
L-Eval	3K-60K	长文档理解多任务评测
NIAH	可配置	Needle in a Haystack：在超长文本中找到特定句子
BABILong	1M	极超长上下文推理

RULER（Rule-Based Long Context Evaluation），目前最系统的长上下文评测框架之一：

Needle in a Haystack（NIAH）：在长文档中找到特定"针"句
Variable Tracking：追踪变量在长文档中的赋值变化
Common Words Extraction：从长文档提取最常出现的词
Aggregation：跨长文档的聚合推理
Question Answering：跨文档的多跳 QA

指令遵循

Instruction Following，是现代对话LLM最核心的能力之一：

数据集	说明
IFEval	可验证的指令遵循评测，包含格式约束（字数/关键词/格式等）
FollowBench	多约束组合指令，测试对多个同时约束的遵循能力
MT-Bench	多轮指令遵循，GPT-4 评判
Alpaca Eval	单轮指令对齐评测，Win Rate 对比
AlpacaEval 2.0	引入长度控制，减少模型"废话"带来的虚假高分
InstructEval	指令理解的细粒度分析
MTI-Bench	多轮、多约束指令遵循

IFEval，Instruction-Following Evaluation，设计思路：将指令分解为可程序化验证的约束：

格式约束：JSON/Markdown/代码块格式
长度约束：字数上下限
关键词约束：必须/禁止包含某些词
大小写约束：全大写/全小写/首字母大写
内容约束：必须包含N个句子/段落

评测指标：Prompt-Level Accuracy（所有约束全部满足）和 Instruction-Level Accuracy（单个约束满足率）。

对话与多轮交互

对话质量综合评测

基准	说明
MT-Bench（2023）	80 道精心设计的多轮问题，10 个能力类别，GPT-4 评分（1-10）
MT-Bench-101	MT-Bench 扩展版，1388 道多轮问题
Chatbot Arena	LMSYS 在线对战平台，真实用户偏好投票，ELO 排名
Arena-Hard	从 Chatbot Arena 抽取最难、最有区分度的题目
AlpacaEval	基于 252 道多样化指令，Win Rate vs. text-davinci-003

MT-Bench 的 10 个能力类别：

写作（Writing）
角色扮演（Roleplay）
推理（Reasoning）
数学（Math）
代码（Coding）
知识抽取（Extraction）
STEM
人文/社科（Humanities）
常识（Common-sense）
反事实（Counterfactual）

任务型对话

数据集	说明
MultiWOZ	多域任务型对话（酒店/餐厅/出行等），7 个域
M2M	跨语言任务型对话
TaskBench	LLM 任务规划能力评测
ABCD	客服对话评测，需要遵循操作流程
SGD	Schema-Guided Dialogue，Google，16 个服务域

安全与对齐

安全评测是 2023-2025 年增长最快的评测子领域，包含幻觉、有害内容、偏见等多个维度：

幻觉评测

数据集	类型	说明
TruthfulQA	事实幻觉	829 道"人类容易信以为真的错误答案"问题
HaluEval	幻觉分类	35K 幻觉样本，对话/QA/摘要三个维度
FactScore	传记幻觉	评测生成传记的事实准确性（按"原子事实"粒度）
FActScoring	长文幻觉	长文本的细粒度事实核查
FreshQA	时效幻觉	评测对最新事件知识的准确性
SelfCheckGPT	自一致幻觉	多次采样比较一致性来检测幻觉
RAGTruth	RAG 幻觉	专门评测 RAG 系统中的幻觉现象
HalluQA	中文幻觉	中文幻觉评测，450 道题

TruthfulQA 设计特点，题目来自已知"人类常见错误信念"：

"拿破仑比普通法国男性矮吗？"（错：他身高约 1.69m，属于平均水平）
"人类只使用 10% 的大脑吗？"（错：这是神话）
"长城能从太空看到吗？"（错：肉眼无法从低轨看到）

评测方式：

MC1：单选，选最好答案（accuracy）
MC2：多选，选所有正确答案（F1）
人类评判：Judge 评估生成回答的真实性和信息性

偏见与毒性评测

数据集	说明
BBQ	Bias Benchmark for QA，9 类社会偏见（年龄/性别/种族等）
WinoBias	性别偏见，代词指向的职业刻板印象
StereoSet	刻板印象评测，反/正刻板印象对比
BOLD	开放域生成中的偏见评测
RealToxicityPrompts	文本连续生成的毒性评测
ToxiGen	面向 13 个少数群体的隐性毒性评测
HatEval	仇恨言论检测
Dynahate	动态构建的仇恨言论数据集
CrowS-Pairs	刻板印象测量，最小对比对

越狱与对抗性安全评测

数据集/框架	说明
JailbreakBench	100 种越狱行为，统一评测框架
HarmBench	400+ 有害行为类别，标准化红队测试
WMDP	大规模杀伤性武器知识测试（评测模型是否该拒绝）
AdvBench	对抗性指令，测试安全对齐鲁棒性
SafetyBench	OpenAI Safety Policy 合规性测试
RedTeam-2K	2000 条真实红队攻击数据
StrongREJECT	评测拒绝回应的质量（不只是"是否拒绝"）
XSTest	评测过度拒绝（false positives）------不该拒绝却拒绝

WMDP（Weapons of Mass Destruction Proxy），设计思路独特：

包含生物、化学、网络安全等危险知识的多选题
分数越低越好（模型不应知道这些有害知识）
主要用于评测"遗忘训练"（Unlearning）效果

隐私评测

数据集	说明
PrivacyLens	隐私感知生成，评测模型对隐私信息的处理
CONFAIDE	社交场景中的隐私推断能力
PIIBench	PII（个人可识别信息）识别与保护

Agent 与工具调用

Web/UI Agent 评测

数据集	说明
WebArena	真实网站（Reddit/GitLab/购物网站等），812 个任务
WorkArena	ServiceNow 企业软件操作任务
WebVoyager	网页浏览+截图理解 Agent
Mind2Web	从真实网站操作记录构建，一般化 Web Agent
ScreenSpot	屏幕元素定位，GUI Grounding

工具调用/函数调用评测

数据集	说明
ToolBench	16K+ 真实 REST API，工具选择与调用评测
APIBench	73K 函数调用，API 推荐评测
ToolQA	工具辅助问答，8 种工具
BFCL	Berkeley Function Calling Leaderboard，最权威的函数调用评测
τ-bench	真实客服/工具组合场景的 Agent 评测

BFCL（Berkeley Function-Calling Leaderboard）的评测维度：

简单函数调用（单工具，明确参数）
多函数并行（同时调用多个工具）
嵌套函数调用（函数输出作为另一函数输入）
功能模拟（在用户系统中运行实际调用）
长上下文（多轮对话中的函数调用）
Java/JavaScript/REST API 多语言格式

桌面/操作系统 Agent 评测

数据集	说明
OSWorld	369 个真实计算机任务，需操作桌面应用
AgentBench	8 个不同环境（网页/购物/操作系统/代码/游戏等）
GAIA	General AI Assistant，现实世界多步骤辅助任务
AssistGUI	GUI 辅助任务，需要多步操作
Spider2-V	数据科学工作流 Agent 评测

多 Agent 协作评测

数据集	说明
AgentEval	多 Agent 系统中的任务分配与协作评测
CoEval	代码 Agent 协作评测
MAS-Bench	多智能体系统基准
CogAgent-Bench	认知 Agent 能力综合评测

多模态评测

视觉语言理解（VLM/MLLM）

数据集	任务类型	规模	说明
MMBench	综合多模态	3K	单选，20 个能力维度，GPT-4 评判
MMBench-CN	中文多模态	3K	MMBench 中文版
MMMU	大学课程多模态	11.5K	183 个子科目，需要专业知识
MMMU-Pro	更难的 MMMU	3.5K	增加视觉推理难度
MMStar	多模态精选	1.5K	过滤掉可以纯文字回答的题目
SEED-Bench	多模态理解	19K	12 个评测维度
ScienceQA	科学多模态	21K	科学题目+图表
TextVQA	图中文字理解	45K	识别图像中的文本并回答
DocVQA	文档图像理解	50K	扫描文档问答
ChartQA	图表问答	32.7K	理解各类图表数据
InfoVQA	信息图表	30K	信息图表（Infographic）问答
OCR-VQA	OCR+问答	207K	识别书籍封面信息
VQAv2	通用视觉问答	1.1M	图像问答，二义性控制
GQA	组合视觉推理	22M	基于场景图的组合推理
RefCOCO	视觉定位	19.6K	短语到图像区域的对应
AI2D	科学图表	15K	科学教育图表理解

MMBench 的 20 个能力维度：

属性识别（颜色、形状、材质、外形等）
物体定位
动作识别
物体计数
空间关系理解
场景理解
情绪识别
现象推理
时间顺序
身份判断
文字识别（OCR）
文字理解
知识增强推理
社交关系理解
异常检测
图像翻译
艺术风格识别
谚语/习语映射
跨图比较
电影/电视理解

文生图

数据集/指标	说明
GenAI-Bench	1600 个组合提示词，VQAScore 评测对齐度
T2I-CompBench	组合性文本图像生成评测，属性绑定/空间/非空间关系
DrawBench	Google 提出，200 个精心设计提示词，多维度评测
PartiPrompts	Google，1632 个提示词，多类别和难度
COCO Captions	图文对齐，CLIP Score 评测
HPSv2	人类偏好评分，专用评测模型
ImageReward	基于人类偏好训练的奖励模型评分
PickScore	CLIP 变体，图像-提示词匹配度

主要文生图自动化指标：

指标	全称	衡量维度	计算方式
FID	Fréchet Inception Distance	分布级别真实感	真实图像和生成图像的 InceptionV3 特征分布 KL 散度
IS	Inception Score	质量+多样性	生成图像的分类概率分布的熵
CLIP Score	CLIP-based similarity	文本-图像对齐	CLIP 特征余弦相似度
VQAScore	VQA-based scoring	语义对齐	视觉问答模型评估图像是否与提示对应
DINO Score	DINO 特征	风格一致性	基于 DINO 的图像特征相似度
SSIM	结构相似度	像素级相似	结构+亮度+对比度
LPIPS	感知图像相似度	感知相似度	基于 VGG/AlexNet 的感知距离

视频理解与生成

数据集	任务	说明
Video-MME	视频多模态理解	短/中/长视频，多粒度理解
MVBench	动态视频理解	20 种时序推理任务
EgoSchema	第一视角视频理解	5000 小时的 Ego4D 视频问答
ActivityNet-QA	视频动作理解	开放域视频问答
VideoBench	视频理解综合	12 个任务维度
EvalCrafter	文生视频评测	视频质量+文本对齐+动作质量
VBench	文生视频质量	16 个维度的生成质量评测
T2VQA	文生视频问答	基于问答的文生视频评测

VBench 的 16 个评测维度：

视频质量：主体一致性、背景一致性、时序闪烁、运动平滑度、动态程度、美观度
语义质量：整体一致性、文本动态绑定、空间关系、场景、颜色、外形、时序风格
多样性维度：人物动作、人物外形

多模态 Agent 评测

数据集	说明
VisualAgentBench	视觉信息驱动的 Agent 任务
GUIBench	GUI 界面理解与操作
ScreenQA	屏幕截图问答
VisualWebArena	含视觉信息的 Web Agent

语音理解与生成

随着多模态 LLM（如 GPT-4o）能够直接处理语音，语音评测成为新的重要方向：

ASR

数据集	语言	规模	说明
LibriSpeech	英文	1000h	有声书语音，最常用 ASR 基准
CommonVoice	100+ 语言	22000h	Mozilla 众包语音
AISHELL-1/2	中文	178h/1000h	中文普通话 ASR
WenetSpeech	中文	10000h+	超大规模中文语音
GigaSpeech	英文	10000h	多域英文语音
FLEURS	102 语言	-	多语言 ASR/翻译/分类

ASR 关键指标：

WER（Word Error Rate）：词错误率，越低越好
CER（Character Error Rate）：字符错误率，中文常用
MER（Match Error Rate）：混合错误率

TTS

指标/数据集	说明
MOS（Mean Opinion Score）	人工主观打分（1-5），黄金标准
UTMOS	无参考自动 MOS 预测
DNSMOS	DNS 网络噪声抑制后的 MOS 预测
WV-MOS	基于 Wav2Vec 的 MOS 预测
NISQA	非侵入语音质量评估
MUSHRA	多刺激含参考隐藏基准评测（专业人员评测）
LibriTTS	TTS 系统评测标准测试集
VCTK	多说话人 TTS 测试

TTS 评测的多维度框架：

自然度（Naturalness）：语音听起来是否自然
可懂度（Intelligibility）：语音内容是否清晰
说话人相似度（Speaker Similarity）：音色是否与目标说话人相符
韵律准确性（Prosody Accuracy）：重音、节奏、语调是否合适
情感表达（Emotion Expression）：情感是否被准确传递

语音理解（SLU）评测

数据集	任务	说明
SLURP	口语语言理解	意图识别+槽位填充
FSC	流畅语音指令	智能家居控制指令
Air-Bench	多模态 Audio-LLM	声音理解、音乐、语音
AudioBench	音频 LLM 理解	8 类音频理解任务
Speech-LLaMA Eval	端到端语音 LLM	多任务语音理解

端到端语音LLM

随着 GPT-4o、Gemini 1.5、Qwen-Audio 等模型的出现，"语音进-语音出"的评测成为新方向：

数据集	说明
VoiceBench	端到端语音 LLM 综合评测，7 个任务类别
AIR-Bench	基于音频的指令遵循评测
AudioEvals	语音问答质量
SpokenSQuAD	语音版 SQuAD
MMAU	多模态音频理解

RAG专项评测

RAG 系统的评测涉及检索和生成两个模块，各有不同指标：

检索能力评测

数据集	说明
BEIR	大规模信息检索评测，18 个域，评测检索泛化能力
MS-MARCO	微软百万问答数据集，段落排序
HotpotQA	多跳推理问答，需要检索多个文档
Natural Questions	Google 自然问题，开放域检索问答
TriviaQA	事实类问答
PopQA	长尾知识检索，测试低频实体

BEIR 的 18 个评测数据集（覆盖域）：

ArguAna：论证检索
FEVER：事实验证
Climate-FEVER：气候相关事实
DBPedia：实体检索
FiQA：金融问答
HotpotQA：多跳问答
NFCorpus：生物医学检索
NQ：自然问题
Quora：重复问题检测
SCIDOCS：科学论文检索
SciFact：科学事实验证
Signal-1M：推文检索
TREC-COVID：COVID 文献检索
Touché-2020：论证检索
TREC-NEWS：新闻检索
CQADupStack：代码问答
Robust04：新闻检索
BioASQ：生物医学问答

RAG 系统整体评测

数据集/框架	说明
RGB	RAG Benchmark，测试噪声鲁棒性、负样本拒绝等
RECALL	RAG 反事实与噪声文档的处理能力
RAGAS	框架评测，Faithfulness/Answer Relevance/Context Precision/Context Recall
ARES	自动化 RAG 评测系统，少量人工标注训练分类器
TruLens	RAG 三元组（Context Relevance/Groundedness/Answer Relevance）评测
MultiHop-RAG	多跳 RAG 系统评测
MIRAGE	医疗 RAG 评测

垂直领域

医疗健康

数据集	说明
MedQA（USMLE）	美国医师资格考试题，英文/中文/台湾繁体
MedMCQA	印度 AIIMS/NEET 医学考试题
PubMedQA	生物医学研究文献问答
BioASQ	生物医学问答与检索
CMB（中文医学）	中国医学综合能力评测，六大医学院校
CMExam	中国执业医师资格考试
DISC-MedLLM	中文医疗对话评测
HuaTuo26M	中文医疗问答语料与评测
MedicalBench	综合医疗能力评测
ClinicBench	临床决策支持评测

法律

数据集	说明
LegalBench	162 个美国法律任务，IRAC 分析框架
CUAD	商业合同条款理解，41 类重要条款
ContractNLI	合同理解 NLI
LJP（CAIL）	中国裁判文书预测，2018/2019
JEC-QA	中国法律职业资格考试
LAIX Legal	中文法律推理
FLawBench	中文法律能力综合评测

金融

数据集	说明
FinQA	财务报告数值推理
TAT-QA	表格+文字混合的财务问答
ConvFinQA	多轮财务对话推理
FiQA	金融情感+问答（信息检索用途）
FLUE	金融语言理解评测（5 个金融 NLU 任务）
FinEval	中文金融知识评测，4661 道金融专业题
DISC-FinLLM	中文金融对话与知识评测
BBF（Bloomberg）	彭博金融基准，财报摘要/情感/QA

教育

数据集	说明
KHANQ	可汗学院数学题
eedi	学生数学错误分析
EduBench	教育应用综合评测
ARC（AI2 Reasoning Challenge）	K12 科学考试，两难度级别
SciQ	科学知识 QA，有干扰项

科学研究

数据集	说明
SciEval	科学问题推理（化学/物理/生物/材料）
SciBench	大学科学课程计算题（物理/化学/数学）
ScienceQA	K-12 科学题目+图表
ChemBench	化学专项评测
MoleculeNet	分子性质预测
ProteinBench	蛋白质结构/功能预测

类别	名称	实例个数	任务个数	语言	构建方式	开源
泛化到未曾见过的任务	UnifiedQA	75万	46	英语	人工构建	是
	OIG	4300万	30	英语	人机混合	是
	UnifiedSKG	80万	-	英语	人工构建	是
	NaturalInstructions	19万	61	英语	人工构建	是
	Super-NaturalInstructions	500万	76	55种语言	人工构建	是
	P3	1200万	62	英语	人工构建	是
	xP3	8100万	53	46种语言	人工构建	是
	Flan2021	440万	62	英语	人工构建	是
	COIG	-	-	-	-	是
在单轮对话中遵循用户的指令	InstructGPT	1.3万	-	多语言	人工构建	否
	UnnaturalInstructions	24万	-	英语	InstructGPT生成	是
	Self-Instruct	5.2万	-	英语	InstructGPT生成	是
	InstructWild	10万	429	-	GPT-3模型生成	是
	Evol-Instruct	5.2万	-	英语	ChatGPT生成	是
	Alpaca	5.2万	-	英语	InstructGPT生成	是
	LogiCoT	-	2	英语	GPT-4生成	是
	Dolly	1.5万	-	英语	人工构建	是
	GPT-4-LLM	5.2万	-	中英文	GPT-4生成	是
	LIMA	1000	-	英语	人工构建	是
在多轮对话中像人类一样提供帮助	ChatGPT	-	-	多语言	人工构建	否
	Vicuna	7万	-	英语	用户共享	否
	Guanaco	534万	-	多语言	LLaMATB模型生成	是
	OpenAssistant	16万	-	多语言	人工构建	是
	Baize	111万	-	英语	ChatGPT生成	是
	UltraChat	67万	-	中英文	Transformer架构的模型生成（如GPT-3）	是

通用

通用领域知识：

ArenaHard-V2

CEval（中文通用能力评估基准）

通用推理能力：

ARC-AGI

形式化证明：MiniF2F-test

WebWalkerQA

ATP 形式推理能力：MiniF2F-test

ASR：LibriSpeech、AISHELL-1

音频理解：TUT2017、Nonspeech7k

语音到文本翻译（S2TT）：CoVost2

音频到文本对话：OpenAudioBench、VoiceBench

全模态基准测试：Omni-Bench、WorldSense

FineWeb、

SmolTalk

数学

GSM8K、MATH-500、Minerva_math、HumanEval+。

HMMT 和 AIME

代码

SWE-Bench-Verified：软件工程师能力验证基准。

Aider Polyglot：衡量模型在不同编程语言中修改或调试现有代码的能力。

LiveCodeBench：有多个版本，最新版v5，评估根据给定问题编写功能性代码的能力。

OJBench：

终端

Terminal Bench：终端命令行任务基准

Terminal Bench 2.0

指令遵循

IFEval：指令遵循评估基准

COLLIE：中文指令遵循基准

Meeseeks-zh：中文多场景指令基准

MT-Bench：

文档

PDF文档理解：Fox，GitHub，论文。

智能文档处理：Intelligent Document Processing (IDP)，评分榜，评估七个指标：

关键信息提取（Key Information Extraction，KIE）：从非结构化文档文本中提取结构化字段
视觉问答（VQA）：通过问答来评估对文档内容的理解
光学字符识别（OCR）：测量识别印刷和手写文本的准确性
文档分类：评估模型对各种文档类型进行分类的准确性
长文档处理：测试模型对冗长的、上下文丰富的文档的推理
表提取：从复杂的表格格式中提取基准结构化数据
可信度评分校准：评估模型预测的可靠性和置信度

MRCR：评估对非常长文档（128k和100万个Token）的阅读理解和信息检索能力。

PaperBench：由OpenAI发布的严格的测试平台，要求AI智能体从头独立复现20篇ICML 2024论文。包含8,316个可评分组件，使用带有分层权重的SimpleJudge进行评估。

OmniDocBench

多模态

数据集	微调方式	样本数量	任务数
MUL-TIINSTRUCT	图像-文本	每个任务需5000个至500万个样本	62
PMC-VQA	图像-文本	22.7万个样本	2
LAMM	图像-文本	18.6万个样本	9
	语言点云-文本	1万个样本	3

智能体

τ2-Bench、SWE-Bench、BFCL V3和VitaBench、

其他

GPQA 钻石：评估对物理、化学和生物学研究生级问题的理解和复杂推理

MMMU：评估理解和推理结合视觉（图像）和文本输入的能力，涵盖多个学科

Vibe-Eval（Reka）：专注于理解图像中的内容

KILT：知识密集型任务

NLP，自然语言处理

SQuAD
MS MARCO
CoNLL-2003
The Pile
WikiText-103
WMT
GLUE Benchmark

Computer Vision，计算机视觉

ImageNet
PASCAL VOC
Open Images
KITTI
COCO
Cityscapes
MNIST
CIFAR-10 & CIFAR-100

Recommendation Systems，推荐系统

Yambda-5B (Yandex)
MovieLens
Netflix Prize
Yelp Dataset
Last.fm
Criteo Click Logs
Spotify Million Playlist
Amazon Product Reviews

Tabular Data，

UCI Adult
Iris Flower
Wine Quality
Titanic Survival
UCI ML Repo
California Housing
Diabetes Dataset
Rossman Store Sales

Reinforcement Learning，强化学习

OpenAI Gym + Atari
D4RL
RL Unplugged
MineRL
Meta-World
CARLA Driving Dataset
DeepMind Control Suite
Procgen Benchmark

Multimodal Learning，多模态学习

COCO Captions
Flickr30k Entities
VQA v2.0
LAION-5B
AudioSet
HoWTo100M
Wikipedia Image-Text
MovieQA

其他

语言理解和常识推理：ARC-Easy、ARC-Challenge、HellaSwag、WinoGrande、PIQA、OpenbookQA和CommonsenseQA。
世界（多语言、多领域）知识：TruthfulQA和MMLU。
阅读理解：TriviaQA和BoolQ。

构建

高质量评测数据集的构建是评测体系的基石，主要方法如下：

人工标注

Human Annotation，标注流程：

任务定义→标注指南编写→标注者招募→标注培训→预标注测试→正式标注→质量审核→裁判仲裁→发布

标注者一致性（Inter-Annotator Agreement, IAA）：

指标	适用场景	解读
Cohen's κ	两标注者，多类别	>0.8 高度一致
Fleiss' κ	多标注者	>0.6 较好
Krippendorff's α	多标注者，多尺度	>0.667 一般采用
Percent Agreement	最简单，但不考虑偶然一致	>90% 为佳

常见质量控制措施：

控制题（Gold Standard）：混入已知答案的题目检测不认真标注者
重复采样：每个样本由3-5人独立标注
专家审核：领域专家审核有争议的样本
众包+专家混合：众包处理易题，专家处理难题

基于现有资源的自动构建

考试题库自动采集

许多权威评测数据集通过爬取公开考试题库构建：

MMLU构建方法：
1. 爬取Chegg、Course Hero等学习网站上的多选题
2. 按学科分类，过滤短题目（<100字符）
3. 去重（基于 n-gram 相似度）
4. 人工抽样验证答案准确性
5. 添加人类基线测试
C-Eval构建方法：
1. 爬取中国各类考试的真题网站（高考/考研/资格考试等）
2. 转化为标准化的多选题格式
3. 按学科分类，补充较少的学科
4. 人工验证答案，修正明显错误

挑战：

版权问题（考试题目通常有版权）
答案验证（网络上的答案可能错误）
难度分布不均匀

从NLP资源转换

SQuAD→衍生数据集：

SQuAD 2.0：在SQuAD 1.1基础上加入对抗性无法回答的问题
QNLI：将 SQuAD 转为 NLI 格式（问题+答案段落→蕴含/非蕴含）

对话数据到评测：

从真实对话日志（如 Chatbot Arena）中提取高质量的评测题目
自动化标注（弱监督）+人工验证

从知识图谱生成

CommonsenseQA构建：

从ConceptNet选取概念节点
沿关系边生成候选答案
众包工人根据候选概念写问题
筛选高质量、区分度强的问题

LLM辅助数据集构建

2023年以来最主流的数据集构建方法。

LLM生成+人工验证

Alpaca式流水线：

复制代码

Step 1：从现有数据集中选取seed样例（175个）
Step 2：用GPT-3.5/4大量扩充生成新题目。Prompt："参考以下样例，生成10个相似但不重复的指令-回答对"
Step 3：人工过滤：去除低质量、危险、重复内容
Step 4：发布

代表数据集：Alpaca、Vicuna、WizardLM、ShareGPT

问题：

质量天花板受制于生成模型（"GPT-4 的学生难超 GPT-4 老师"）
生成数据可能强化现有偏见
难以构建真正的"新知识"（模型只能重组已有信息）

Self-Instruct式流水线（改进版）：

复制代码

Step 1：少量人工编写的种子Task（约20条）
Step 2：LLM生成新Instruction
Step 3：LLM检查生成的Instruction是否新颖（ROUGE过滤重复）
Step 4：LLM生成对应Input/Output
Step 5：过滤低质量样本（置信度过滤、人工抽检）
Step 6：加入种子集，循环迭代

Evol-Instruct（WizardLM），在Alpaca基础上，通过以下变换"进化"指令：

深度变换：增加约束、替换为更难概念、增加推理步骤
广度变换：生成与原指令完全不同的新指令
多轮迭代进化

对抗性数据集构建

HellaSwag的Adversarial Filtering（AF）方法步骤：

收集正样本（真实续写）
训练一个鉴别器来区分正负样本
用语言模型生成大量候选负样本
只保留"鉴别器认为很可能是正样本"的负样本
使人类最终评测时仍能区分，但模型表面相似度高

效果：随机基线25%，但早期BERT只达到47%（后来模型才逐步超越）。

WinoGrande的AFLite：

改进版AF，使用更简单的线性分类器检测统计偏差
生成44K高质量Winograd问题

动态数据集

LiveBench 的动态构建机制，每月更新：

从当月新发表的论文、数学竞赛题、新闻中自动提取
包含每月AIME数学竞赛题（截止日期后训练的模型无法见过）
新闻知识：包含最近一个月内的时事
代码：从每月Codeforces竞赛新题中提取
所有问题有程序化验证的客观答案

Chatbot Arena 的连续更新机制：

每天数千对真实用户对话
ELO动态更新，反映最新模型能力
难以被单模型刷榜（需要始终保持高水平）

红队数据集

人工红队(Red-Teaming)，招募专业红队人员（安全研究员、黑客等）

尝试各种越狱、诱导、操纵手段
记录成功攻击的提示词
分类整理为结构化数据集
用于安全训练和评测

自动红队（Automated Red Teaming）：

攻击模型（Attacker LLM）生成攻击提示词
目标模型（Target LLM）回应
判断模型（Judge LLM）评估是否成功越狱
优化攻击策略（强化学习/进化算法）
积累有效攻击数据

代表：HarmBench（使用GCG、AutoDAN等自动攻击方法）

Anthropic提出Constitutional AI：

模型自我批评：让模型找出自己输出中违反宪法的部分
自我修正：根据批评重写输出
生成的（批评→修正）对用于监督微调

基准污染检测方法

污染检测技术

N-gram 重叠检测：

python 复制代码

def check_contamination(test_sample, train_corpus, n=13):
    test_ngrams = get_ngrams(test_sample, n)
    for doc in train_corpus:
        doc_ngrams = get_ngrams(doc, n)
        if test_ngrams & doc_ngrams:
            return True
    return False

OpenAI早期使用13-gram重叠检测。问题：改写后的题目无法检测。

Min-K% Prob方法：

选取概率最低的K%的Token
计算这些Token的平均log概率
训练数据中出现过的文本，即使最低概率Token也相对较高

Membership Inference Attack（MIA）：

判断某个样本是否出现在模型训练集中
常用方法：Loss threshold（训练集样本 loss 更低），Shadow model

防污染数据集设计策略

策略	方法	代表
时间截止	只使用训练截止日期之后的数据	LiveBench、竞赛题库
私有测试集	保留完全不公开的测试集，通过接口评测	BIG-bench Lite
程序化生成	使用模板+随机化无限生成新题	RULER、MATH变体
题目变体	语义不变，改写表达方式	SVAMP 对 GSM8K
时效性内容	包含最新事件，必须实时更新知识	FreshQA