在大模型基础之评测里概述性介绍评测相关的理论体系。本文专注于数据集:分类汇总、如何构建高质量评测数据集。
数据集
只能说学术界、科研界、工程领域(尚未涵盖生物、医药、法律等其他领域)等的数据集实在太多,只是简单汇总一些基础类别。
且本文的分类也没有大局观。
中文
CLUECorpus2020:100GB+的高质量中文文本语料,用于预训练,不直接用于评测但常作为微调基础。
C3(Chinese Crowd-sourced Comprehension Challenge):
- 混合域阅读理解,包含对话和阐述性文本
- 候选答案选项来自众包标注
- 特别设计"需要常识推理"的题目类型
中文数学评测
| 数据集 | 来源 | 规模 | 说明 |
|---|---|---|---|
| MATH-CN | MATH数据集中文版 | 12,500 | 竞赛数学翻译版 |
| CMath | 原创 | 1,000 | 小学数学应用题 |
| GaoKaoMath | 高考题 | 1,200+ | 历年高考数学真题 |
| AGIEval-Math | 高考/联考 | 2,672 | AGIEval中的数学子集 |
| CMATH | 原创 | 1,000+ | 中学数学多难度层级 |
中文知识评测
| 数据集 | 类型 | 说明 |
|---|---|---|
| CMMLU | 中文MMLU | 67个中文学科,包含中国特色知识(中医、古典文学等) |
| C-Eval | 中文综合知识 | 52个学科,13,948题,含高中/大学/专业题目 |
| KIEval | 中文知识密集型推理 | 专注需要外部知识的推理题 |
| GAOKAO-Bench | 高考题库 | 覆盖高考所有科目,2010-2023年真题 |
| AGIEval | 人类资格考试 | 中英双语,包含高考、司法考试、GRE、SAT等 |
C-Eval是截至2024年使用最广泛的中文综合知识评测数据集,由上海AI实验室发布:
- 覆盖学科:52个学科,4个难度层级(初中、高中、大学、专业资格)
- 题目形式:单选题(A/B/C/D)
- 特色学科:中医基础、注册会计师、法律职业资格、马克思主义基本原理等中国特色内容
- 评测方式:Zero-shot CoT和5-shot两种设置
- 评分指标:各学科准确率及宏平均准确率(Macro Accuracy)
C-Eval学科分类:
- STEM(理工):数学、物理、化学、生物、计算机、工程
- Humanities(人文):历史、政治、语文、哲学
- Social Science(社科):经济、法律、教育、心理
- Other(其他):医学、会计、职业资格
对比
| 对比维度 | C-Eval | CMMLU |
|---|---|---|
| 学科数量 | 52 | 67 |
| 题目数量 | ~14K | ~12K |
| 中国特色 | 中等 | 较多(中医、古汉语等) |
| 难度分布 | 明确层级 | 均匀分布 |
| 数据来源 | 网络+人工编写 | 网络收集 |
中文推理与常识评测
| 数据集 | 类型 | 说明 |
|---|---|---|
| OCNLI | 自然语言推理 | 原创(非翻译),5类关系标注 |
| CMNLI | 自然语言推理 | 中文版MultiNLI,翻译+原创混合 |
| CommonsenseQA-ZH | 常识推理 | CommonsenseQA中文版 |
| COPA-ZH | 因果推理 | COPA中文版,寻找原因/结果 |
| WinoGrande-ZH | 代词消歧 | 需要常识知识的代词指代 |
| CRASS | 反事实推理 | 中文反事实推理,"如果...会怎样" |
中文安全与对齐评测
| 数据集 | 机构 | 说明 |
|---|---|---|
| CValues | 阿里巴巴 | 中国文化价值观对齐,2个维度:安全性和责任性 |
| SafetyBench | THU/PKU | 中文安全评测,7个安全类别,11K题 |
| CHBias | 清华 | 中文社会偏见评测 |
| JADE | 原创 | 中文越狱与有害内容评测 |
| SuperCLUE-Safety | CLUE | 中文安全合规综合评测 |
| FLAMES | 上海AI | 面向中文社会价值观的细粒度安全评测 |
中文多模态评测
| 数据集 | 类型 | 说明 |
|---|---|---|
| MMBench-CN | 图文理解 | MMBench的中文版本,20个能力维度 |
| SEED-Bench-ZH | 多模态理解 | 中文多模态理解,19K题 |
| CCBench | 中国文化多模态 | 专门测试对中国文化视觉内容的理解 |
| TouchStone-ZH | 多模态对话 | 中文多模态对话评测 |
英文
MMLU
Massive Multitask Language Understanding,多任务语言理解基准。
MMLU是过去三年中被引用最多的LLM评测基准,覆盖57个学科:
学科分类:
- STEM(理工):数学、物理、化学、生物、计算机科学、工程学
- Humanities(人文):历史、哲学、法律、道德
- Social Sciences(社科):经济、心理、社会学、政治
- Other(其他):医学、营养学、专业资质考试
关键参数:
- 题目总数:~14,000道多选题(4选1)
- 难度:高中到专业资格水平
- 评测设置:0-shot、5-shot两种
- 人类基准:~89.8%(专家)
GPT-4上的表现(截至2024):
- GPT-4:86.4%(5-shot)
- Claude 3 Opus:86.8%
- Gemini Ultra:83.7%
- 中国模型最高(如DeepSeek-V3):~90%
存在问题:
- 部分题目答案有歧义,人工标注错误率约6%
- 已严重污染(大量训练数据包含MMLU题目)
- 多选题无法测试生成能力
- 不同学科之间权重不平衡(医学题目数量远多于哲学)
MMLU-Pro(2024升级版):
- 题目数量:12,032(10选1,选项更多更难)
- 增加需要推理步骤的题目
- 降低可以通过表浅模式匹配猜到的题目比例
- 人类专家基准:
~72%,GPT-4o:~72.6%
BIG-bench
Beyond the Imitation Game,谷歌等推出,集合204个多样化任务,由132个机构的研究人员贡献。
主要任务类别:
- 语言学:词法、语法、语义分析
- 常识推理:物理直觉、社会常识
- 数学:算术、代数、组合数学
- 逻辑推理:演绎、归纳、反事实
- 科学知识:物理、化学、生物
- 社会问题:道德推理、社会偏见
- 创意能力:写作、类比
- 多语言:翻译、跨语言理解
BIG-Bench Hard(BBH):从BIG-bench中筛选出23个特别难的任务,模型在这些任务上的平均分低于随机基线,用于评测CoT的效果。
| BBH任务 | 说明 |
|---|---|
| Boolean Expressions | 嵌套布尔逻辑 |
| Causal Judgment | 因果判断 |
| Date Understanding | 日期推理 |
| Disambiguation QA | 消歧问答 |
| Dyck Languages | 括号匹配语言 |
| Formal Fallacies | 形式谬误识别 |
| Geometric Shapes | 几何形状描述 |
| Hyperbaton | 语序重排 |
| Logical Deduction | 多实体逻辑推演(3/5/7 个对象) |
| Movie Recommendation | 电影推荐(偏好一致性) |
| Multistep Arithmetic | 多步算术 |
| Navigate | 方位导航 |
| Object Counting | 对象计数 |
| Penguins in a Table | 表格推理 |
| Reasoning about Colored Objects | 彩色对象推理 |
| Ruin Names | 文字游戏 |
| Salient Translation Error Detection | 翻译错误检测 |
| Snarks | 讽刺检测 |
| Sports Understanding | 体育规则推理 |
| Temporal Sequences | 时间序列推理 |
| Tracking Shuffled Objects | 多步对象追踪 |
| Web of Lies | 真假推理 |
| Word Sorting | 单词排序 |
HELM
Holistic Evaluation of Language Models缩写,斯坦福CRFM开源。核心理念是"全面性",不只看单一指标,而是从多个角度综合评估。
评测场景 (Scenarios)
- 知识问答:NaturalQuestions、TriviaQA、MMLU
- 信息检索:MS-MARCO
- 摘要生成:CNN/DM、XSUM
- 情感分析:SST-5、IMDB
- 毒性检测:CivilComments、ToxiGen
- 偏见检测:BBQ
- 推理:BoolQ、NLI、HellaSwag
评测指标 (Metrics)
- 准确率 (Accuracy)
- 校准度 (Calibration)
- 鲁棒性 (Robustness)
- 公平性 (Fairness)
- 偏见 (Bias)
- 毒性 (Toxicity)
- 效率 (Efficiency)
与其他框架的差异:
- 多维度指标:同一场景同时报告多个指标,不只有准确率
- 生态多样性:覆盖不同文本类型(新闻/书籍/论坛/维基等)
- 公平性内置:将偏见和公平性评估集成到基础框架中
- 可扩展性:持续更新(HELM Classic、HELM Lite、HELM Instruct等子版本)
推理
常识推理
| 数据集 | 年份 | 类型 | 规模 | 特点 |
|---|---|---|---|---|
| HellaSwag | 2019 | 常识句子补全 | 70K | Adversarial Filtering 构造,难度高 |
| PIQA | 2020 | 物理常识 | 21K | 日常物理操作知识 |
| SIQA | 2019 | 社交常识 | 38K | 社交情景推理(行为后果) |
| WinoGrande | 2020 | 代词消歧/常识 | 44K | Winograd Schema 大规模版 |
| CommonsenseQA | 2019 | 知识图谱驱动常识 | 12K | 基于 ConceptNet 构造 |
| OpenBookQA | 2018 | 科学常识 | 6K | 需要基础科学知识+常识 |
| ARC-Easy/Challenge | 2018 | 科学问答 | 7.7K | AI2 科学题库(四年级-八年级) |
| NumerSense | 2020 | 数值常识 | 13.6K | 数字常识填空 |
HellaSwag 使用 Adversarial Filtering 方法:
- 先从人工标注的正确续写中学习文本特征
- 然后训练一个分类器来识别"机器生成的误导性选项"
- 筛选出分类器无法识别的样本(即对模型最难的题)
使得HellaSwag的错误选项非常"看起来合理",但在真正理解上下文的情况下是错的。GPT-4在HellaSwag上约95.3%,已超越平均人类水平。
数学推理
| 数据集 | 年份 | 难度 | 规模 | 特点 |
|---|---|---|---|---|
| GSM8K | 2021 | 小学 | 8.5K | 小学数学应用题,需要多步推理 |
| MATH | 2021 | 高中竞赛 | 12.5K | 5级难度,含证明题 |
| AMC/AIME | - | 竞赛 | 数百 | 美国数学竞赛题 |
| AQUA-RAT | 2017 | GMAT/GRE | 100K | 代数应用题+推理过程 |
| SVAMP | 2021 | 小学 | 1K | GSM8K的对抗版,微小修改后答案变化 |
| MultiArith | 2015 | 小学 | 600 | 多步算术题 |
| MathBench | 2024 | 全层级 | 3K+ | 中文数学能力全面评测 |
| MGSM | 2023 | 多语言 | 250 | GSM8K多语言版(11种语言) |
| GPQA | 2023 | 博士级 | 448 | 生物、化学、物理博士难题 |
| OlympiadBench | 2024 | 奥赛级 | 8.5K | 中英双语奥林匹克竞赛题 |
MATH数据集分类:
- Algebra(代数)
- Counting & Probability(计数与概率)
- Geometry(几何)
- Intermediate Algebra(中级代数)
- Number Theory(数论)
- Prealgebra(初级代数)
- Precalculus(微积分预备)
GPQA(Graduate-level Google-Proof Q&A):
- 专门设计为"Google搜索无法直接找到答案"
- 需要真正的专业领域推理
- 博士生正确率约65%,GPT-4约35-50%
o1-preview达到约73%,是第一个超越博士生平均水平的模型
逻辑与形式推理
| 数据集 | 类型 | 说明 |
|---|---|---|
| LogiQA | 逻辑推理 | 中国公务员考试逻辑判断题 |
| RECLOR | 研究生入学逻辑 | GMAT/LSAT逻辑推理 |
| AR-LSAT | 法律逻辑 | LSAT分析推理题 |
| ProofWriter | 演绎推理链 | 需要多步推理的真假判断 |
| FOLIO | 一阶逻辑推理 | 基于一阶逻辑的自然语言推理 |
| Counterfactual | 反事实推理 | 已知违反事实的假设推理 |
| StrategyQA | 隐式推理 | 需要分解成子问题的是否题 |
任务类型
自然语言理解(NLU)
文本分类
| 数据集 | 类别数 | 规模 | 来源领域 |
|---|---|---|---|
| SST-2 | 2(正/负面) | 68K | 电影评论 |
| IMDb | 2 | 50K | 长电影评论 |
| AGNews | 4(科技/体育/商业/世界) | 127K | 新闻标题 |
| DBpedia | 14 | 560K | 维基百科摘要 |
| Yelp | 5 | 700K | 商户评价 |
| Amazon Reviews | 5 | 3.6M | 商品评论 |
| TREC | 6 | 5.5K | 问题分类 |
命名实体识别(NER)
| 数据集 | 语言 | 说明 |
|---|---|---|
| CoNLL-2003 | 英文/德文 | 经典 NER 基准,PER/ORG/LOC/MISC |
| OntoNotes 5.0 | 多语言 | 18 个实体类别,5 种文本类型 |
| MSRA-NER | 中文 | 微软中文命名实体识别 |
| Weibo-NER | 中文 | 中文社交媒体 NER |
| CLUENER | 中文 | 细粒度中文 NER,10 个类别 |
关系抽取
| 数据集 | 类型 | 说明 |
|---|---|---|
| TACRED | 监督关系抽取 | 斯坦福关系抽取,41 类关系 |
| DocRED | 文档级关系抽取 | 需要跨句子推理 |
| FewRel | 小样本关系抽取 | 100 类关系,基于维基百科 |
| DuIE | 中文信息抽取 | 百度,中文关系和事件抽取 |
语义文本相似度(STS)
| 数据集 | 说明 |
|---|---|
| STS-B | 来自 SemEval,连续相似度分数(0-5) |
| SICK | 蕴含和相似度双重标注 |
| PAWSX | 六种语言的语义相似度,句子结构相似但含义不同 |
| STS-ZH | 中文语义文本相似度 |
自然语言生成
即NLG
机器翻译
| 基准 | 语言对 | 常用指标 | 说明 |
|---|---|---|---|
| WMT | 多语言对 | BLEU, COMET, ChrF++ | 年度机器翻译竞赛基准 |
| FLORES-200 | 200 种语言 | BLEU, CHRF | Meta 多语言翻译基准 |
| CCMatrix | 多语言对 | - | 大规模平行语料 |
| NIST | EN-ZH 等 | NIST score | 政府文档翻译 |
COMET 指标:基于预训练模型(XLM-R)评估翻译质量,与人类判断相关性远高于 BLEU。COMET-22 是目前最常用的翻译质量评估指标。
文本摘要
| 数据集 | 来源 | 类型 | 摘要类型 |
|---|---|---|---|
| CNN/DailyMail | 新闻 | 单文档 | 抽取+生成混合 |
| XSum | BBC | 单文档 | 高度抽象摘要 |
| Multi-News | 多新闻源 | 多文档 | 跨文档摘要 |
| BIGPATENT | 专利文件 | 单文档 | 技术摘要 |
| arXiv/PubMed | 学术论文 | 单文档 | 长文档摘要 |
| LCSTS | 中文微博 | 单文档 | 中文短文摘要 |
| CLTS | 中文 | 长文档 | 中文长文档摘要 |
对话生成
| 数据集 | 类型 | 说明 |
|---|---|---|
| DailyDialog | 日常对话 | 31K 自然对话,带情感标注 |
| PersonaChat | 角色对话 | 基于角色设定的对话 |
| Wizard of Wikipedia | 知识对话 | 基于维基百科的知识型对话 |
| DSTC8-9 | 任务型对话 | 任务完成型多轮对话 |
| LCCC | 中文闲聊 | 大规模中文对话语料 |
| KdConv | 中文知识对话 | 知识图谱驱动的中文多轮对话 |
创意写作评测
| 数据集/基准 | 说明 |
|---|---|
| WritingPrompts | Reddit 创意写作提示,评测故事生成质量 |
| EWoK | Elements of World Knowledge,评测写作中的世界知识 |
| CreativeWritingBench | LLM 创意写作多维评测(连贯性、创意、结构) |
| StorySaladBench | 故事生成与理解评测 |
数学与逻辑推理(深化)
数学推理评测全景
| 难度层级 | 数据集 | 代表性题目 |
|---|---|---|
| 初级(小学) | GSM8K, AddSub, MultiArith | "小明有 5 个苹果,给了 3 个..." |
| 中级(初高中) | MATH-Algebra, MATH-Geometry | "求二次方程的根..." |
| 高级(竞赛) | AIME, AMC, OlympiadBench | "证明对任意正整数 n..." |
| 顶级(博士) | GPQA-Math, Putnam Problems | "设 f 为全纯函数,证明..." |
数学评测的关键指标问题
数学评测中存在一个核心问题:答案格式的判断。早期 HumanEval 等使用精确字符串匹配,但 "1/2" 和 "0.5" 是同一答案。改进方向:
- SymPy 等价性验证:用符号计算库判断答案等价
- LaTeX 规范化:统一格式后再比较
- 数值近似:允许浮点误差范围
- 人工复核:对难题的开放形式答案人工审核
代码生成与编程
代码生成基准
| 数据集 | 年份 | 语言 | 规模 | 评测方式 |
|---|---|---|---|---|
| HumanEval | 2021 | Python | 164 | pass@k,执行单元测试 |
| MBPP | 2021 | Python | 974 | 基于规范的代码生成 |
| HumanEval+ | 2023 | Python | 164 | HumanEval 的更严格测试用例版本 |
| EvalPlus | 2023 | Python | 464 | HumanEval + MBPP 的严格版本集合 |
| MultiPL-E | 2022 | 多语言 | 18种语言 | HumanEval 的多语言移植 |
| DS-1000 | 2023 | Python/数据科学 | 1000 | 真实数据科学任务 |
| CodeContests | 2022 | 多语言 | 10K+ | Codeforces 竞赛题 |
| APPS | 2021 | Python | 10K | 竞赛+面试题,三难度 |
| SWE-bench | 2024 | Python | 2294 | 真实 GitHub Issue 修复 |
| SWE-bench Verified | 2024 | Python | 500 | 人工验证的 SWE-bench 子集 |
| BigCodeBench | 2024 | Python | 1140 | 多库依赖的复杂代码生成 |
| LiveCodeBench | 2024 | 多语言 | 持续更新 | 持续从竞赛平台收集题目 |
HumanEval 详解:
HumanEval 是 OpenAI 发布的代码生成基准,每道题包含:
- 函数签名(Function Signature)
- 文档字符串(Docstring)描述功能
- 多个单元测试用例
评测指标 pass@k:
pass@k = 1 - C(n-c, k) / C(n, k)
其中:
n = 每道题生成的代码数量
c = 通过测试的代码数量
k = 从中挑选的代码数量
- pass@1:生成 1 次,必须通过(最常用)
- pass@10:生成 10 次,至少 1 次通过
- pass@100:生成 100 次,至少 1 次通过
SWE-bench 详解:
SWE-bench 是目前最贴近真实工程能力的代码评测:
- 从 GitHub 收集真实的 Bug Report(Issue)
- 要求模型直接修改代码库来修复 Bug
- 用原始 PR 的测试用例验证修复是否正确
- 难度远超 HumanEval(早期 GPT-4 通过率仅 1.7%)
- 最新模型(如 Devin 2.0)通过率已达 55%+
代码理解与分析基准
| 数据集 | 类型 | 说明 |
|---|---|---|
| CodeSearchNet | 代码搜索 | 6 种语言,自然语言→代码检索 |
| CodeXGLUE | 多任务代码 | 微软,10 个代码相关任务 |
| CruxEval | 代码推理 | 给定输入/输出,推理代码行为 |
| RepoEval | 仓库级代码补全 | 需要理解完整代码仓库上下文 |
| DevBench | 软件开发全流程 | 从需求到部署的完整开发评测 |
特定语言代码评测
| 语言 | 数据集/基准 |
|---|---|
| Java | JavaBench、Defects4J |
| C/C++ | HumanEval-C、CWEval |
| JavaScript | JSBench |
| SQL | Spider、BIRD、Text2SQL |
| Bash/Shell | ShellEval、NL2Bash |
| Verilog/HDL | VerilogEval(硬件设计语言) |
知识问答与常识推理
开放域问答
| 数据集 | 来源 | 规模 | 特点 |
|---|---|---|---|
| Natural Questions | Google 搜索日志 | 323K | 真实用户问题+维基百科答案 |
| TriviaQA | 竞猜题库 | 95K | 事实性知识问答 |
| WebQuestions | Freebase | 5.8K | 需要知识图谱辅助 |
| PopQA | 维基百科 | 14K | 评测长尾知识(低频实体) |
| EntityQuestions | 实体为中心 | 22K | 测试对不同实体的知识泛化 |
阅读理解
即Reading Comprehension
| 数据集 | 类型 | 规模 | 特点 |
|---|---|---|---|
| SQuAD 1.1 | 抽取式 | 107K | 从维基百科段落抽取答案 |
| SQuAD 2.0 | 抽取式+无答案 | 150K | 引入无法回答的问题 |
| NewsQA | 抽取式 | 100K | 基于新闻文章 |
| QuALITY | 长文档多选 | 6.7K | 5,000+ tokens 的长文章 |
| SCROLLS | 长文档 | - | 7 个长文档理解任务 |
| NarrativeQA | 叙事理解 | 46K | 需要理解整本书/电影剧本 |
| RACE | 阅读理解多选 | 97K | 中国英语考试材料 |
| DREAM | 对话阅读理解 | 10K | 对话文本多选 |
| CosmosQA | 叙事理解 | 35.6K | 需要上下文推理的选择题 |
长上下文与文档理解
随着LLM上下文窗口从4K扩展到128K+,长上下文处理能力成为关键差异:
| 数据集 | 上下文长度 | 说明 |
|---|---|---|
| SCROLLS | 3K~65K | 7 个任务的长文档理解集合 |
| ZeroSCROLLS | 长文档 | Zero-shot 版 SCROLLS |
| QuALITY | 5K+ | 长文章多选阅读理解 |
| LongBench | 平均 ~7K | 中英双语长上下文理解,涵盖 6 种任务类型 |
| LongBench v2 | 32K-2M | 更难的长上下文评测,人工出题 |
| RULER | 4K-128K | 合成测试:Needle in a Haystack 变体 |
| InfiniteBench | 100K-1M | 超长上下文能力评测 |
| L-Eval | 3K-60K | 长文档理解多任务评测 |
| NIAH | 可配置 | Needle in a Haystack:在超长文本中找到特定句子 |
| BABILong | 1M | 极超长上下文推理 |
RULER(Rule-Based Long Context Evaluation),目前最系统的长上下文评测框架之一:
- Needle in a Haystack(NIAH):在长文档中找到特定"针"句
- Variable Tracking:追踪变量在长文档中的赋值变化
- Common Words Extraction:从长文档提取最常出现的词
- Aggregation:跨长文档的聚合推理
- Question Answering:跨文档的多跳 QA
指令遵循
Instruction Following,是现代对话LLM最核心的能力之一:
| 数据集 | 说明 |
|---|---|
| IFEval | 可验证的指令遵循评测,包含格式约束(字数/关键词/格式等) |
| FollowBench | 多约束组合指令,测试对多个同时约束的遵循能力 |
| MT-Bench | 多轮指令遵循,GPT-4 评判 |
| Alpaca Eval | 单轮指令对齐评测,Win Rate 对比 |
| AlpacaEval 2.0 | 引入长度控制,减少模型"废话"带来的虚假高分 |
| InstructEval | 指令理解的细粒度分析 |
| MTI-Bench | 多轮、多约束指令遵循 |
IFEval,Instruction-Following Evaluation,设计思路:将指令分解为可程序化验证的约束:
- 格式约束:JSON/Markdown/代码块格式
- 长度约束:字数上下限
- 关键词约束:必须/禁止包含某些词
- 大小写约束:全大写/全小写/首字母大写
- 内容约束:必须包含N个句子/段落
评测指标:Prompt-Level Accuracy(所有约束全部满足)和 Instruction-Level Accuracy(单个约束满足率)。
对话与多轮交互
对话质量综合评测
| 基准 | 说明 |
|---|---|
| MT-Bench(2023) | 80 道精心设计的多轮问题,10 个能力类别,GPT-4 评分(1-10) |
| MT-Bench-101 | MT-Bench 扩展版,1388 道多轮问题 |
| Chatbot Arena | LMSYS 在线对战平台,真实用户偏好投票,ELO 排名 |
| Arena-Hard | 从 Chatbot Arena 抽取最难、最有区分度的题目 |
| AlpacaEval | 基于 252 道多样化指令,Win Rate vs. text-davinci-003 |
MT-Bench 的 10 个能力类别:
- 写作(Writing)
- 角色扮演(Roleplay)
- 推理(Reasoning)
- 数学(Math)
- 代码(Coding)
- 知识抽取(Extraction)
- STEM
- 人文/社科(Humanities)
- 常识(Common-sense)
- 反事实(Counterfactual)
任务型对话
| 数据集 | 说明 |
|---|---|
| MultiWOZ | 多域任务型对话(酒店/餐厅/出行等),7 个域 |
| M2M | 跨语言任务型对话 |
| TaskBench | LLM 任务规划能力评测 |
| ABCD | 客服对话评测,需要遵循操作流程 |
| SGD | Schema-Guided Dialogue,Google,16 个服务域 |
安全与对齐
安全评测是 2023-2025 年增长最快的评测子领域,包含幻觉、有害内容、偏见等多个维度:
幻觉评测
| 数据集 | 类型 | 说明 |
|---|---|---|
| TruthfulQA | 事实幻觉 | 829 道"人类容易信以为真的错误答案"问题 |
| HaluEval | 幻觉分类 | 35K 幻觉样本,对话/QA/摘要三个维度 |
| FactScore | 传记幻觉 | 评测生成传记的事实准确性(按"原子事实"粒度) |
| FActScoring | 长文幻觉 | 长文本的细粒度事实核查 |
| FreshQA | 时效幻觉 | 评测对最新事件知识的准确性 |
| SelfCheckGPT | 自一致幻觉 | 多次采样比较一致性来检测幻觉 |
| RAGTruth | RAG 幻觉 | 专门评测 RAG 系统中的幻觉现象 |
| HalluQA | 中文幻觉 | 中文幻觉评测,450 道题 |
TruthfulQA 设计特点,题目来自已知"人类常见错误信念":
- "拿破仑比普通法国男性矮吗?"(错:他身高约 1.69m,属于平均水平)
- "人类只使用 10% 的大脑吗?"(错:这是神话)
- "长城能从太空看到吗?"(错:肉眼无法从低轨看到)
评测方式:
- MC1:单选,选最好答案(accuracy)
- MC2:多选,选所有正确答案(F1)
- 人类评判:Judge 评估生成回答的真实性和信息性
偏见与毒性评测
| 数据集 | 说明 |
|---|---|
| BBQ | Bias Benchmark for QA,9 类社会偏见(年龄/性别/种族等) |
| WinoBias | 性别偏见,代词指向的职业刻板印象 |
| StereoSet | 刻板印象评测,反/正刻板印象对比 |
| BOLD | 开放域生成中的偏见评测 |
| RealToxicityPrompts | 文本连续生成的毒性评测 |
| ToxiGen | 面向 13 个少数群体的隐性毒性评测 |
| HatEval | 仇恨言论检测 |
| Dynahate | 动态构建的仇恨言论数据集 |
| CrowS-Pairs | 刻板印象测量,最小对比对 |
越狱与对抗性安全评测
| 数据集/框架 | 说明 |
|---|---|
| JailbreakBench | 100 种越狱行为,统一评测框架 |
| HarmBench | 400+ 有害行为类别,标准化红队测试 |
| WMDP | 大规模杀伤性武器知识测试(评测模型是否该拒绝) |
| AdvBench | 对抗性指令,测试安全对齐鲁棒性 |
| SafetyBench | OpenAI Safety Policy 合规性测试 |
| RedTeam-2K | 2000 条真实红队攻击数据 |
| StrongREJECT | 评测拒绝回应的质量(不只是"是否拒绝") |
| XSTest | 评测过度拒绝(false positives)------不该拒绝却拒绝 |
WMDP(Weapons of Mass Destruction Proxy),设计思路独特:
- 包含生物、化学、网络安全等危险知识的多选题
- 分数越低越好(模型不应知道这些有害知识)
- 主要用于评测"遗忘训练"(Unlearning)效果
隐私评测
| 数据集 | 说明 |
|---|---|
| PrivacyLens | 隐私感知生成,评测模型对隐私信息的处理 |
| CONFAIDE | 社交场景中的隐私推断能力 |
| PIIBench | PII(个人可识别信息)识别与保护 |
Agent 与工具调用
Web/UI Agent 评测
| 数据集 | 说明 |
|---|---|
| WebArena | 真实网站(Reddit/GitLab/购物网站等),812 个任务 |
| WorkArena | ServiceNow 企业软件操作任务 |
| WebVoyager | 网页浏览+截图理解 Agent |
| Mind2Web | 从真实网站操作记录构建,一般化 Web Agent |
| ScreenSpot | 屏幕元素定位,GUI Grounding |
工具调用/函数调用评测
| 数据集 | 说明 |
|---|---|
| ToolBench | 16K+ 真实 REST API,工具选择与调用评测 |
| APIBench | 73K 函数调用,API 推荐评测 |
| ToolQA | 工具辅助问答,8 种工具 |
| BFCL | Berkeley Function Calling Leaderboard,最权威的函数调用评测 |
| τ-bench | 真实客服/工具组合场景的 Agent 评测 |
BFCL(Berkeley Function-Calling Leaderboard)的评测维度:
- 简单函数调用(单工具,明确参数)
- 多函数并行(同时调用多个工具)
- 嵌套函数调用(函数输出作为另一函数输入)
- 功能模拟(在用户系统中运行实际调用)
- 长上下文(多轮对话中的函数调用)
- Java/JavaScript/REST API 多语言格式
桌面/操作系统 Agent 评测
| 数据集 | 说明 |
|---|---|
| OSWorld | 369 个真实计算机任务,需操作桌面应用 |
| AgentBench | 8 个不同环境(网页/购物/操作系统/代码/游戏等) |
| GAIA | General AI Assistant,现实世界多步骤辅助任务 |
| AssistGUI | GUI 辅助任务,需要多步操作 |
| Spider2-V | 数据科学工作流 Agent 评测 |
多 Agent 协作评测
| 数据集 | 说明 |
|---|---|
| AgentEval | 多 Agent 系统中的任务分配与协作评测 |
| CoEval | 代码 Agent 协作评测 |
| MAS-Bench | 多智能体系统基准 |
| CogAgent-Bench | 认知 Agent 能力综合评测 |
多模态评测
视觉语言理解(VLM/MLLM)
| 数据集 | 任务类型 | 规模 | 说明 |
|---|---|---|---|
| MMBench | 综合多模态 | 3K | 单选,20 个能力维度,GPT-4 评判 |
| MMBench-CN | 中文多模态 | 3K | MMBench 中文版 |
| MMMU | 大学课程多模态 | 11.5K | 183 个子科目,需要专业知识 |
| MMMU-Pro | 更难的 MMMU | 3.5K | 增加视觉推理难度 |
| MMStar | 多模态精选 | 1.5K | 过滤掉可以纯文字回答的题目 |
| SEED-Bench | 多模态理解 | 19K | 12 个评测维度 |
| ScienceQA | 科学多模态 | 21K | 科学题目+图表 |
| TextVQA | 图中文字理解 | 45K | 识别图像中的文本并回答 |
| DocVQA | 文档图像理解 | 50K | 扫描文档问答 |
| ChartQA | 图表问答 | 32.7K | 理解各类图表数据 |
| InfoVQA | 信息图表 | 30K | 信息图表(Infographic)问答 |
| OCR-VQA | OCR+问答 | 207K | 识别书籍封面信息 |
| VQAv2 | 通用视觉问答 | 1.1M | 图像问答,二义性控制 |
| GQA | 组合视觉推理 | 22M | 基于场景图的组合推理 |
| RefCOCO | 视觉定位 | 19.6K | 短语到图像区域的对应 |
| AI2D | 科学图表 | 15K | 科学教育图表理解 |
MMBench 的 20 个能力维度:
- 属性识别(颜色、形状、材质、外形等)
- 物体定位
- 动作识别
- 物体计数
- 空间关系理解
- 场景理解
- 情绪识别
- 现象推理
- 时间顺序
- 身份判断
- 文字识别(OCR)
- 文字理解
- 知识增强推理
- 社交关系理解
- 异常检测
- 图像翻译
- 艺术风格识别
- 谚语/习语映射
- 跨图比较
- 电影/电视理解
文生图
| 数据集/指标 | 说明 |
|---|---|
| GenAI-Bench | 1600 个组合提示词,VQAScore 评测对齐度 |
| T2I-CompBench | 组合性文本图像生成评测,属性绑定/空间/非空间关系 |
| DrawBench | Google 提出,200 个精心设计提示词,多维度评测 |
| PartiPrompts | Google,1632 个提示词,多类别和难度 |
| COCO Captions | 图文对齐,CLIP Score 评测 |
| HPSv2 | 人类偏好评分,专用评测模型 |
| ImageReward | 基于人类偏好训练的奖励模型评分 |
| PickScore | CLIP 变体,图像-提示词匹配度 |
主要文生图自动化指标:
| 指标 | 全称 | 衡量维度 | 计算方式 |
|---|---|---|---|
| FID | Fréchet Inception Distance | 分布级别真实感 | 真实图像和生成图像的 InceptionV3 特征分布 KL 散度 |
| IS | Inception Score | 质量+多样性 | 生成图像的分类概率分布的熵 |
| CLIP Score | CLIP-based similarity | 文本-图像对齐 | CLIP 特征余弦相似度 |
| VQAScore | VQA-based scoring | 语义对齐 | 视觉问答模型评估图像是否与提示对应 |
| DINO Score | DINO 特征 | 风格一致性 | 基于 DINO 的图像特征相似度 |
| SSIM | 结构相似度 | 像素级相似 | 结构+亮度+对比度 |
| LPIPS | 感知图像相似度 | 感知相似度 | 基于 VGG/AlexNet 的感知距离 |
视频理解与生成
| 数据集 | 任务 | 说明 |
|---|---|---|
| Video-MME | 视频多模态理解 | 短/中/长视频,多粒度理解 |
| MVBench | 动态视频理解 | 20 种时序推理任务 |
| EgoSchema | 第一视角视频理解 | 5000 小时的 Ego4D 视频问答 |
| ActivityNet-QA | 视频动作理解 | 开放域视频问答 |
| VideoBench | 视频理解综合 | 12 个任务维度 |
| EvalCrafter | 文生视频评测 | 视频质量+文本对齐+动作质量 |
| VBench | 文生视频质量 | 16 个维度的生成质量评测 |
| T2VQA | 文生视频问答 | 基于问答的文生视频评测 |
VBench 的 16 个评测维度:
- 视频质量:主体一致性、背景一致性、时序闪烁、运动平滑度、动态程度、美观度
- 语义质量:整体一致性、文本动态绑定、空间关系、场景、颜色、外形、时序风格
- 多样性维度:人物动作、人物外形
多模态 Agent 评测
| 数据集 | 说明 |
|---|---|
| VisualAgentBench | 视觉信息驱动的 Agent 任务 |
| GUIBench | GUI 界面理解与操作 |
| ScreenQA | 屏幕截图问答 |
| VisualWebArena | 含视觉信息的 Web Agent |
语音理解与生成
随着多模态 LLM(如 GPT-4o)能够直接处理语音,语音评测成为新的重要方向:
ASR
| 数据集 | 语言 | 规模 | 说明 |
|---|---|---|---|
| LibriSpeech | 英文 | 1000h | 有声书语音,最常用 ASR 基准 |
| CommonVoice | 100+ 语言 | 22000h | Mozilla 众包语音 |
| AISHELL-1/2 | 中文 | 178h/1000h | 中文普通话 ASR |
| WenetSpeech | 中文 | 10000h+ | 超大规模中文语音 |
| GigaSpeech | 英文 | 10000h | 多域英文语音 |
| FLEURS | 102 语言 | - | 多语言 ASR/翻译/分类 |
ASR 关键指标:
- WER(Word Error Rate):词错误率,越低越好
- CER(Character Error Rate):字符错误率,中文常用
- MER(Match Error Rate):混合错误率
TTS
| 指标/数据集 | 说明 |
|---|---|
| MOS(Mean Opinion Score) | 人工主观打分(1-5),黄金标准 |
| UTMOS | 无参考自动 MOS 预测 |
| DNSMOS | DNS 网络噪声抑制后的 MOS 预测 |
| WV-MOS | 基于 Wav2Vec 的 MOS 预测 |
| NISQA | 非侵入语音质量评估 |
| MUSHRA | 多刺激含参考隐藏基准评测(专业人员评测) |
| LibriTTS | TTS 系统评测标准测试集 |
| VCTK | 多说话人 TTS 测试 |
TTS 评测的多维度框架:
- 自然度(Naturalness):语音听起来是否自然
- 可懂度(Intelligibility):语音内容是否清晰
- 说话人相似度(Speaker Similarity):音色是否与目标说话人相符
- 韵律准确性(Prosody Accuracy):重音、节奏、语调是否合适
- 情感表达(Emotion Expression):情感是否被准确传递
语音理解(SLU)评测
| 数据集 | 任务 | 说明 |
|---|---|---|
| SLURP | 口语语言理解 | 意图识别+槽位填充 |
| FSC | 流畅语音指令 | 智能家居控制指令 |
| Air-Bench | 多模态 Audio-LLM | 声音理解、音乐、语音 |
| AudioBench | 音频 LLM 理解 | 8 类音频理解任务 |
| Speech-LLaMA Eval | 端到端语音 LLM | 多任务语音理解 |
端到端语音LLM
随着 GPT-4o、Gemini 1.5、Qwen-Audio 等模型的出现,"语音进-语音出"的评测成为新方向:
| 数据集 | 说明 |
|---|---|
| VoiceBench | 端到端语音 LLM 综合评测,7 个任务类别 |
| AIR-Bench | 基于音频的指令遵循评测 |
| AudioEvals | 语音问答质量 |
| SpokenSQuAD | 语音版 SQuAD |
| MMAU | 多模态音频理解 |
RAG专项评测
RAG 系统的评测涉及检索和生成两个模块,各有不同指标:
检索能力评测
| 数据集 | 说明 |
|---|---|
| BEIR | 大规模信息检索评测,18 个域,评测检索泛化能力 |
| MS-MARCO | 微软百万问答数据集,段落排序 |
| HotpotQA | 多跳推理问答,需要检索多个文档 |
| Natural Questions | Google 自然问题,开放域检索问答 |
| TriviaQA | 事实类问答 |
| PopQA | 长尾知识检索,测试低频实体 |
BEIR 的 18 个评测数据集(覆盖域):
- ArguAna:论证检索
- FEVER:事实验证
- Climate-FEVER:气候相关事实
- DBPedia:实体检索
- FiQA:金融问答
- HotpotQA:多跳问答
- NFCorpus:生物医学检索
- NQ:自然问题
- Quora:重复问题检测
- SCIDOCS:科学论文检索
- SciFact:科学事实验证
- Signal-1M:推文检索
- TREC-COVID:COVID 文献检索
- Touché-2020:论证检索
- TREC-NEWS:新闻检索
- CQADupStack:代码问答
- Robust04:新闻检索
- BioASQ:生物医学问答
RAG 系统整体评测
| 数据集/框架 | 说明 |
|---|---|
| RGB | RAG Benchmark,测试噪声鲁棒性、负样本拒绝等 |
| RECALL | RAG 反事实与噪声文档的处理能力 |
| RAGAS | 框架评测,Faithfulness/Answer Relevance/Context Precision/Context Recall |
| ARES | 自动化 RAG 评测系统,少量人工标注训练分类器 |
| TruLens | RAG 三元组(Context Relevance/Groundedness/Answer Relevance)评测 |
| MultiHop-RAG | 多跳 RAG 系统评测 |
| MIRAGE | 医疗 RAG 评测 |
垂直领域
医疗健康
| 数据集 | 说明 |
|---|---|
| MedQA(USMLE) | 美国医师资格考试题,英文/中文/台湾繁体 |
| MedMCQA | 印度 AIIMS/NEET 医学考试题 |
| PubMedQA | 生物医学研究文献问答 |
| BioASQ | 生物医学问答与检索 |
| CMB(中文医学) | 中国医学综合能力评测,六大医学院校 |
| CMExam | 中国执业医师资格考试 |
| DISC-MedLLM | 中文医疗对话评测 |
| HuaTuo26M | 中文医疗问答语料与评测 |
| MedicalBench | 综合医疗能力评测 |
| ClinicBench | 临床决策支持评测 |
法律
| 数据集 | 说明 |
|---|---|
| LegalBench | 162 个美国法律任务,IRAC 分析框架 |
| CUAD | 商业合同条款理解,41 类重要条款 |
| ContractNLI | 合同理解 NLI |
| LJP(CAIL) | 中国裁判文书预测,2018/2019 |
| JEC-QA | 中国法律职业资格考试 |
| LAIX Legal | 中文法律推理 |
| FLawBench | 中文法律能力综合评测 |
金融
| 数据集 | 说明 |
|---|---|
| FinQA | 财务报告数值推理 |
| TAT-QA | 表格+文字混合的财务问答 |
| ConvFinQA | 多轮财务对话推理 |
| FiQA | 金融情感+问答(信息检索用途) |
| FLUE | 金融语言理解评测(5 个金融 NLU 任务) |
| FinEval | 中文金融知识评测,4661 道金融专业题 |
| DISC-FinLLM | 中文金融对话与知识评测 |
| BBF(Bloomberg) | 彭博金融基准,财报摘要/情感/QA |
教育
| 数据集 | 说明 |
|---|---|
| KHANQ | 可汗学院数学题 |
| eedi | 学生数学错误分析 |
| EduBench | 教育应用综合评测 |
| ARC(AI2 Reasoning Challenge) | K12 科学考试,两难度级别 |
| SciQ | 科学知识 QA,有干扰项 |
科学研究
| 数据集 | 说明 |
|---|---|
| SciEval | 科学问题推理(化学/物理/生物/材料) |
| SciBench | 大学科学课程计算题(物理/化学/数学) |
| ScienceQA | K-12 科学题目+图表 |
| ChemBench | 化学专项评测 |
| MoleculeNet | 分子性质预测 |
| ProteinBench | 蛋白质结构/功能预测 |
| 类别 | 名称 | 实例个数 | 任务个数 | 语言 | 构建方式 | 开源 |
|---|---|---|---|---|---|---|
| 泛化到未曾见过的任务 | UnifiedQA | 75万 | 46 | 英语 | 人工构建 | 是 |
| OIG | 4300万 | 30 | 英语 | 人机混合 | 是 | |
| UnifiedSKG | 80万 | - | 英语 | 人工构建 | 是 | |
| NaturalInstructions | 19万 | 61 | 英语 | 人工构建 | 是 | |
| Super-NaturalInstructions | 500万 | 76 | 55种语言 | 人工构建 | 是 | |
| P3 | 1200万 | 62 | 英语 | 人工构建 | 是 | |
| xP3 | 8100万 | 53 | 46种语言 | 人工构建 | 是 | |
| Flan2021 | 440万 | 62 | 英语 | 人工构建 | 是 | |
| COIG | - | - | - | - | 是 | |
| 在单轮对话中遵循用户的指令 | InstructGPT | 1.3万 | - | 多语言 | 人工构建 | 否 |
| UnnaturalInstructions | 24万 | - | 英语 | InstructGPT生成 | 是 | |
| Self-Instruct | 5.2万 | - | 英语 | InstructGPT生成 | 是 | |
| InstructWild | 10万 | 429 | - | GPT-3模型生成 | 是 | |
| Evol-Instruct | 5.2万 | - | 英语 | ChatGPT生成 | 是 | |
| Alpaca | 5.2万 | - | 英语 | InstructGPT生成 | 是 | |
| LogiCoT | - | 2 | 英语 | GPT-4生成 | 是 | |
| Dolly | 1.5万 | - | 英语 | 人工构建 | 是 | |
| GPT-4-LLM | 5.2万 | - | 中英文 | GPT-4生成 | 是 | |
| LIMA | 1000 | - | 英语 | 人工构建 | 是 | |
| 在多轮对话中像人类一样提供帮助 | ChatGPT | - | - | 多语言 | 人工构建 | 否 |
| Vicuna | 7万 | - | 英语 | 用户共享 | 否 | |
| Guanaco | 534万 | - | 多语言 | LLaMATB模型生成 | 是 | |
| OpenAssistant | 16万 | - | 多语言 | 人工构建 | 是 | |
| Baize | 111万 | - | 英语 | ChatGPT生成 | 是 | |
| UltraChat | 67万 | - | 中英文 | Transformer架构的模型生成(如GPT-3) | 是 |
通用
通用领域知识:
ArenaHard-V2
CEval(中文通用能力评估基准)
通用推理能力:
ARC-AGI
形式化证明:MiniF2F-test
WebWalkerQA
ATP 形式推理能力:MiniF2F-test
ASR:LibriSpeech、AISHELL-1
音频理解:TUT2017、Nonspeech7k
语音到文本翻译(S2TT):CoVost2
音频到文本对话:OpenAudioBench、VoiceBench
全模态基准测试:Omni-Bench、WorldSense
FineWeb、
SmolTalk
数学
GSM8K、MATH-500、Minerva_math、HumanEval+。
HMMT 和 AIME
代码
SWE-Bench-Verified:软件工程师能力验证基准。
Aider Polyglot:衡量模型在不同编程语言中修改或调试现有代码的能力。
LiveCodeBench:有多个版本,最新版v5,评估根据给定问题编写功能性代码的能力。
OJBench:
终端
Terminal Bench:终端命令行任务基准
Terminal Bench 2.0
指令遵循
IFEval:指令遵循评估基准
COLLIE:中文指令遵循基准
Meeseeks-zh:中文多场景指令基准
MT-Bench:
文档
智能文档处理:Intelligent Document Processing (IDP),评分榜,评估七个指标:
- 关键信息提取(Key Information Extraction,KIE):从非结构化文档文本中提取结构化字段
- 视觉问答(VQA):通过问答来评估对文档内容的理解
- 光学字符识别(OCR):测量识别印刷和手写文本的准确性
- 文档分类:评估模型对各种文档类型进行分类的准确性
- 长文档处理:测试模型对冗长的、上下文丰富的文档的推理
- 表提取:从复杂的表格格式中提取基准结构化数据
- 可信度评分校准:评估模型预测的可靠性和置信度
MRCR:评估对非常长文档(128k和100万个Token)的阅读理解和信息检索能力。
PaperBench:由OpenAI发布的严格的测试平台,要求AI智能体从头独立复现20篇ICML 2024论文。包含8,316个可评分组件,使用带有分层权重的SimpleJudge进行评估。
OmniDocBench
多模态
| 数据集 | 微调方式 | 样本数量 | 任务数 |
|---|---|---|---|
| MUL-TIINSTRUCT | 图像-文本 | 每个任务需5000个至500万个样本 | 62 |
| PMC-VQA | 图像-文本 | 22.7万个样本 | 2 |
| LAMM | 图像-文本 | 18.6万个样本 | 9 |
| 语言点云-文本 | 1万个样本 | 3 |
智能体
τ2-Bench、SWE-Bench、BFCL V3和VitaBench、
其他
GPQA 钻石:评估对物理、化学和生物学研究生级问题的理解和复杂推理
MMMU:评估理解和推理结合视觉(图像)和文本输入的能力,涵盖多个学科
Vibe-Eval(Reka):专注于理解图像中的内容
KILT:知识密集型任务
NLP,自然语言处理
- SQuAD
- MS MARCO
- CoNLL-2003
- The Pile
- WikiText-103
- WMT
- GLUE Benchmark
Computer Vision,计算机视觉
- ImageNet
- PASCAL VOC
- Open Images
- KITTI
- COCO
- Cityscapes
- MNIST
- CIFAR-10 & CIFAR-100
Recommendation Systems,推荐系统
- Yambda-5B (Yandex)
- MovieLens
- Netflix Prize
- Yelp Dataset
- Last.fm
- Criteo Click Logs
- Spotify Million Playlist
- Amazon Product Reviews
Tabular Data,
- UCI Adult
- Iris Flower
- Wine Quality
- Titanic Survival
- UCI ML Repo
- California Housing
- Diabetes Dataset
- Rossman Store Sales
Reinforcement Learning,强化学习
- OpenAI Gym + Atari
- D4RL
- RL Unplugged
- MineRL
- Meta-World
- CARLA Driving Dataset
- DeepMind Control Suite
- Procgen Benchmark
Multimodal Learning,多模态学习
- COCO Captions
- Flickr30k Entities
- VQA v2.0
- LAION-5B
- AudioSet
- HoWTo100M
- Wikipedia Image-Text
- MovieQA
其他
-
语言理解和常识推理:ARC-Easy、ARC-Challenge、HellaSwag、WinoGrande、PIQA、OpenbookQA和CommonsenseQA。
-
世界(多语言、多领域)知识:TruthfulQA和MMLU。
-
阅读理解:TriviaQA和BoolQ。
构建
高质量评测数据集的构建是评测体系的基石,主要方法如下:
人工标注
Human Annotation,标注流程:
任务定义→标注指南编写→标注者招募→标注培训→预标注测试→正式标注→质量审核→裁判仲裁→发布
标注者一致性(Inter-Annotator Agreement, IAA):
| 指标 | 适用场景 | 解读 |
|---|---|---|
| Cohen's κ | 两标注者,多类别 | >0.8 高度一致 |
| Fleiss' κ | 多标注者 | >0.6 较好 |
| Krippendorff's α | 多标注者,多尺度 | >0.667 一般采用 |
| Percent Agreement | 最简单,但不考虑偶然一致 | >90% 为佳 |
常见质量控制措施:
- 控制题(Gold Standard):混入已知答案的题目检测不认真标注者
- 重复采样:每个样本由3-5人独立标注
- 专家审核:领域专家审核有争议的样本
- 众包+专家混合:众包处理易题,专家处理难题
基于现有资源的自动构建
考试题库自动采集
许多权威评测数据集通过爬取公开考试题库构建:
- MMLU构建方法:
- 爬取Chegg、Course Hero等学习网站上的多选题
- 按学科分类,过滤短题目(<100字符)
- 去重(基于 n-gram 相似度)
- 人工抽样验证答案准确性
- 添加人类基线测试
- C-Eval构建方法:
- 爬取中国各类考试的真题网站(高考/考研/资格考试等)
- 转化为标准化的多选题格式
- 按学科分类,补充较少的学科
- 人工验证答案,修正明显错误
挑战:
- 版权问题(考试题目通常有版权)
- 答案验证(网络上的答案可能错误)
- 难度分布不均匀
从NLP资源转换
SQuAD→衍生数据集:
- SQuAD 2.0:在SQuAD 1.1基础上加入对抗性无法回答的问题
- QNLI:将 SQuAD 转为 NLI 格式(问题+答案段落→蕴含/非蕴含)
对话数据到评测:
- 从真实对话日志(如 Chatbot Arena)中提取高质量的评测题目
- 自动化标注(弱监督)+人工验证
从知识图谱生成
CommonsenseQA构建:
- 从ConceptNet选取概念节点
- 沿关系边生成候选答案
- 众包工人根据候选概念写问题
- 筛选高质量、区分度强的问题
LLM辅助数据集构建
2023年以来最主流的数据集构建方法。
LLM生成+人工验证
Alpaca式流水线:
Step 1:从现有数据集中选取seed样例(175个)
Step 2:用GPT-3.5/4大量扩充生成新题目。Prompt:"参考以下样例,生成10个相似但不重复的指令-回答对"
Step 3:人工过滤:去除低质量、危险、重复内容
Step 4:发布
代表数据集:Alpaca、Vicuna、WizardLM、ShareGPT
问题:
- 质量天花板受制于生成模型("GPT-4 的学生难超 GPT-4 老师")
- 生成数据可能强化现有偏见
- 难以构建真正的"新知识"(模型只能重组已有信息)
Self-Instruct式流水线(改进版):
Step 1:少量人工编写的种子Task(约20条)
Step 2:LLM生成新Instruction
Step 3:LLM检查生成的Instruction是否新颖(ROUGE过滤重复)
Step 4:LLM生成对应Input/Output
Step 5:过滤低质量样本(置信度过滤、人工抽检)
Step 6:加入种子集,循环迭代
Evol-Instruct(WizardLM),在Alpaca基础上,通过以下变换"进化"指令:
- 深度变换:增加约束、替换为更难概念、增加推理步骤
- 广度变换:生成与原指令完全不同的新指令
- 多轮迭代进化
对抗性数据集构建
HellaSwag的Adversarial Filtering(AF)方法步骤:
- 收集正样本(真实续写)
- 训练一个鉴别器来区分正负样本
- 用语言模型生成大量候选负样本
- 只保留"鉴别器认为很可能是正样本"的负样本
- 使人类最终评测时仍能区分,但模型表面相似度高
效果:随机基线25%,但早期BERT只达到47%(后来模型才逐步超越)。
WinoGrande的AFLite:
- 改进版AF,使用更简单的线性分类器检测统计偏差
- 生成44K高质量Winograd问题
动态数据集
LiveBench 的动态构建机制,每月更新:
- 从当月新发表的论文、数学竞赛题、新闻中自动提取
- 包含每月AIME数学竞赛题(截止日期后训练的模型无法见过)
- 新闻知识:包含最近一个月内的时事
- 代码:从每月Codeforces竞赛新题中提取
- 所有问题有程序化验证的客观答案
Chatbot Arena 的连续更新机制:
- 每天数千对真实用户对话
- ELO动态更新,反映最新模型能力
- 难以被单模型刷榜(需要始终保持高水平)
红队数据集
人工红队(Red-Teaming),招募专业红队人员(安全研究员、黑客等)
- 尝试各种越狱、诱导、操纵手段
- 记录成功攻击的提示词
- 分类整理为结构化数据集
- 用于安全训练和评测
自动红队(Automated Red Teaming):
- 攻击模型(Attacker LLM)生成攻击提示词
- 目标模型(Target LLM)回应
- 判断模型(Judge LLM)评估是否成功越狱
- 优化攻击策略(强化学习/进化算法)
- 积累有效攻击数据
代表:HarmBench(使用GCG、AutoDAN等自动攻击方法)
Anthropic提出Constitutional AI:
- 模型自我批评:让模型找出自己输出中违反宪法的部分
- 自我修正:根据批评重写输出
- 生成的(批评→修正)对用于监督微调
基准污染检测方法
污染检测技术
N-gram 重叠检测:
python
def check_contamination(test_sample, train_corpus, n=13):
test_ngrams = get_ngrams(test_sample, n)
for doc in train_corpus:
doc_ngrams = get_ngrams(doc, n)
if test_ngrams & doc_ngrams:
return True
return False
OpenAI早期使用13-gram重叠检测。问题:改写后的题目无法检测。
Min-K% Prob方法:
- 选取概率最低的K%的Token
- 计算这些Token的平均
log概率 - 训练数据中出现过的文本,即使最低概率Token也相对较高
Membership Inference Attack(MIA):
- 判断某个样本是否出现在模型训练集中
- 常用方法:Loss threshold(训练集样本 loss 更低),Shadow model
防污染数据集设计策略
| 策略 | 方法 | 代表 |
|---|---|---|
| 时间截止 | 只使用训练截止日期之后的数据 | LiveBench、竞赛题库 |
| 私有测试集 | 保留完全不公开的测试集,通过接口评测 | BIG-bench Lite |
| 程序化生成 | 使用模板+随机化无限生成新题 | RULER、MATH变体 |
| 题目变体 | 语义不变,改写表达方式 | SVAMP 对 GSM8K |
| 时效性内容 | 包含最新事件,必须实时更新知识 | FreshQA |