【DataWhale组队学习】DIY-LLM Task6 评估与基准测试

原文链接

0. 引言

模型的评估与测试或许是一个很大的话题，但这一章不是原理章，更像是评估领域的一个大纲吧。

重点不落在某个测试怎么做，而在于现在大家主要怎么测模型、这些测试有什么用，有什么局限。

1. 本章核心

评估其实是在定义"模型变强了"是怎么个变强法。

原文先讲了评估危机：传统基准如MMLU逐渐饱和，Chatbot Arena这类盲测榜单又可能被过拟合，所以现在不是没有评估，而是评估很多，但未必可靠。

评估没有唯一标准，要看你想测什么能力。
现在的benchmark本质上是在从不同角度测模型能力。

2. 怎么看评估

原文把评估拆成四个环节：

输入是什么：题目从哪里来，是真实用户问题，还是标准考试题。
怎么调用模型：零样本、少样本、CoT，还是带工具和Agent。
怎么判输出：看准确率、pass@k、人工评估，还是LLM-as-a-judge。
怎么解读结果：到底是在测什么。

分数不能脱离评测设置单独看。

3. 困惑度

困惑度是最基础的语言模型指标，衡量模型给数据分配高概率的能力，越低越好。

定义式：
Perplexity = ( 1 p ( D ) ) 1 / N \text{Perplexity} = \left( \frac{1}{p(D)} \right)^{1/N} Perplexity=(p(D)1)1/N

它的作用主要有两个：

看模型对语言分布的拟合能力。
很平滑，适合分析scaling law。

问题：

需要模型老老实实输出概率分布，作弊就没用了。
黑盒不可信，更适合开源模型内部研究。

有一些研究者认为，如果能完美建模现实世界的语言分布 t t t（即PPL达到理论极限------真实分布的熵），那么模型就自然解决了所有语言任务。因为任何任务本质上都是该语言分布中的一个条件概率分布。这意味着，不断逼近最低困惑度，就是通向AGI的路径之一。

4. 主要测试方式

4.1 知识类

代表：MMLU、MMLU-Pro、GPQA、Humanity's Last Exam。

作用：

测知识面、考试能力、学科能力。

不足：

容易饱和，而且会考试不等于会干活。

MMLU已经越来越像一个被刷高的标准题库，所以后面才不断出现更难的新版本。

4.2 指令遵循类

代表：Chatbot Arena、IFEval。

作用：

测模型是否听话，能不能按要求输出。

不足：

Arena更贴近真实对话，但可能被过拟合。

IFEval自动化强，但更像测格式约束，不太测回答质量。

4.3 智能体类

代表：SWEBench、CyBench、MLEBench。

作用：

测模型能不能在真实环境里完成闭环任务，而不只是答题。

不足：

更复杂，也更依赖系统搭建和工具链。

但它也说明了模型会说不等于会做。

4.4 纯推理类

代表：ARC-AGI。

作用：

尽量剥离知识题库，整个过程不涉及任何语言，去测更抽象的泛化推理能力。

不足：

离真实产品使用场景比较远。

4.5 安全类

代表：HarmBench、AIR-Bench。

作用：

测模型会不会执行有害请求，安全边界怎么样。

不足：

安全不只是拒答率，很多高风险场景里（比如医学等），幻觉本身也是安全问题，这类benchmark也不可能一次测完。

5. 提醒

benchmark会饱和，高分不一定就有区分度。
榜单会被刷榜，尤其是大家都盯着同一个榜单时。
训练集和测试集会污染，数据集本身也可能有噪声，所以分数不一定可信。

6. 理解与反思

这章没太多硬知识。

最大的作用，不是记住这些benchmark，而是以后看到排行榜时，先看看到底测了什么，和没测什么。