0. 引言
模型的评估与测试或许是一个很大的话题,但这一章不是原理章,更像是评估领域的一个大纲吧。
重点不落在某个测试怎么做,而在于现在大家主要怎么测模型、这些测试有什么用,有什么局限。
1. 本章核心
评估其实是在定义"模型变强了"是怎么个变强法。
原文先讲了评估危机:传统基准如MMLU逐渐饱和,Chatbot Arena这类盲测榜单又可能被过拟合,所以现在不是没有评估,而是评估很多,但未必可靠。
- 评估没有唯一标准,要看你想测什么能力。
- 现在的benchmark本质上是在从不同角度测模型能力。
2. 怎么看评估
原文把评估拆成四个环节:
- 输入是什么:题目从哪里来,是真实用户问题,还是标准考试题。
- 怎么调用模型:零样本、少样本、CoT,还是带工具和Agent。
- 怎么判输出:看准确率、pass@k、人工评估,还是LLM-as-a-judge。
- 怎么解读结果:到底是在测什么。
分数不能脱离评测设置单独看。
3. 困惑度
困惑度是最基础的语言模型指标,衡量模型给数据分配高概率的能力,越低越好。
定义式:
Perplexity = ( 1 p ( D ) ) 1 / N \text{Perplexity} = \left( \frac{1}{p(D)} \right)^{1/N} Perplexity=(p(D)1)1/N
它的作用主要有两个:
- 看模型对语言分布的拟合能力。
- 很平滑,适合分析scaling law。
问题:
- 需要模型老老实实输出概率分布,作弊就没用了。
- 黑盒不可信,更适合开源模型内部研究。
有一些研究者认为,如果能完美建模现实世界的语言分布 t t t(即PPL达到理论极限------真实分布的熵),那么模型就自然解决了所有语言任务。因为任何任务本质上都是该语言分布中的一个条件概率分布。这意味着,不断逼近最低困惑度,就是通向AGI的路径之一。
4. 主要测试方式
4.1 知识类
代表:MMLU、MMLU-Pro、GPQA、Humanity's Last Exam。
作用:
测知识面、考试能力、学科能力。
不足:
容易饱和,而且会考试不等于会干活。
MMLU已经越来越像一个被刷高的标准题库,所以后面才不断出现更难的新版本。
4.2 指令遵循类
代表:Chatbot Arena、IFEval。
作用:
测模型是否听话,能不能按要求输出。
不足:
Arena更贴近真实对话,但可能被过拟合。
IFEval自动化强,但更像测格式约束,不太测回答质量。
4.3 智能体类
代表:SWEBench、CyBench、MLEBench。
作用:
测模型能不能在真实环境里完成闭环任务,而不只是答题。
不足:
更复杂,也更依赖系统搭建和工具链。
但它也说明了模型会说不等于会做。
4.4 纯推理类
代表:ARC-AGI。
作用:
尽量剥离知识题库,整个过程不涉及任何语言,去测更抽象的泛化推理能力。
不足:
离真实产品使用场景比较远。
4.5 安全类
代表:HarmBench、AIR-Bench。
作用:
测模型会不会执行有害请求,安全边界怎么样。
不足:
安全不只是拒答率,很多高风险场景里(比如医学等),幻觉本身也是安全问题,这类benchmark也不可能一次测完。
5. 提醒
- benchmark会饱和,高分不一定就有区分度。
- 榜单会被刷榜,尤其是大家都盯着同一个榜单时。
- 训练集和测试集会污染,数据集本身也可能有噪声,所以分数不一定可信。
6. 理解与反思
这章没太多硬知识。
最大的作用,不是记住这些benchmark,而是以后看到排行榜时,先看看到底测了什么,和没测什么。