【DataWhale组队学习】DIY-LLM Task6 评估与基准测试

原文链接

0. 引言

模型的评估与测试或许是一个很大的话题,但这一章不是原理章,更像是评估领域的一个大纲吧。

重点不落在某个测试怎么做,而在于现在大家主要怎么测模型、这些测试有什么用,有什么局限。

1. 本章核心

评估其实是在定义"模型变强了"是怎么个变强法。

原文先讲了评估危机:传统基准如MMLU逐渐饱和,Chatbot Arena这类盲测榜单又可能被过拟合,所以现在不是没有评估,而是评估很多,但未必可靠。

  1. 评估没有唯一标准,要看你想测什么能力。
  2. 现在的benchmark本质上是在从不同角度测模型能力。

2. 怎么看评估

原文把评估拆成四个环节:

  • 输入是什么:题目从哪里来,是真实用户问题,还是标准考试题。
  • 怎么调用模型:零样本、少样本、CoT,还是带工具和Agent。
  • 怎么判输出:看准确率、pass@k、人工评估,还是LLM-as-a-judge。
  • 怎么解读结果:到底是在测什么。

分数不能脱离评测设置单独看。

3. 困惑度

困惑度是最基础的语言模型指标,衡量模型给数据分配高概率的能力,越低越好。

定义式:
Perplexity = ( 1 p ( D ) ) 1 / N \text{Perplexity} = \left( \frac{1}{p(D)} \right)^{1/N} Perplexity=(p(D)1)1/N

它的作用主要有两个:

  • 看模型对语言分布的拟合能力。
  • 很平滑,适合分析scaling law。

问题:

  • 需要模型老老实实输出概率分布,作弊就没用了。
  • 黑盒不可信,更适合开源模型内部研究。

有一些研究者认为,如果能完美建模现实世界的语言分布 t t t(即PPL达到理论极限------真实分布的熵),那么模型就自然解决了所有语言任务。因为任何任务本质上都是该语言分布中的一个条件概率分布。这意味着,不断逼近最低困惑度,就是通向AGI的路径之一。

4. 主要测试方式

4.1 知识类

代表:MMLU、MMLU-Pro、GPQA、Humanity's Last Exam。

作用:

测知识面、考试能力、学科能力。

不足:

容易饱和,而且会考试不等于会干活。

MMLU已经越来越像一个被刷高的标准题库,所以后面才不断出现更难的新版本。

4.2 指令遵循类

代表:Chatbot Arena、IFEval。

作用:

测模型是否听话,能不能按要求输出。

不足:

Arena更贴近真实对话,但可能被过拟合。

IFEval自动化强,但更像测格式约束,不太测回答质量。

4.3 智能体类

代表:SWEBench、CyBench、MLEBench。

作用:

测模型能不能在真实环境里完成闭环任务,而不只是答题。

不足:

更复杂,也更依赖系统搭建和工具链。

但它也说明了模型会说不等于会做。

4.4 纯推理类

代表:ARC-AGI。

作用:

尽量剥离知识题库,整个过程不涉及任何语言,去测更抽象的泛化推理能力。

不足:

离真实产品使用场景比较远。

4.5 安全类

代表:HarmBench、AIR-Bench。

作用:

测模型会不会执行有害请求,安全边界怎么样。

不足:

安全不只是拒答率,很多高风险场景里(比如医学等),幻觉本身也是安全问题,这类benchmark也不可能一次测完。

5. 提醒

  • benchmark会饱和,高分不一定就有区分度。
  • 榜单会被刷榜,尤其是大家都盯着同一个榜单时。
  • 训练集和测试集会污染,数据集本身也可能有噪声,所以分数不一定可信。

6. 理解与反思

这章没太多硬知识。

最大的作用,不是记住这些benchmark,而是以后看到排行榜时,先看看到底测了什么,和没测什么。

相关推荐
我就是妖怪1 小时前
Kimi K2.6 新手快速上手与实战指南
大数据·人工智能
Elcker1 小时前
企业级RAG应用构建手册
人工智能·rag
蝎子莱莱爱打怪1 小时前
小孩儿才做选择!Hermes 和OpenClaw 我都要!
人工智能·后端·github
imbackneverdie1 小时前
sci期刊示意图、流程图、机制图怎么画?
人工智能·ai·aigc·科研绘图·ai工具·科研工具·ai生图
直奔標竿2 小时前
SpringAI + RAG + MCP + Agent 零基础全栈实战(完结篇)| 27课完整汇总,Java开发者AI转型必看
java·开发语言·人工智能·spring boot·后端·spring
云烟成雨TD2 小时前
Spring AI 1.x 系列【31】向量数据库:进阶使用指南
java·人工智能·spring
CoderJia程序员甲2 小时前
GitHub 热榜项目 - 日榜(2026-04-29)
ai·大模型·github·ai教程
2601_956139422 小时前
政府事业机构品牌策划公司哪家专业
大数据·人工智能·python
安当加密2 小时前
模型文件裸奔?TDE如何实现AI大模型“零损耗”透明加密与防逆向
人工智能