【DataWhale组队学习】DIY-LLM Task6 评估与基准测试

原文链接

0. 引言

模型的评估与测试或许是一个很大的话题,但这一章不是原理章,更像是评估领域的一个大纲吧。

重点不落在某个测试怎么做,而在于现在大家主要怎么测模型、这些测试有什么用,有什么局限。

1. 本章核心

评估其实是在定义"模型变强了"是怎么个变强法。

原文先讲了评估危机:传统基准如MMLU逐渐饱和,Chatbot Arena这类盲测榜单又可能被过拟合,所以现在不是没有评估,而是评估很多,但未必可靠。

  1. 评估没有唯一标准,要看你想测什么能力。
  2. 现在的benchmark本质上是在从不同角度测模型能力。

2. 怎么看评估

原文把评估拆成四个环节:

  • 输入是什么:题目从哪里来,是真实用户问题,还是标准考试题。
  • 怎么调用模型:零样本、少样本、CoT,还是带工具和Agent。
  • 怎么判输出:看准确率、pass@k、人工评估,还是LLM-as-a-judge。
  • 怎么解读结果:到底是在测什么。

分数不能脱离评测设置单独看。

3. 困惑度

困惑度是最基础的语言模型指标,衡量模型给数据分配高概率的能力,越低越好。

定义式:
Perplexity = ( 1 p ( D ) ) 1 / N \text{Perplexity} = \left( \frac{1}{p(D)} \right)^{1/N} Perplexity=(p(D)1)1/N

它的作用主要有两个:

  • 看模型对语言分布的拟合能力。
  • 很平滑,适合分析scaling law。

问题:

  • 需要模型老老实实输出概率分布,作弊就没用了。
  • 黑盒不可信,更适合开源模型内部研究。

有一些研究者认为,如果能完美建模现实世界的语言分布 t t t(即PPL达到理论极限------真实分布的熵),那么模型就自然解决了所有语言任务。因为任何任务本质上都是该语言分布中的一个条件概率分布。这意味着,不断逼近最低困惑度,就是通向AGI的路径之一。

4. 主要测试方式

4.1 知识类

代表:MMLU、MMLU-Pro、GPQA、Humanity's Last Exam。

作用:

测知识面、考试能力、学科能力。

不足:

容易饱和,而且会考试不等于会干活。

MMLU已经越来越像一个被刷高的标准题库,所以后面才不断出现更难的新版本。

4.2 指令遵循类

代表:Chatbot Arena、IFEval。

作用:

测模型是否听话,能不能按要求输出。

不足:

Arena更贴近真实对话,但可能被过拟合。

IFEval自动化强,但更像测格式约束,不太测回答质量。

4.3 智能体类

代表:SWEBench、CyBench、MLEBench。

作用:

测模型能不能在真实环境里完成闭环任务,而不只是答题。

不足:

更复杂,也更依赖系统搭建和工具链。

但它也说明了模型会说不等于会做。

4.4 纯推理类

代表:ARC-AGI。

作用:

尽量剥离知识题库,整个过程不涉及任何语言,去测更抽象的泛化推理能力。

不足:

离真实产品使用场景比较远。

4.5 安全类

代表:HarmBench、AIR-Bench。

作用:

测模型会不会执行有害请求,安全边界怎么样。

不足:

安全不只是拒答率,很多高风险场景里(比如医学等),幻觉本身也是安全问题,这类benchmark也不可能一次测完。

5. 提醒

  • benchmark会饱和,高分不一定就有区分度。
  • 榜单会被刷榜,尤其是大家都盯着同一个榜单时。
  • 训练集和测试集会污染,数据集本身也可能有噪声,所以分数不一定可信。

6. 理解与反思

这章没太多硬知识。

最大的作用,不是记住这些benchmark,而是以后看到排行榜时,先看看到底测了什么,和没测什么。

相关推荐
盈飞无限8 小时前
SPC选型:智能VS传统,谁更懂中国制造?
人工智能·制造
li-xun8 小时前
LINUX DO 社区注册机制调整与公益 AI 服务动态
linux·运维·人工智能
云烟成雨TD8 小时前
Spring AI 1.x 系列【50】可观测性:接入 Prometheus + Grafana
人工智能·spring·prometheus
不当菜鸡的程序媛8 小时前
Policy model
深度学习
梦梦代码精9 小时前
为什么这个开源的AI平台会火?有点东西。。。
人工智能·算法·机器学习·docker·开源
大模型真好玩9 小时前
智能体从入门到精通:6个必学GitHub开源项目
人工智能·agent·deepseek
源图客9 小时前
Aitoearn:OPC(一人公司)的AI内容智能体
人工智能·dreamweaver
chlorine59 小时前
【神经网络】——卷积层、池化层、线性层
深度学习·神经网络·cnn
逸模9 小时前
AI+BIM 重构连锁公装新范式 逸模打造数字化营建核心底座
大数据·人工智能·笔记·其他·信息可视化·重构