【DataWhale组队学习】DIY-LLM Task6 评估与基准测试

原文链接

0. 引言

模型的评估与测试或许是一个很大的话题,但这一章不是原理章,更像是评估领域的一个大纲吧。

重点不落在某个测试怎么做,而在于现在大家主要怎么测模型、这些测试有什么用,有什么局限。

1. 本章核心

评估其实是在定义"模型变强了"是怎么个变强法。

原文先讲了评估危机:传统基准如MMLU逐渐饱和,Chatbot Arena这类盲测榜单又可能被过拟合,所以现在不是没有评估,而是评估很多,但未必可靠。

  1. 评估没有唯一标准,要看你想测什么能力。
  2. 现在的benchmark本质上是在从不同角度测模型能力。

2. 怎么看评估

原文把评估拆成四个环节:

  • 输入是什么:题目从哪里来,是真实用户问题,还是标准考试题。
  • 怎么调用模型:零样本、少样本、CoT,还是带工具和Agent。
  • 怎么判输出:看准确率、pass@k、人工评估,还是LLM-as-a-judge。
  • 怎么解读结果:到底是在测什么。

分数不能脱离评测设置单独看。

3. 困惑度

困惑度是最基础的语言模型指标,衡量模型给数据分配高概率的能力,越低越好。

定义式:
Perplexity = ( 1 p ( D ) ) 1 / N \text{Perplexity} = \left( \frac{1}{p(D)} \right)^{1/N} Perplexity=(p(D)1)1/N

它的作用主要有两个:

  • 看模型对语言分布的拟合能力。
  • 很平滑,适合分析scaling law。

问题:

  • 需要模型老老实实输出概率分布,作弊就没用了。
  • 黑盒不可信,更适合开源模型内部研究。

有一些研究者认为,如果能完美建模现实世界的语言分布 t t t(即PPL达到理论极限------真实分布的熵),那么模型就自然解决了所有语言任务。因为任何任务本质上都是该语言分布中的一个条件概率分布。这意味着,不断逼近最低困惑度,就是通向AGI的路径之一。

4. 主要测试方式

4.1 知识类

代表:MMLU、MMLU-Pro、GPQA、Humanity's Last Exam。

作用:

测知识面、考试能力、学科能力。

不足:

容易饱和,而且会考试不等于会干活。

MMLU已经越来越像一个被刷高的标准题库,所以后面才不断出现更难的新版本。

4.2 指令遵循类

代表:Chatbot Arena、IFEval。

作用:

测模型是否听话,能不能按要求输出。

不足:

Arena更贴近真实对话,但可能被过拟合。

IFEval自动化强,但更像测格式约束,不太测回答质量。

4.3 智能体类

代表:SWEBench、CyBench、MLEBench。

作用:

测模型能不能在真实环境里完成闭环任务,而不只是答题。

不足:

更复杂,也更依赖系统搭建和工具链。

但它也说明了模型会说不等于会做。

4.4 纯推理类

代表:ARC-AGI。

作用:

尽量剥离知识题库,整个过程不涉及任何语言,去测更抽象的泛化推理能力。

不足:

离真实产品使用场景比较远。

4.5 安全类

代表:HarmBench、AIR-Bench。

作用:

测模型会不会执行有害请求,安全边界怎么样。

不足:

安全不只是拒答率,很多高风险场景里(比如医学等),幻觉本身也是安全问题,这类benchmark也不可能一次测完。

5. 提醒

  • benchmark会饱和,高分不一定就有区分度。
  • 榜单会被刷榜,尤其是大家都盯着同一个榜单时。
  • 训练集和测试集会污染,数据集本身也可能有噪声,所以分数不一定可信。

6. 理解与反思

这章没太多硬知识。

最大的作用,不是记住这些benchmark,而是以后看到排行榜时,先看看到底测了什么,和没测什么。

相关推荐
Lee川26 分钟前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
weelinking42 分钟前
【产品】00_产品经理用Claude实现产品系列介绍
数据库·人工智能·sql·数据挖掘·github·产品经理
Agent产品评测局1 小时前
制造业模具管理AI系统,主流产品能力对比详解:2026年智能制造选型深度洞察
人工智能·ai·chatgpt·制造
研华科技Advantech1 小时前
如何用一套实训设备,打通工业AI预测性维护技术全流程?
人工智能
Lab_AI1 小时前
AI for Science: MaXFlow AI Agent+ 报告体验双升级,让AI智能体更高效易用!
人工智能·ai for science·ai agent·ai智能体
李坤2 小时前
让 Codex 和 Claude 互相 Review:告别手动复制
人工智能·openai·claude
南屹川2 小时前
【API设计】GraphQL实战:从REST到GraphQL的演进
人工智能
KJ_BioMed2 小时前
当计算生物学遇上生成式AI:从头设计生物分子的“新范式”初探
人工智能·从头设计·生命科学·生物医药·科研干货·科晶生物
明月醉窗台2 小时前
深度学习(17)YOLO训练中的超参数详解
人工智能·深度学习·yolo
淘矿人2 小时前
Claude辅助DevOps实践
java·大数据·运维·人工智能·算法·bug·devops