LLM 笔记 —— 02 大语言模型能力评定

东方芷兰2025-10-05 11:03

本文探讨了评估语言模型性能的不同方法及其局限性。对于选择题，模型输出可能包含文字、概率或推断，难以标准化评判，开放性问题则更难统一标准，解决方案包括wit人类评审、使用更强模型模型（如GPT-4）评判，但需注意"内卷"（过长输出）的影响。

测试应涵盖多样化任务（如BIG-bench中的200多个特定任务）或专项能力（如长文理解），此外，研究表明语言模型可能为达成目标而降低道德标准，心智理论能力较弱，且存在记忆训练数据的问题，还需考虑价格、速度等实际因素，评估需综合多种方法，避免单一标准带来的偏差。

Benchmark Corpus 基准语料库

01 如何根据标准答案决定语言模型输出是否正确？

也许，可以考察选择题？

Massive Multitask Language Understanding (MMLU)

即便是选择题，评比标准的不同也会导致得到的测试结果不同，比如，语言模型没有输出 ABCD，而是回答一堆文字，一些概率，或者一些推断，算不算对呢？比如，模型喜欢猜测答案，偏好某些字母或数字，测试结果也不同。

选择题尚且如此，如果是一般的问答、翻译、摘要等，语言模型的回答更是五花八门，难以评定。

也许，是人类来评定更加合理？

语言模型天梯榜

也许，可以用更强大的语言模型来判断？

MT-Bench 采用 ChatGPT-4 来进行衡量

但是，有些语言模型喜欢长篇大论，也就是内卷，这也会对评定结果有偏差，因此，我们需要在评价时引入长度因素，输出过长会被扣分。

02 我们应该输入什么问题给语言模型？

现如今，语言模型的能力都是比较全面的，我们在检测这些语言模型的能力时，往往期待收集大量各式各样的任务，来看看语言模型是不是各式各样的任务都能办好。

注意，BIG-bench 中收集了各种奇奇怪怪的任务，200多个，比如符号猜测（Emoji Movie）、下西洋棋（Checkmate In One Move）、翻译密码（ASCⅡ word recognition）。

Emoji Movie

Checkmate In One Move

ASCⅡ word recognition

有时，我们也想评测特定能力，比如，阅读长文的能力。有一种评测方法，叫做大海捞针（Needle in a Haystack）。

实验表明，输入文本的长度低于64K token时，无论插入在什么地方，GPT-4 都可以准确截取最好资讯，高于64K token时，如果插入在10% ~ 50%位置，GPT-4 就可能无法获得最好资讯。

同样地，我们也对 Claude-2.1 进行测试，实验结果如下：

Claude 团队看到这个结果，两眼一黑，专门发布文章，声称更改提问方式可以大大提高实验结果数值，如下：

03 语言模型会不会为达目标不择手段？

龙与地下城

实验结果如下，横轴代表分数，纵轴代表道德水平：

04 机器有没有心智理论（Theory of Mind）？

心智理论（Theory of Mind）：揣摩他人想法的能力，也就是我知道你知道我知道...

设计一个聊天场景，询问凯莉，琳达的狗是什么品种，正确答案是，凯莉不知道琳达的狗是什么品种，因为他们聊到这个话题时凯莉并不在场。

实验表明，人类在该问题上的正确率为87.5%，其他的所有大模型正确率都非常低，说明其的心智水平也比较低。

请注意，新出的题目一旦在网络上公开，就可能被语言模型学习，即便换一套说法测试模型，也会得到相当好的效果。

有一个百口莫辩的实验，直接询问语言模型有没有资料集RTE里面的资料，如果模型给出的资料和实际资料一毛一样，那就实锤模型偷看过这些资料和正确答案。

实验结果如下：

可以看出，很多资料集，GPT-3.5都能输出相关资料，实锤了！

05 其他面向：价格、速度...

上一篇：基于mapreduce的资金流入流出任务计算

下一篇：深度学习入门：从神经网络基础到模型训练优化

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 05OpenClaw优化飞书API 额度已耗尽问题 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）10OpenClaw大龙虾机器人完整安装教程