大型语言模型推理能力评估——李宏毅2025大模型课程第9讲内容

本节课主要探讨了"如何科学评估大型语言模型的推理能力",指出当前模型可能依赖记忆而非真正推理,介绍了 ARC-AGI 和 Chatbot Arena 等评估平台,并提醒人们注意评估指标的局限性和误导性。

一、如何评估大型语言模型的「推理」能力?

简单粗暴的方式:是否能解出数学题、是否能写出代码。比如deepseek-R1的技术报告中,展示的推理能力。AIME是一个数学竞赛,codeforces是代码相关的正确率。

二、模型答案中有多少是「记忆」出来的?

  • 解出数学题,就代表模型的推理能力更强吗?

  • 多篇研究指出,大型语言模型在回答问题时,可能并非真正「理解」或「推理」,而是依赖于训练数据中的记忆内容。

  • 相关论文 https://arxiv.org/abs/2410.05229

    • 论文内容:把GSM8k(数学题库)中的题目,只换掉人名等无关紧要的词,模型的正确率就会下降。

把GSM8K题目中,句子的顺序调换但不影响题目的意思,各个模型的正确率都有下降(灰色柱子为原题目、蓝色柱子为调换顺序的题目)

三、ARC-AGI:通用人工智能的抽象与推理评测基准

  • ARC-AGI(Abstraction and Reasoning Corpus for AGI)是评估 AI 抽象与推理能力的重要基准。 有图形的推理题目

四、Chatbot Arena:语言模型对战平台

  • 网站:https://lmarena.ai/

  • 通过成千上万的用户与模型对话的胜率统计,生成模型的 Elo 评分(评分方式如截图)。理论上,用户的问题千奇百怪,所以模型不能刷分。但是chatbot Arena指出模型排名可能受非技术因素(如风格、情感倾向)影响,提醒人们注意评估指标的局限性。

考虑风格和情感模型后,模型的评分会变化,比如claude的模型剔除掉风格因素后排名上升很多

五、Goodhart's Law(古德哈特定律)

「当一项指标成为目标时,它就不再是一个好指标。」

过度依赖某个评估指标可能导致模型优化方向偏离真实能力,提醒研究者和开发者保持警惕。

背后的故事:英国殖民者统治印度的时候,发现印度蛇很多,英国人提出,捉到蛇的印度人可以获得金钱奖励,印度人会偷偷养很多蛇骗奖励,结果蛇更多了。

相关推荐
Salt_07283 分钟前
DAY 22 常见的特征筛选算法
人工智能·python·机器学习
机器觉醒时代5 分钟前
星动纪元 | 清华孵化的人形机器人先锋,以「具身大脑+本体+灵巧手」定义通用智能未来
人工智能·机器人·人形机器人·灵巧手
LplLpl116 分钟前
从零实现本地轻量化 LLM 部署:Python+Ollama 快速搭建个人 AI 助手
人工智能
Hi2024021711 分钟前
xtreme1半自动标注平台部署及使用
人工智能·标注·xtreme1
阿杰学AI12 分钟前
AI核心知识25——大语言模型之RAG(简洁且通俗易懂版)
人工智能·机器学习·语言模型·自然语言处理·aigc·agi·rag
亚马逊云开发者14 分钟前
新一代SageMaker+Databricks统一目录:机器学习与数据分析工作流打通方案
人工智能
IT·小灰灰15 分钟前
深度解析重排序AI模型:基于硅基流动API调用多语言重排序AI实战指南
java·大数据·javascript·人工智能·python·数据挖掘·php
Philtell19 分钟前
【动手学深度学习】笔记
人工智能·笔记·深度学习
极客BIM工作室19 分钟前
ZFNet反卷积网络(Deconvnet):让CNN“黑盒”变透明的核心技术
网络·人工智能·cnn
子午20 分钟前
【卫星图像识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习