斯坦福报告解读4：图解有趣的推理基准（中）

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika等人员和组织合著，该报告已被公认为最权威、最具信誉人工智能数据与洞察来源之一。

2024年版《人工智能指数报告》是迄今为止最为详尽的一份报告，包含了前所未有的大量原创数据，新增了对AI训练成本的估算、对负责任AI领域详尽分析，以及全新章节专门探讨人工智能对科学与医学的影响。

技术性能处于第二章节主要是回顾下现在的人工智能技术走了多远，结合AI模型评估基准，针对各个模态进行深入分析，观察其在不同课题面前的性能表现。

一般推理能力

一般推理是指人工智能可以跨多个领域进行推理而不是执行一项狭隘的任务，例如下棋。由于今年来人工智能系统的推理能力已经大大提高，以至于 SQuAD（用于文本推理）和 VQA（用于视觉推理）等传统基准测试已经饱和，研究人员开发了MMMU评估标准。

MMMU全称是Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI。它是用于评估专业领域的理解力和推理力的指标。

那么现在主流的模型在这些问题上的表现如何？模型和人类的表现之间还是有较大差距，无论是MMMU还是GPQA。

GPQA全称A Graduate-Level Google-Proof Q&A Benchmark，来自纽约大学、该由 448 个困难的多项选择题组成，这些问题无法通过 Google 搜索轻松回答。由生物学、物理学和化学等各个领域的主题专家精心设计的。

数学推理能力

数据推理，通过解决数学问题来评估模型的数据推理能力。一般GSM8K基准是作为数学推理评估基准的首选，此次GSM8K上表现最好的是GPT-4 Code Interpreter准确率97%。

MATH基准是加州大学伯克利分校研究人员在2021年引入的12,500个具有挑战性的竞赛级数学问题的数据集。GPT-4成功解决了数据集中84.3%的问题。

PlanBanch，一个基准测试套件用来评估LLM解决规划问题的能力。结果显示，GPT-4约有34%的时间能够生成正确且成本最优的计划，而I-GPT-3这一比例约为6%。

视觉推理能力

视觉推理旨人工智能系统对视觉和文本数据的推理能力，当前的评估方式是视觉常识推理挑战赛(VCR)，通过Q->AR 分数来衡量模型表现，其中Q->A指的是机器选择正确答案，Q->R指的是选择该答案背后的适当理由的能力。当前VCR最佳得分是81.6。其实也就看图说话，选择正确的回答。

道德伦理推理能力

在未来人工智能将在诸如医疗保健和司法系统等伦理考量至关重要的领域得到广泛应用。因此，至关重要的是，AI系统必须具备稳健的道德推理能力，以便能够有效地应对和推断伦理原则及道德考量。当前评估方式是通过模型对含有道德元素的数据集（MoCa ）给出的反应与一致性指标的对齐程度来评估。其结果是，虽然没有一个模型能够完全匹配人类的道德体系，但更多参数的模型会更符合人类的道德情感。

|---------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------|
| | 这类的题目主要还是为了测试大模型的道德体系，有点类似电车难题，到底是救一个人，还是牺牲一个人救更多的人。其实从人类的角度，这类道德题目也是争议很大，所以的确有点为难LLM了。 |

因果推理能力

因果推理基准评估LLMs是否具备理解并归因于信念、意图、情绪等心理状态的"心智理论"（Theory-of-Mind，ToM） 能力.。2023年BigToM评估基准旨在评估LLMs的社会和因果推理能力，该基准已被认定为最有的ToM基准。

上图左侧为因果关系分析框架，t1发生之后会由经历感知（紫色），然后由自我判断（红色）结合期望（蓝色），一起做出行为（绿色）。上图右侧为案例，输入一段场景和因果事件，然后考核大模型预测未来（b）和未来行为（c），包括回测追溯（d）的能力。

例题中，Noor在一家繁忙的咖啡店担任咖啡师。她想为一位需要燕麦奶的顾客制作一杯美味的拿铁咖啡。Noor抓起一个牛奶罐装满了燕麦奶。Noor认知里奶罐里含有燕麦奶。而当她去处理另一项任务时，一名同事接手了，但是他没有听到顾客的要求，将罐子里的燕麦奶换成了杏仁奶。那么这个时候可以问问大模型，Noor认知是什么？接下来会做什么？要是Noor做了一些举动，那么她当时认知是什么？

那么针对目前的大模型的评测结果如下：

|---------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------|
| | |
| | > 分析的结果最有趣，机器已经和人类的预判达成平手，甚至在部分超过了人类。 |