最强的GPT-4V都考不过？基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强？我们还不知道，但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索，如下排行榜所示。

看起来，GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生，而是为了提供一个兼具深度与广度的多模态 AI 测试基准，助力人工智能系统的开发，尤其是通用人工智能（Artificial General Intelligence，AGI）。

随着大型语言模型（LLM）快速发展，人们对 AGI 这一颇具争议的概念进行了广泛讨论。简单来说，AGI 是指在大多数任务上都与人类相当或超越人类的人工智能系统。由于缺乏公认的可操作定义，人们一直都很难就 AGI 开展更加坦诚和建设性的讨论。

为了解决这个问题，Morris 等人的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》提出了一种兼顾通用性（广度）和性能（深度）的 AGI 分级分类法。

在这种分类法中，第 3 级是专家 AGI，这是一个重要的里程碑。它表示 AI 系统在广泛的任务上达到了「掌握专业知识的成年人类的 90%」，并由此可以在许多行业中达到「机器智能接替人类劳动力的替代门槛」，从而造成重大的失业风险和经济混乱。因此，密切关注专家 AGI 的发展情况具有重要的学术和社会意义。

那么，该如何创造用于度量专家 AGI 的基准呢？

由于专家 AGI 的定义是基于与专业人士的比较，因此不同学科的大学水平考试就是一个很好的起点，因为这些考试本身的目的就是评估人类在相应学科的专业能力。MMLU 和 AGIEval 等基准已经成功采用了这一策略，但它们只考虑了基于文本的问题，而人类专家有能力解决多模态问题。

与此同时，能够理解文本和图像的大型多模态模型（LMM）已经朝着更通用的人工智能迈出了一大步。这些 LMM 能在现有的多模态基准测试上获得稳定一致的优良表现。比如 CogVLM 在 VQA-v2 基准上的成绩为 85%，在 ScienceQA-IMG 上为 92%，在 RefCOCO 上为 93%。

然而，大多数现有的多模态基准侧重于常识 / 日常知识，而不是专家级的领域知识和高级推理。与这个目标最接近的基准是 ScienceQA。尽管 ScienceQA 覆盖了多个学科（广度），但其大部分问题都限于小学到初中水平，因此缺乏深度，不足以作为专家 AGI 的基准。

为此，IN.AI Research 等多所机构的一个研究团队构建了一个新基准 MMMU，可用于评估 AI 在大学水平的多学科问题上的多模态理解和推理能力。

其中包含的问题来自大学考试、测验和教科书，涉及六个常见学科：艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程。MMMU 包含 1.15 万个精心选取的多模态问题，涵盖 30 个不同的科目和 183 个子领域，因此满足广度目标。此外，MMMU 中许多问题都需要专家级的推理能力，比如使用傅立叶变换或均衡理论来推导问题的解，因此也满足深度目标。

MMMU 还具备了两个特有挑战（图 1）：一是其涵盖多种图像格式，从照片和绘画等视觉场景到图表和表格，可用于测试 LMM 的感知能力；二是 MMMU 具有文本和图像混合交织的输入。对于这个基准，AI 模型需要把图像和文本放在一起理解，这往往需要回忆深度的学科知识并根据理解和知识来执行复杂推理。

该团队不仅提出了基准，也基于新基准评估了一些模型，其中包括 14 个开源 LMM 和 GPT-4V。他们从中得到了一些有趣的结论。

此外，他们还分析了 GPT-4V 的 150 个错误案例，结果发现 35% 的错误与感知有关，29% 的错误源自缺乏知识、26% 则是由于推理过程的缺陷。这些发现表明 MMMU 是有难度的，可用于助力进一步的研究发展。

MMMU 基准

MMMU 概况

MMMU 是 Massive Multi-discipline Multimodal Understanding and Reasoning 的缩写，即大规模多学科多模态理解和推理。其构建目标是评估基础模型在广泛多样的任务上的专家级多模态理解能力。MMMU 涉及 6 个学科的 30 个科目。图 2 给出了每个学科的一个 MMMU 样本。

图 3 详细给出了所覆盖的科目及相关统计数据。

该基准中的问题是人工收集的，收集者是来自不同学科的 50 位大学生，数据来源包括网络资源、教科书和课程材料。

如表 1 所示，MMMU 中共有 1.15 万个问题，并分成了三个子集：少样本开发集、验证集和测试集。

少样本开发集中每个科目包含 5 个问题；验证集则包含大约 900 个问题，可用于超参数选择；测试集则有 1.05 万个问题。MMMU 的设计目标是衡量 LMM 的三项基本技能：感知、知识和推理。

数据的收集和整理过程

**数据收集。**第一步，他们浏览了常见的大学专业，然后确定要将哪些学科包含进该基准中。他们选择的原则是该学科需要经常采用视觉输入来提供有价值的信息。基于这个原则，他们去掉了法学和语言学等一些学科，因为这些学科中很难找到足够多的相关多模态问题。最后，他们从 6 个不同学科中选择了 30 个科目。

第二步，他们招募了 50 位这些专业的大学生，让他们作为标注者来帮助收集问题。他们会从专业教科书和网络资源收集多模态问题，并在有必要时根据自己的专业知识创建新问题。考虑到基础模型的数据污染问题，标注者会选择没有立即可用答案的问题，例如那些答案在不同的文档中或教科书末尾的问题。这个过程中，他们得到了 1.3 万个问题。

为了进一步控制数据质量，他们又执行了两个数据清理步骤。第一步，他们使用了词汇重叠和来源网址相似度来识别潜在的重复问题。然后他们对这些重复项进行了审查，并清除了所有重复项。第二步则是把这些问题分配给该论文的参与作者，让他们帮助进行格式和拼写检查。最后，该团队对这些问题进行了难度分级：非常简单、简单、中等、困难。其中大约 10% 的问题属于非常简单；由于太过简单，不符合该基准的设计原则，因此被排除在外。

图 4 给出了 MMMU 与已有基准的差异。

实验

该团队基于 MMMU 对多种 LLM 和 LMM 进行了评估。每一种类型都兼顾了闭源和开源模型。评估采用了零样本设置，以评估模型在没有微调或少样本演示的情况下生成准确答案的能力。所有实验均基于 NVIDIA A100 GPU。

主要结果

表 2 给出了在 MMMU 基准上不同 LLM 和 LMM 的结果比较。

他们得到了一些重要发现：

MMMU 难度很大，就连 GPT-4V 的准确度也只有 55.7%，这说明 AI 技术还有很大的改进空间。
开源 LMM 和 GPT-4V 的性能差距很大。BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等表现最好的开源模型也只有 34% 左右的准确度。
具备光学字符识别（OCR）或生成字幕的 LLM 没有看到显著的提升，这说明 MMMU 需要模型更深度地将图像和文本放在一起理解。
在艺术与设计以及人文与社会科学等视觉数据不太复杂的学科中，模型表现出的性能更高。相比之下，商科、科学、健康与医学以及技术与工程等领域具有更复杂的视觉数据并需要复杂的推理，因此 AI 模型的性能也相对较低。

但该团队也指出，MMMU 并不足以对专家 AGI 进行充分的测试，这是受定义限制的，因为模型的 MMMU 性能与「掌握专业知识的成年人类的 90%」之间不存在直接的映射关系，而且大学考试也并非 AGI 理应解决的唯一任务。但他们也认为专家 AGI 有必要在 MMMU 基准上取得好成绩，这样才能体现其掌握知识的广度和深度以及专家级的理解和推理能力。

对图像类型和难度的分析

**不同的图像类型。**图 5 比较了在常用的图像类型上，不同模型的性能。可以看到，在所有类型上，GPT-4V 始终大幅优于其它模型。在照片和绘画等训练中更常见的类型上，开源模型的表现相对较好。但是，对于几何形状、乐谱和化学结构等更不常见的图像类别，所有模型的分数都非常低（有些接近于随机乱猜）。这表明现有模型在这些图像类型上的泛化性能不佳。

**不同难度。**表 3 比较了所选模型在三个难度层级上的性能。在「容易」类别中，GPT-4V 的表现显著优于开源模型，成功率达到了 76.1%。对于「中等」难度类别，差距缩小了，但 GPT-4V 依然领先，为 55.6%。到了「困难」级别，模型的差距进一步变小，这表明随着任务复杂性的提升，GPT-4V 等更先进模型的优势会逐渐消失。这可能表明当前模型在处理专家级高难度查询方面存在局限，即便最先进模型也是如此。

错误分析与未来研究

该团队还深度分析了 GPT-4V 的错误，这有助于理解其运作能力和局限。该分析不仅能识别模型当前的缺点，还可以帮助改进未来的设计和训练。他们从 GPT-4V 的预测中随机采样的 150 个错误实例，然后请专家级标注者分析了这些实例，这些专家根据自己的知识找到了这些错误预测的根本原因。图 6 给出了这些错误的分布情况。

感知错误（35%）：GPT-4V 的错误中很大一部分是感知错误，这又可以进一步分为两种类型：基本感知错误和特定领域的感知错误。如图 7 所示，当模型能准确处理和理解给定信息，但无法解读基本的视觉信息时，就会出现基本感知错误。而特定领域的感知错误则是由缺乏知识所致。当分析根本原因时，研究者将此类错误归类为缺乏知识。此外，GPT-4V 经常表现出对文本的偏好，也就是以文本信息优先，视觉输入在后。

缺乏知识（29%）：如前所述，对于 GPT-4V 模型，特定领域的感知错误的一个基本根本原因就是缺乏专业知识。类似地，缺乏专业知识还可能导致推理出现问题。

推理错误（26%）：在一些实例中，模型正确解读了文本和图像，也找到了相关知识，但却未能成功应用逻辑和数学推理技能来进行准确的推导。

其它错误：其它错误还包括文本理解错误（6%）、拒绝问答（3%）、注释错误（2%）、答案提取错误（1%）。这些错误的原因也多种多样，比如复杂文本的解读难度大、响应生成的限制、数据注释不准确以及从较长输出中提取精确答案存在问题。

更多详细内容，请阅读原文。