基于ArqMATH 数据集探索大语言模型在数学问题推理解答中的能力

概述

源码地址：https://github.com/gipplab/llm-investig-mathstackexchange

大规模语言模型（LLMs）因其解决自然语言任务的能力而备受关注，在某些任务中，其准确性甚至可媲美人类。这些模型在翻译、代码编写和通过专业考试等各种任务中表现出色，并被用于知识提取、想法生成以及数据处理和比较。大规模语言模型在问题解答（QA）任务中也取得了成功，在这些任务中，自然语言为问题提供了类似于人类的答案；在 QA 中对大规模语言模型的评估已经证明了其有用性。它已被证明是有用的。

近年来，数学内容在科学、技术、工程和数学（STEM）领域日益受到重视，有鉴于此，评估大规模语言模型如何适应数学语言也非常重要。数学因其严密的逻辑和抽象的概念，需要用符号和语法组合复杂的专门语言来表达。与自然语言不同，数学表达依赖于未说明的规则和假设，需要明确的知识和高度的精确性。这意味着，即使在现代语言模型中，数学推理仍然是一项重大挑战。

本文研究了大规模语言模型回答数学开放式问题（不能用 "是/否 "回答的问题）的能力。MSE 包含从初等数学到高等数学的各种问题，要求应用正确的数学原理并对复杂的推理进行清晰易懂的解释。开放式问题的重点在于促进对数学概念的深刻理解，并为大规模语言模型提供了衡量数学推理技能进步的基准。

报告还评估了生成的响应，通过案例研究确定了挑战，并考虑了大规模语言建模的未来方向，以弥合理解自然语言和数学语言之间的差距。

数据集和方法

由于问题的多样性和所需的专业知识，手动验证数学堆栈交换（MSE）中问题的答案并不现实。为此，我们使用了 ArqMATH 竞赛数据集。该数据集是 MSE 问题-答案对的集合，第三届竞赛的[任务 1]侧重于从 MSE 中获取与78 道大学数学题相关的答案。评估由学生进行，每个题目平均有450 个回答被评为优秀。

本次评估使用了六种大型语言模型（ToRA、LLeMa、GPT-4、MAmmoTH、MABOWDOR 和 Mistral 7B）。实验还在两种情况下进行。

在第一种情况下（答案生成），使用选定的大规模语言模型分两个阶段回答 MSE 问题。首先，将 78 个问题交给大规模语言模型来生成答案。但是，MABOWDOR 使用的是基于 BERT 的密集段落检索（Dense Passage Retrieval），它只能生成嵌入。然后，生成的答案将作为嵌入索引，并与 ArqMATH 中的所有其他答案进行搜索，以找出最相似的答案。

在第二种情况（问题-答案比较）中，使用选定的大规模语言模型生成所有可能的 ArqMATH 答案嵌入以及 78 个问题嵌入。最后，找出与问题最相似的答案。

基准

这里使用平均精度 (mAP)、精度@10 (P@10)、归一化贴现累积增益 (nDCG) 和二进制偏好 (BPref) 来显示评估结果。ArqMAT.所有这些分数都来自 ArqMATH 数据集中的评估响应。

生成答案的第一步是使用选定的六个模型生成答案。生成的答案将用作查询，从 ArqMATH 答案库中搜索相关答案。搜索使用 DPR 向量嵌入和余弦相似性。

下表显示了所有模型的比较结果。结果表明，专门为数学任务定制的模型性能优于 DPR 基准。特别是，增加模型大小并不能改善结果：在 MATH 数据集上得分最低的 Mistral 模型与 Tora-7b 的表现一样好。这表明，在 MATH 数据集上表现优异的模型可能与特定任务过于匹配。

另一方面，GPT-4 生成的答案在 P@10 分数上超过了 DPR 基准线，在 ArqMATH3 任务 1 中的表现也优于目前最好的方法 MABOWDOR。

问题与答案的比较也侧重于使用嵌入将问题与最相关的答案进行匹配。由于该模型最初是为基于提示的答案而设计的，因此需要进行调整以方便嵌入的生成。为此，在提示语 "简而言之，这段文字的意思是："前面加上了最后的标记嵌入。此外，还引入了三个与数学相关的示例答案，以指导大规模语言模型，具体如下。

第一，"这段文字：''的词性是'期望值'"；第二，"这段文字：''的词性是'圆'"。

'圆'" 第三，"这段文字：'椭圆的中心与其两个焦点之间的距离'用了一个词：'偏心率'"。

由于 Tora-7b 的性能不如 ArqMATH 的平均方法，因此我们对所有系统的答案进行了重新排名。由于 LLeMa 和 MAmmoTH 在 MATH 和 GSM 基准测试中的表现不如 Tora，因此对它们重新排名的有效性预期较低。分析表明，Tora-7b 的 Precision@10 不如上述表格中的所有运行。这表明，比较问题和答案嵌入可能无法解决查找相关答案的问题。

案例研究：GPT-4 和 DPR 的性能比较

在此，两位具有数学和计算机科学专业知识的注释者对 GPT-4 在生成所选问题答案方面的性能进行了评估。该评估借鉴了zbMATH Open2，这是一项针对纯数学和应用数学的多语言摘要和评论服务。主要重点是比较 GPT-4 和 Dense Passage Retrieval (DPR) 的检索性能。特别是，重点放在 GPT-4 提高了检索准确率的问题和 DPR 优于 GPT-4 的问题上。

下图表示 DPR 和 GPT-4 之间 P@10 差异的频率（P@10GPT-4 - P@10DPR）。根据下图所示的分析，在数学知识竞赛（MSE）的78 道试题中，GPT-4 在 38 道试题的准确性和生成相关答案的能力方面都有所提高。

此外，GPT-4 对下图所示问题的回答从 P@10を0.0 (DPR) 提高到 0.6。DPR 的第一个搜索结果不包括二项式系数，但 GPT-4 的结果至少包括 𝑛 展开。DPR 无法在没有上下文的情况下理解等式。GPT-4 可以很好地理解基本等式，因为它无法推断出基本等式。

此外，下图所示问题的 P@10 值从 DPR 的 0.5 降至 GPT-4 的 0.1。 GPT-4 答案没有解释供稿人询问的特定线段是如何从前提中推导出来的，因此没有抓住重点。GPT-4 生成的搜索答案已观察到一种将系统引向错误方向的模式。得到的答案只对曲线切线的概念进行了一般性解释，这与 GPT-4 的部分答案是一致的。这表明，GPT-4 无法回答数学概念之间复杂互动的问题。

此外，我们还发现，从较小的模型（除 GPT-4 外，基本上是所有模型）中获得的答复质量很低，往往误解了提示格式，而且答复不一致。有些问题除了序列结束标记外不产生任何输出。另一方面，Mistral 比 Tora 更善于保持对话语气，其推理也更有条理。不过，由于输入变量错误，公式不是以 LaTeX 格式编写的，质量也较低。

另外，请与下面的问题进行比较：Tora-7b-Codeの回答を使用するとPrecision@10が0.5から0.8に向上することがわかりました。在下图中，Tora 模拟了 MSE 中通常存在的线程，而不是实际答案。作为答案，它是不一致的，逻辑上也是错误的。

以上是 GPT-4、DPR 和 Tora-7b-Code 性能案例研究的概述。本文强调了每个模型的优缺点，并为今后的改进提供了宝贵的见解。

总结

本文研究了大规模语言模型在处理数学堆栈交换（MSE）中的问题时的表现。首先，本文使用 SOTA 语言模型评估了MSE 中的各种开放式问题，该模型在数学问题解答（MathQA）数据集上表现出色。结果表明，GPT-4 的表现优于其他模型，其 nDCG 得分为 0.48，Precision@10 (P@10) 得分为 0.37。特别是在 ArqMATH3 任务 1 中，GPT-4 显示出非常高的视觉性能。

此外，我们还进行了案例研究，以详细评估 GPT-4 的有效性。人们发现，在传统的 MathQA 数据集上表现良好的大规模语言模型往往会生成错误的答案。相比之下，GPT-4 能够为简单的数学问题生成适当的答案，但对于较为复杂且需要专业知识的问题，其准确性则有所下降。