文献阅读:MathPrompter: Mathematical Reasoning using Large Language Models

  • [文献阅读:MathPrompter: Mathematical Reasoning using Large Language Models](#文献阅读:MathPrompter: Mathematical Reasoning using Large Language Models)
    • [1. 内容简介](#1. 内容简介)
    • [2. 方法细节](#2. 方法细节)
    • [3. 实验内容](#3. 实验内容)
    • [4. 结论&思考](#4. 结论&思考)

1. 内容简介

这篇文章是今年3月份的时候微软提出的一篇工作,其核心的问题是优化了GPT模型在数学问题上的回答准确性。

众所周知,生成模型在生成内容真实性方面一直存在较大的问题,虽然随着GPT模型的持续迭代,模型生成质量一直在不断地提升,不过生成内容可靠性的问题事实上还是一直存在的,无法被彻底根除。

而这个问题在数学问题上更加会被极具放大,而这篇文章的核心工作就是在这方面进行了优化。

但是具体到方法上面,事实上这里也并没有什么根本上的方法改进,事实上也就是一个专门进行数学问题的prompt工程的工作,因此多少还是有些失望。

而且更进一步地,他们的方法的有效性可能也不是纯粹的来自于他们的prompt方法,而是可能来自于系综模型的效果......

anyway,不过无论如何,这篇文章达到的效果是实打实的,因此无论如何还是有一些借鉴意义的。

2. 方法细节

本文的核心方法可以用下图中的流程图进行表述:

它可以抽象为以下两个大的步骤:

  1. 将具体的问题抽象为一个和具体数字无关的代数问题;
  2. 通过重复验证的方式对1中给出的代数问题进行数字化计算,具体包括:
    1. 多种不同的计算方式交叉验证;
    2. 多次计算重复验证;

下面,我们给出文中的具体步骤如下:

  1. 抽象化代数问题
  2. 分别生成1中给出的代数问题解答的代数表达式以及python解答函数;
  3. 计算2中给出的代数表达式的解答以及python函数执行得到的结果;
  4. 重复多次执行,得到的最高频次的回答就最可能是问题最后的答案。

3. 实验内容

下面,我们来看一下文中给出实验结果。

这篇文章的实验内容相对来说还是比较简单的,就是在MultiArith数据集上面做了一些实验,然后获得了比较显著的效果。

给出其具体的实验效果表格如下:

可以看到:

  • 使用math prompter之后,模型的效果确实有了较大幅度的提升。

最后,文中还给出了几个具体的case如下图所示:

可以看到:

  • 使用math prompter之后模型的效果较之baseline确实有了一定的提升,不过依然无法完全规避掉事实性错误,还是会有错误的存在。

4. 结论&思考

综上,我们可以看到:

  • math prompter这篇文章确实是有效的,有效地提升了数学问题上的回答准确性。

不过对于文中使用的方法,我个人多少有点存疑。

首先,文中给出的实例中的数学题本质上都不难,也就是小学应用题的水平,而且都是简单计算题,对于稍微复杂一些的问题,比如说不等式问题或者求最大最小值的问题,似乎上述方法都不具有可扩展性。

另一方面,文中这种交叉验证以及多次生成验证的方式,事实上就是一个ensemble方法,而ensemble的方式获得的效果高于单一模型的效果应该是一个比较公认的结果了。因此文中给出的方法带来的提升有多少来自于他们的mathprompter,有多少来自于ensemble方式事实上也有一些存疑。

综上,这篇文章的价值总让我有一些怀疑......

不过尽管如此,这篇文章关于代数拆分的方式还是很有启发价值的,因为原先的问题如果要一步求解的话,那无疑需要同时完成题意的理解以及数字的计算,尤其后者由于模式太多,因此对大模型的统计概率生成来说尤其显得不友好。

而分钟通过拆分任务的方式让模型先理解问题,然后进行数字求解,本质上就是一个COT方式,无疑大幅简化了任务,增大了单一任务当中模型执行的结果可靠性。

这个思路还是很有启发意义的。

相关推荐
一 铭16 小时前
《Hands_On_LLM》8.2 RAG: 利用语言模型进行语义搜索(Semantic Search with Language Models)
人工智能·语言模型·大模型·llm
网安打工仔20 小时前
斯坦福李飞飞最新巨著《AI Agent综述》
人工智能·自然语言处理·大模型·llm·agent·ai大模型·大模型入门
健忘的派大星20 小时前
【AI大模型】根据官方案例使用milvus向量数据库打造问答RAG系统
人工智能·ai·语言模型·llm·milvus·agi·rag
Milkha2 天前
大模型训练工具,小白也能轻松搞定!
llm·模型训练
HyperAI超神经2 天前
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
阿正的梦工坊3 天前
使用Sum计算Loss和解决梯度累积(Gradient Accumulation)的Bug
llm
yuanlulu3 天前
昇腾环境ppstreuct部署问题记录
人工智能·深度学习·llm·ocr·ppstructure
高性能服务器3 天前
英伟达 2025 CES:GPU与智算中心协同驱动 GPU算力智能变革
大数据·语言模型·llm·aigc·gpu算力·智算中心·ai算力
uncle_ll5 天前
ChatGPT大模型极简应用开发-目录
人工智能·gpt·chatgpt·大模型·llm
AI趋势预见5 天前
基于金融新闻的大型语言模型强化学习在投资组合管理中的应用
人工智能·深度学习·神经网络·语言模型·自然语言处理·金融·llm