从一个简单的计算问题,看国内几个大语言模型推理逻辑能力

引言

首先,来看问题:

123456*987654等于多少,给出你计算的过程。

从openai推出chatgpt以来,大模型发展的很快,笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了,笔者想当然的认为这样一个简单的计算问题,应该很容易得到正确的结果和答案,可是从得到的回答看,大模型的逻辑推理能力显然还不太行,还有这样或者那样的问题。

比较结果

下面表格是这个问题国内的几个大模型回答的结果比较(后附回答截图)。唯一笔者认为完美无错的给出解答的是文心大模型turbo4.0,果然花钱的就是要香一些。在回答问题的过程中,笔者诧异的发现文心大模型3.5、通义千问2.5、月之暗面在子计算过程中犯几乎一样的错误,难免会让人浮想联翩:三个大模型是同一个模型出来的?对比chagpt,计算过程不完整,结果也错误。看来国外和国内的在推理逻辑上并没差多少。

从我的角度看,如果给出的计算过程正确,说明具有一定的推理逻辑能力。但是为什么一个简单的计算结果却还是出错,让笔者又不得不怀疑现在大模型的逻辑推理能力,对数学计算并不完全理解?

|---------------|---------------------|----|-------------------------|
| 模型 | 计算过程 | 结果 | 对问题的理解 |
| 文心大模型3.5 | 缺少部分子计算,子计算过程存在错误 | 错误 | 理解,给出了计算过程 |
| 文心大模型4.0 | 复杂化计算,计算过程存在错误 | 错误 | 理解,给出了计算过程,但给出了复杂化的计算过程 |
| 文心大模型turbo4.0 | 正确 | 正确 | 理解,给出了计算过程 |
| 通义千问2.5 | 部分子计算过程错误 | 错误 | 理解,给出了计算过程 |
| 深度求索2.5 | 正确 | 错误 | 理解,给出了计算过程 |
| 月之暗面 | 部分子计算过程错误 | 错误 | 理解,给出了计算过程 |
| 星火大模型 | 正确 | 错误 | 部分理解,再次提问才给出了计算过程 |
| 智普轻言 | 缺少部分子计算过程,子计算过程存在错误 | 正确 | 部分理解,再次提问才给出了计算过程 |
| Chatgpt4o | 缺少部分子计算过程 | 错误 | 理解,给出了计算过程 |

结论

从测试结果来看,笔者认为文心大模型turbo4.0逻辑性推理性都还可以,深度求索2.5次之,其他的暂时还不太行。大名鼎鼎的chagpt过程和结果也不行,所以咱们也不要妄自菲薄,相信国人的智慧。

具体的过程和结果看截图:

文心大模型3.5

123456为毛乘以4确等于740736,请记住这个结果,后边部分的模型计算过程中也会出这样的错,师出同门吗?位数全搞错了,还少位数。

文心大模型4.0

看到这个因式分解,脑洞之大开,不得不让人感叹很强大,说一声厉害,但一顿操作猛如虎,结果只能让人呵呵了。

文心大模型turbo4.0

完美,虽然最后结果可能调用了计算器或者代码,但使用的目的不就是为了省心,不出错吗。花了1毛钱,找的免费试用的链接,花钱的就是香。

通义千问2.5

计算过程中的个位、千位计算错误,明明写的123456*4,实际值却是乘以6。

深度求索2.5

推理过程正确,但为毛结果错误???

月之暗面

计算的逻辑有些问题,没理解不同的位数,个十百位混乱,但计算步骤正确,但是结果又是错误(按混乱后的个十百位计算出的结果之和)。这个第一个结果(740736),和文心一言3.5、通义千问一样的错误,让人不得不怀疑这三个模型是同根同源的。

星火大模型

第一次回答没给出计算过程,结果应该是调用计算器或者编程给出的,第二次给出计算过程,中间的计算正确,最后计算结果错误,又让人搞不懂了。推测无上下文逻辑联系功能,否则不会给出错误的结果还一本正经的胡说,稍微多几项的加法就算错就不行了。

智普轻言

第一次明明白白的告诉结果是调用代码生成的,第二次给出计算过程,部分子计算不正确,但结果又正确了,这让人也搞不懂了。推测结果是基于上下文,但是中间这个逻辑推理不行,说明并不理解计算。

Chatgpt4o

千位、万位计算缺失,也不过如此。

相关推荐
AndrewHZ23 分钟前
【图像处理基石】如何入门色彩评估?
图像处理·人工智能·深度学习·色彩科学·hvs·色彩评估·颜色工程
TomatoSCI23 分钟前
聚类的可视化选择:PCA / t-SNE丨TomatoSCI分析日记
人工智能·机器学习
大咖分享课25 分钟前
深度剖析:最新发布的ChatGPT Agent 技术架构与应用场景
人工智能·openai·智能助手·ai代理·chatgpt agent·自主任务执行
lucky_lyovo36 分钟前
卷积神经网络--网络性能提升
人工智能·神经网络·cnn
liliangcsdn40 分钟前
smolagents - 如何在mac用agents做简单算术题
人工智能·macos·prompt
nju_spy44 分钟前
周志华《机器学习导论》第8章 集成学习 Ensemble Learning
人工智能·随机森林·机器学习·集成学习·boosting·bagging·南京大学
静心问道1 小时前
TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型
人工智能·深度学习·transformer·多模态
说私域1 小时前
基于开源AI大模型、AI智能名片与S2B2C商城小程序源码的用户价值引导与核心用户沉淀策略研究
人工智能·开源
亲持红叶1 小时前
GLU 变种:ReGLU 、 GEGLU 、 SwiGLU
人工智能·深度学习·神经网络·激活函数
说私域1 小时前
线上协同办公时代:以开源AI大模型等工具培养网感,拥抱职业变革
人工智能·开源