从一个简单的计算问题,看国内几个大语言模型推理逻辑能力

引言

首先,来看问题:

123456*987654等于多少,给出你计算的过程。

从openai推出chatgpt以来,大模型发展的很快,笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了,笔者想当然的认为这样一个简单的计算问题,应该很容易得到正确的结果和答案,可是从得到的回答看,大模型的逻辑推理能力显然还不太行,还有这样或者那样的问题。

比较结果

下面表格是这个问题国内的几个大模型回答的结果比较(后附回答截图)。唯一笔者认为完美无错的给出解答的是文心大模型turbo4.0,果然花钱的就是要香一些。在回答问题的过程中,笔者诧异的发现文心大模型3.5、通义千问2.5、月之暗面在子计算过程中犯几乎一样的错误,难免会让人浮想联翩:三个大模型是同一个模型出来的?对比chagpt,计算过程不完整,结果也错误。看来国外和国内的在推理逻辑上并没差多少。

从我的角度看,如果给出的计算过程正确,说明具有一定的推理逻辑能力。但是为什么一个简单的计算结果却还是出错,让笔者又不得不怀疑现在大模型的逻辑推理能力,对数学计算并不完全理解?

|---------------|---------------------|----|-------------------------|
| 模型 | 计算过程 | 结果 | 对问题的理解 |
| 文心大模型3.5 | 缺少部分子计算,子计算过程存在错误 | 错误 | 理解,给出了计算过程 |
| 文心大模型4.0 | 复杂化计算,计算过程存在错误 | 错误 | 理解,给出了计算过程,但给出了复杂化的计算过程 |
| 文心大模型turbo4.0 | 正确 | 正确 | 理解,给出了计算过程 |
| 通义千问2.5 | 部分子计算过程错误 | 错误 | 理解,给出了计算过程 |
| 深度求索2.5 | 正确 | 错误 | 理解,给出了计算过程 |
| 月之暗面 | 部分子计算过程错误 | 错误 | 理解,给出了计算过程 |
| 星火大模型 | 正确 | 错误 | 部分理解,再次提问才给出了计算过程 |
| 智普轻言 | 缺少部分子计算过程,子计算过程存在错误 | 正确 | 部分理解,再次提问才给出了计算过程 |
| Chatgpt4o | 缺少部分子计算过程 | 错误 | 理解,给出了计算过程 |

结论

从测试结果来看,笔者认为文心大模型turbo4.0逻辑性推理性都还可以,深度求索2.5次之,其他的暂时还不太行。大名鼎鼎的chagpt过程和结果也不行,所以咱们也不要妄自菲薄,相信国人的智慧。

具体的过程和结果看截图:

文心大模型3.5

123456为毛乘以4确等于740736,请记住这个结果,后边部分的模型计算过程中也会出这样的错,师出同门吗?位数全搞错了,还少位数。

文心大模型4.0

看到这个因式分解,脑洞之大开,不得不让人感叹很强大,说一声厉害,但一顿操作猛如虎,结果只能让人呵呵了。

文心大模型turbo4.0

完美,虽然最后结果可能调用了计算器或者代码,但使用的目的不就是为了省心,不出错吗。花了1毛钱,找的免费试用的链接,花钱的就是香。

通义千问2.5

计算过程中的个位、千位计算错误,明明写的123456*4,实际值却是乘以6。

深度求索2.5

推理过程正确,但为毛结果错误???

月之暗面

计算的逻辑有些问题,没理解不同的位数,个十百位混乱,但计算步骤正确,但是结果又是错误(按混乱后的个十百位计算出的结果之和)。这个第一个结果(740736),和文心一言3.5、通义千问一样的错误,让人不得不怀疑这三个模型是同根同源的。

星火大模型

第一次回答没给出计算过程,结果应该是调用计算器或者编程给出的,第二次给出计算过程,中间的计算正确,最后计算结果错误,又让人搞不懂了。推测无上下文逻辑联系功能,否则不会给出错误的结果还一本正经的胡说,稍微多几项的加法就算错就不行了。

智普轻言

第一次明明白白的告诉结果是调用代码生成的,第二次给出计算过程,部分子计算不正确,但结果又正确了,这让人也搞不懂了。推测结果是基于上下文,但是中间这个逻辑推理不行,说明并不理解计算。

Chatgpt4o

千位、万位计算缺失,也不过如此。

相关推荐
阿里云云原生7 小时前
如何快速看懂「祖传项目」?Qoder 强势推出新利器
人工智能
美团技术团队7 小时前
LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型
人工智能·算法
程序员小袁9 小时前
基于C-MTEB/CMedQAv2-rerankingv的Qwen3-1.7b模型微调-demo
人工智能
飞哥数智坊10 小时前
AI 编程一年多,我终于明白:比技巧更重要的,是熟练度
人工智能·ai编程
新智元10 小时前
收手吧 GPT-5-Codex,外面全是 AI 编程智能体!
人工智能·openai
IT_陈寒10 小时前
Java 性能优化:5个被低估的JVM参数让你的应用吞吐量提升50%
前端·人工智能·后端
阿里云云原生11 小时前
阿里云基础设施 AI Tech Day AI 原生,智构未来——AI 原生架构与企业实践专场
人工智能
Memene摸鱼日报12 小时前
「Memene 摸鱼日报 2025.9.16」OpenAI 推出 GPT-5-Codex 编程模型,xAI 发布 Grok 4 Fast
人工智能·aigc
xiaohouzi11223312 小时前
OpenCV的cv2.VideoCapture如何加GStreamer后端
人工智能·opencv·计算机视觉
用户1252055970812 小时前
解决Stable Diffusion WebUI训练嵌入式模型报错问题
人工智能