从一个简单的计算问题，看国内几个大语言模型推理逻辑能力

引言

首先，来看问题：

123456*987654等于多少，给出你计算的过程。

从openai推出chatgpt以来，大模型发展的很快，笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了，笔者想当然的认为这样一个简单的计算问题，应该很容易得到正确的结果和答案，可是从得到的回答看，大模型的逻辑推理能力显然还不太行，还有这样或者那样的问题。

比较结果

下面表格是这个问题国内的几个大模型回答的结果比较(后附回答截图)。唯一笔者认为完美无错的给出解答的是文心大模型turbo4.0，果然花钱的就是要香一些。在回答问题的过程中，笔者诧异的发现文心大模型3.5、通义千问2.5、月之暗面在子计算过程中犯几乎一样的错误，难免会让人浮想联翩：三个大模型是同一个模型出来的？对比chagpt，计算过程不完整，结果也错误。看来国外和国内的在推理逻辑上并没差多少。

从我的角度看，如果给出的计算过程正确，说明具有一定的推理逻辑能力。但是为什么一个简单的计算结果却还是出错，让笔者又不得不怀疑现在大模型的逻辑推理能力，对数学计算并不完全理解？

|---------------|---------------------|----|-------------------------|
| 模型 | 计算过程 | 结果 | 对问题的理解 |
| 文心大模型3.5 | 缺少部分子计算，子计算过程存在错误 | 错误 | 理解，给出了计算过程 |
| 文心大模型4.0 | 复杂化计算，计算过程存在错误 | 错误 | 理解，给出了计算过程，但给出了复杂化的计算过程 |
| 文心大模型turbo4.0 | 正确 | 正确 | 理解，给出了计算过程 |
| 通义千问2.5 | 部分子计算过程错误 | 错误 | 理解，给出了计算过程 |
| 深度求索2.5 | 正确 | 错误 | 理解，给出了计算过程 |
| 月之暗面 | 部分子计算过程错误 | 错误 | 理解，给出了计算过程 |
| 星火大模型 | 正确 | 错误 | 部分理解，再次提问才给出了计算过程 |
| 智普轻言 | 缺少部分子计算过程，子计算过程存在错误 | 正确 | 部分理解，再次提问才给出了计算过程 |
| Chatgpt4o | 缺少部分子计算过程 | 错误 | 理解，给出了计算过程 |