坦克大战测试全翻车了！豆包，DeepSeek，Qwen，GPT，Claude

上次说 DeepSeek 识图功能不如豆包！让很多人不开心了。

其实没必要，寸有所长，尺有所短，很正常！

我只是说识图功能，豆包是比 DeepSeek 强，这个没毛病！但是豆包也并不会强到哪里去。

今天这个题目，豆包就失败了，当然 DeepSeek 也一样，Qwen、Kimi 同样都躺了，即便是 GPT、Claude 也无法正确回答。

AI 很强，但是人类总是能找到各种角度击败它们！

这次是一个视觉理解题，图片如下：

我给了它们这张图片，然后问道：

如果两炮能打掉红色框中的砖块，那么黄色坦克朝右开两枪会怎么样？基地会怎么样？

不知道有没有玩过《坦克大战》的"老伙伴"，是否还记得这个 80 后家喻户晓的游戏的规则？

这个题目的刁钻之处在于，我用"如果"修改了基础规则！要做这个题目，AI 必须先理解坦克大战。但是又不能死记硬背，必须通过给定的信息进行图片推理，才能给出正确答案。

下面就来看看 AI 们是如何回答的！

1、DeepSeek

因为 DeepSeek 刚上了图片识别能力，所以它先来：

DeepSeek 的结论是：

基地将会因为右侧防线被自己人打碎而陷入极度的危险，极易被敌方坦克从右侧直接摧毁。 这是一个典型的"帮倒忙"操作。

它的解释过程中说，由于这块砖和红框里的砖一样，需要两枪才能彻底打掉！这一步已经离谱了。这两块砖明显不一样，一个是另外一个的 1/2，这只要有眼睛就看得出来。当然，如果背规则的话，这个位置的墙确实需要两枪才能打掉。

2、豆包

因为上一次豆包略胜 DeepSeek，所以它第二个出场：

豆姐好强，居然说基地被摧毁，本局直接失败！

但是，我怀疑它是瞎蒙的，瞎猫撞到死老鼠。因为它在解释第一枪、第二枪的时候，把两枪混在一起说了，所以我怀疑它对这个问题理解并不是很透彻。

所以我再问了一次：

它的结论是：

黄色坦克向右开两枪：红色框里的红砖会被完全击碎，中间横向通道出现缺口；

基地（老鹰）不会受到任何伤害，保持完好。

对嘛，这才是豆姐的水平！

3、Kimi

Kimi 号称原生多模态，对图片、网页、视频的理解能力非常强。所以把它也拉上吧。

它的答案如下：

Kimi K2.6 的结论是：

黄色坦克朝右开两枪的结果

第一炮：向右飞行，击中右侧的灰色钢板（金属块），被弹回或消失，无法穿透。

第二炮：同上，依然被钢板挡住。

基地状态：完全安全，毫发无损。

Kimi 在推理的过程中说："第二炮同上，依然被钢板挡住。"这个描述就非常离谱了，这里哪里来的钢板？

4、千问

千问是阿里的模型，最新模型 Qwen3.7 Max 号称全国第一！

所以也让千问来试试：

千问的结论是：

黄色坦克朝右开两枪后，基地左侧的砖块墙会被打掉，基地暴露出来（处于"裸奔"状态），但基地本身不会受损。

很显然，它的结论也是错误的。

但是，它的分析过程还是有一些亮点的！

它居然提到了一个非常细节的点：

UI 信息 ：看右下角的 ★x0，说明玩家（黄色坦克）当前没有吃过星星，处于 1 级火力（最初级）。

我这么多年了，好像都没有留意过这一点。也可能之前记得，现在完全忘记了！

可惜！它虽然看得很仔细，规则也非常清晰，但是它始终还是忘了推理。我说的"如果"其实相当于是把坦克说成了 1 星战力！这个时候其实是和图片显示冲突的。但是我的"如果"优先级肯定最高！它如果能解释一下这个逻辑分支，就真的是厉害了。

5、GPT

GPT 是目前最大的人工智能公司 OpenAI 的产品，这个产品几乎引领了这个时代。我就用它们家最强的 GPT5.5 来测试。

测试结果如下：

GPT5.5 的结论是：

第一炮：打到它右侧、基地左边那堵砖墙，炸掉一部分砖。

第二炮：继续炸掉同一条线上的剩余砖块，打开通道。

基地不会在这两炮内爆炸，因为两发子弹都被砖块消耗掉了。

平时说话一套一套的 GPT，在这个问题上也完全是胡说八道。它基本上也是背的规则，就是两炮才能干掉基地的围墙。

6、Gemini

Gemini 是谷歌的产品，目前最新版本为 3.5 Flash。

我就用这个来测试：

它的结论是：

立刻：基地不会被玩家自己击毁。因为根据您的设定（两炮刚好打掉一整块砖），这两发炮弹的力量会全部消耗在破坏这块保护墙上，炮弹不会穿透过去伤害到基地。

后续：基地将陷入极度危险之中。基地左侧的防御将完全消失，直接暴露在外面。一旦左侧通道有敌方坦克向下移动并向右开火，或者有敌方坦克从其他位置绕到这个缺口，基地就会被一枪秒杀，导致游戏失败（Game Over）。

谷歌作为搜索大厂，很显然它是大量参考了现有的资料，所以得出了错误的结论。

7、Claude

Claude 是 Anthropic 的旗舰系列模型。作为目前编程领域最强的模型，并且综合能力顶尖的模型，它是我最喜欢的模型。必须也要让它来参与一下：

它的结论是：

这两枪刚好把基地左侧的砖墙打掉；

这两发子弹都被砖墙消耗掉了，所以不会直接命中老鹰------基地本身这两枪打不死；

但结果是：你亲手拆掉了自家基地的防护墙，基地左侧门户大开、完全暴露。

很遗憾，Claude 也是按照了"两炮打掉一块砖"的规则来推理。

国内四家，国外三家，比较厉害的模型都测了，但是结果就是这个结果，没有一个是完全正确的！如果我再强调一下墙的厚度，我估计不少 AI 就会顺杆爬了。

结果就是这样，其实这个题目并不简单。有几个难点！

第一，这个地图是我用 AI 生成的，和老版本不同。

第二，我设置了"如果"的规则，和老版本规则不一致。

第三，首先要理解我的规则，其次，要理解位置关系，最后得理解厚薄关系！

在坦克大战中，正常情况下，0星战力需要四枪打掉一个方砖。基地是 1/2 砖🧱，需要两枪打穿。

我的规则是两枪打破 1 块砖，也就是一枪打破 1/2 砖🧱！

从这个题目来看，各家模型基本上还是以固有只是为主，缺乏主动推理的能力。有些模型可能看到了这个墙的厚度差别，但是最后的结论还是需要两枪打破保护墙，只有第三枪才会干掉老鹰。

现在AI在基础知识方面已经很强了，但是"如果" 条件变多，它们就很容易躺！

我之前叫全球最强的模型Fable帮我复刻了一个坦克大战，整体来看做的非常好，但是当我深入规则之后发现细节问题还是不少的。虽然各家宣传都很厉害，但是实际使用中还是会有各种各样的问题。

这也是我做系列测试的意义。我不测基准，也不测官方给的demo，也不测网上热门例子，只测它们想不到的问题！

我们之前也测试过然让不同AI还原超级玛丽，接下来我测试一下它们1:1复刻坦克大战的能力，这次会直接测试智能体+模型的综合能力！

另外，如果大家喜欢玩坦克大战这个游戏的话，可以尝试下，我复刻的3D版：

在线可玩（也有电脑端HD版）：

www.jarvisuni.com/game/tanke3...

这是直接通过Claude+Codex完成制作的，玩起来也很上头！

放在2026年原版确实简陋了，套上新壳之后，就像一个全新的游戏，当然保留了原始的规则！