上次说 DeepSeek 识图功能不如豆包!让很多人不开心了。
其实没必要,寸有所长,尺有所短,很正常!
我只是说识图功能,豆包是比 DeepSeek 强,这个没毛病!但是豆包也并不会强到哪里去。

今天这个题目,豆包就失败了,当然 DeepSeek 也一样,Qwen、Kimi 同样都躺了,即便是 GPT、Claude 也无法正确回答。
AI 很强,但是人类总是能找到各种角度击败它们!
这次是一个视觉理解题,图片如下:

我给了它们这张图片,然后问道:
如果两炮能打掉红色框中的砖块,那么黄色坦克朝右开两枪会怎么样?基地会怎么样?
不知道有没有玩过《坦克大战》的"老伙伴",是否还记得这个 80 后家喻户晓的游戏的规则?
这个题目的刁钻之处在于,我用"如果"修改了基础规则!要做这个题目,AI 必须先理解坦克大战。但是又不能死记硬背,必须通过给定的信息进行图片推理,才能给出正确答案。
下面就来看看 AI 们是如何回答的!
1、DeepSeek
因为 DeepSeek 刚上了图片识别能力,所以它先来:

DeepSeek 的结论是:
基地将会因为右侧防线被自己人打碎而陷入极度的危险,极易被敌方坦克从右侧直接摧毁。 这是一个典型的"帮倒忙"操作。
它的解释过程中说,由于这块砖和红框里的砖一样,需要两枪才能彻底打掉!这一步已经离谱了。这两块砖明显不一样,一个是另外一个的 1/2,这只要有眼睛就看得出来。当然,如果背规则的话,这个位置的墙确实需要两枪才能打掉。
2、豆包
因为上一次豆包略胜 DeepSeek,所以它第二个出场:

豆姐好强,居然说基地被摧毁,本局直接失败!
但是,我怀疑它是瞎蒙的,瞎猫撞到死老鼠。因为它在解释第一枪、第二枪的时候,把两枪混在一起说了,所以我怀疑它对这个问题理解并不是很透彻。
所以我再问了一次:

它的结论是:
- 黄色坦克向右开两枪:红色框里的红砖会被完全击碎,中间横向通道出现缺口;
- 基地(老鹰)不会受到任何伤害,保持完好。
对嘛,这才是豆姐的水平!
3、Kimi
Kimi 号称原生多模态,对图片、网页、视频的理解能力非常强。所以把它也拉上吧。
它的答案如下:

Kimi K2.6 的结论是:
黄色坦克朝右开两枪的结果
- 第一炮:向右飞行,击中右侧的灰色钢板(金属块),被弹回或消失,无法穿透。
- 第二炮:同上,依然被钢板挡住。
基地状态:完全安全,毫发无损。
Kimi 在推理的过程中说:"第二炮同上,依然被钢板挡住。"这个描述就非常离谱了,这里哪里来的钢板?
4、千问
千问是阿里的模型,最新模型 Qwen3.7 Max 号称全国第一!
所以也让千问来试试:

千问的结论是:
黄色坦克朝右开两枪后,基地左侧的砖块墙会被打掉,基地暴露出来(处于"裸奔"状态),但基地本身不会受损。
很显然,它的结论也是错误的。
但是,它的分析过程还是有一些亮点的!
它居然提到了一个非常细节的点:
UI 信息 :看右下角的
★x0,说明玩家(黄色坦克)当前没有吃过星星,处于 1 级火力(最初级)。
我这么多年了,好像都没有留意过这一点。也可能之前记得,现在完全忘记了!
可惜!它虽然看得很仔细,规则也非常清晰,但是它始终还是忘了推理。 我说的"如果"其实相当于是把坦克说成了 1 星战力!这个时候其实是和图片显示冲突的。但是我的"如果"优先级肯定最高!它如果能解释一下这个逻辑分支,就真的是厉害了。
5、GPT
GPT 是目前最大的人工智能公司 OpenAI 的产品,这个产品几乎引领了这个时代。我就用它们家最强的 GPT5.5 来测试。
测试结果如下:

GPT5.5 的结论是:
第一炮:打到它右侧、基地左边那堵砖墙,炸掉一部分砖。
第二炮:继续炸掉同一条线上的剩余砖块,打开通道。
基地不会在这两炮内爆炸,因为两发子弹都被砖块消耗掉了。
平时说话一套一套的 GPT,在这个问题上也完全是胡说八道。它基本上也是背的规则,就是两炮才能干掉基地的围墙。
6、Gemini
Gemini 是谷歌的产品,目前最新版本为 3.5 Flash。
我就用这个来测试:

它的结论是:
立刻:基地不会被玩家自己击毁。因为根据您的设定(两炮刚好打掉一整块砖),这两发炮弹的力量会全部消耗在破坏这块保护墙上,炮弹不会穿透过去伤害到基地。
后续:基地将陷入极度危险之中。基地左侧的防御将完全消失,直接暴露在外面。一旦左侧通道有敌方坦克向下移动并向右开火,或者有敌方坦克从其他位置绕到这个缺口,基地就会被一枪秒杀,导致游戏失败(Game Over)。
谷歌作为搜索大厂,很显然它是大量参考了现有的资料,所以得出了错误的结论。
7、Claude
Claude 是 Anthropic 的旗舰系列模型。作为目前编程领域最强的模型,并且综合能力顶尖的模型,它是我最喜欢的模型。 必须也要让它来参与一下:

它的结论是:
这两枪刚好把基地左侧的砖墙打掉;
这两发子弹都被砖墙消耗掉了,所以不会直接命中老鹰------基地本身这两枪打不死;
但结果是:你亲手拆掉了自家基地的防护墙,基地左侧门户大开、完全暴露。
很遗憾,Claude 也是按照了"两炮打掉一块砖"的规则来推理。
国内四家,国外三家,比较厉害的模型都测了,但是结果就是这个结果,没有一个是完全正确的!如果我再强调一下墙的厚度,我估计不少 AI 就会顺杆爬了。
结果就是这样,其实这个题目并不简单。有几个难点!
第一,这个地图是我用 AI 生成的,和老版本不同。
第二,我设置了"如果"的规则,和老版本规则不一致。
第三,首先要理解我的规则,其次,要理解位置关系,最后得理解厚薄关系!
在坦克大战中,正常情况下,0星战力需要四枪打掉一个方砖。基地是 1/2 砖🧱,需要两枪打穿。
我的规则是两枪打破 1 块砖,也就是一枪打破 1/2 砖🧱!
从这个题目来看,各家模型基本上还是以固有只是为主,缺乏主动推理的能力。有些模型可能看到了这个墙的厚度差别,但是最后的结论还是需要两枪打破保护墙,只有第三枪才会干掉老鹰。
现在AI在基础知识方面已经很强了,但是"如果" 条件变多,它们就很容易躺!
我之前叫全球最强的模型Fable帮我复刻了一个坦克大战,整体来看做的非常好,但是当我深入规则之后发现细节问题还是不少的。 虽然各家宣传都很厉害,但是实际使用中还是会有各种各样的问题。
这也是我做系列测试的意义。我不测基准,也不测官方给的demo,也不测网上热门例子,只测它们想不到的问题!
我们之前也测试过然让不同AI还原超级玛丽,接下来我测试一下它们1:1复刻坦克大战的能力,这次会直接测试智能体+模型的综合能力!
另外,如果大家喜欢玩坦克大战这个游戏的话,可以尝试下,我复刻的3D版:

在线可玩(也有电脑端HD版):
这是直接通过Claude+Codex完成制作的,玩起来也很上头!
放在2026年原版确实简陋了,套上新壳之后,就像一个全新的游戏,当然保留了原始的规则!