👋 Hi,继《谁是视觉推理 AI 之王?》之后,我又来整没人整过的活了。
先请你只看下面这张图片,根据线索猜出图中的字谜,打 5 个字:

能猜出来吗?公布答案......
⬇️
------疯狂星期四
疯狂 的派大星 ,骑 了一个西红柿 ,即 "疯狂星骑柿" 。
最近在明星综艺「毛雪汪」、小红书中,这种「看图猜字谜」的抽象推理题很火:根据线索图,猜出谜面对应的词语。

是不是......很"抽象"?

人类答这种题尚有难度,那你是否好奇...擅长视觉识别与文本推理的视觉推理大模型表现如何呢?🤣
所以我又拉了 8 家顶级的视觉推理模型(国外的有 GPT、Gemini、Claude 三巨头,国内则囊括 豆包、Qwen、智谱、腾讯混元、阶跃等主流多模态模型),一起来接受抽象题的洗礼。

你猜,谁是最聪明、最能搞抽象的大模型?(从正经角度来看,也能考核出各家 VLM 的视觉识别能力与推理智力水平)
简单介绍「AI 看图猜谜」赛制
本次视觉抽象题比赛,排除了不擅长推理的 VLM 后,共有 8 名参赛选手:

比赛规则很简单:
- 比赛共 3 档不同难度,每档测试 2 轮(其实幕后测试了大量题目,但文章篇幅原因,不全部列出)
- 通过统一的比赛 Prompt,要求 AI 给出视觉识别内容、推理过程与最终谜底
ini
你是一位顶级的看图猜字谜大师,能清晰地识别"线索图"和"谜题图",并充分利用图中线索,猜出谜底。通常来说,谜底往往会让人会心一笑,感觉非常巧妙且合理。
# 提示
谜底范围:网络热梗(根据题型可换:成语/常见名词等)
谜底字数:5 个汉字
# 输出格式要求
【识别内容】[一句话描述你看到了什么]
【关键推理过程】[一句话描述怎么推理得到谜底的]
【谜底】[直接给出谜底答案]
- 根据回答情况,每题 答案正确、识别正确 各 +1 分,未遵指令 -1 分,计算最终总分,得出视觉推理 AI 的表现排名。
当然,你们不妨也可以一起玩一玩,and 猜猜哪家 AI 是最终的 TOP 1 😏
1️⃣ 难度一:视觉识别,单步推理
先从单步推理开始测试,这类题型的特征是视觉识别的描述文本,近乎直接涵盖了答案的全部谐音要素。
例如:粉色螺丝 ➡️ 螺丝粉 = 螺蛳粉
第 1 轮:这是鸡

线索图:这是鸡
谜面图:一只鸡拿着手电筒照在大象上
本题相对来说还算 easy,你是否能猜到答案?
以 GPT5 的推理过程为例,AI 很顺畅地给出了正确答案:

-
视觉识别: AI 们利用多模态,识别出谜面图的视觉信息:一只鸡拿着手电筒照射大象
-
推理分析:
- 从视觉信息,提炼出"鸡照象"的关键要素
- 最终通过谐音,联想并组织词序,猜出最终结果"照相机"
其他模型的推理过程也较为类似(在右半侧图,作为示例,你还能看到详细的推理过程):

最终,第 1 轮中 AI 们取得了 100% 完全正确率,这类题型对于 AI 来说,确实可解。
本轮答题情况 ⬇️:

第 2 轮:这是松树
相同难度的直接推理题,还准备了这道。
也只要视觉识别环节没有遗漏信息,就可以通过视觉内容,直接想到最终答案。

从结果来看,本轮比赛,除了 Claude Opus 4.1 回答错误,全部答对了题目。
第 2 轮答案为:马用绳拉着松树
即,马拉松
7 家答对的 AI 们基本都是按这个思路完成了解题:

唯独 Claude 在视觉识别环节,直接漏了要素,漏看了中间那根绳子,导致关键要素缺失,无法完成正确推理。

本轮答题情况 ⬇️:

2️⃣ 难度二:引申理解,简单的多步推理
稍微上一点强度,该难度的题目普遍需要 AI 根据视觉识别的直接结果,进行一定的引申理解,才能凑齐解题的全部谐音要素。
也对视觉推理模型的推理能力提出了更高的要求:
第 3 轮:这是鬼

谜面图:一只鸡走在一个鬼的前面,喊着 gogogo
提升完难度后,本轮完全正确的 AI 只有两个:Gemini 2.5 Pro 和 Claude Opus 4.1。
➡️ 正确答案为"鸡领着鬼",即 "机灵鬼" 。
正确的两个 AI,Gemini、Claude 各自分析如下:

错误的 AI 们则错的五花八门,好在视觉识别上,该识别的都识别出来了:

BTW,GLM-4.5V 和混元,在此题中,分别给出了"归鸡"、"机不可失"两个与 Prompt 提示谜底字数不同的结果,未完全遵循指令。

本轮答题情况 ⬇️:

第 4 轮:这是管子
这道题我倒是没反应过来......不知道你们如何?

谜面图:光标点击一个 Download 按钮,一根管子
要解这题,就得考虑跨语言的文本翻译,答案推导过程如下:
- Download 的中文是"下载"。
- 下载 + 管子 = 下管子 = 下馆子
本轮答题情况 ⬇️:

其中,GPT、QVQ、GLM 给出的错误答案分别是:管下载、下管子、管他下。
QVQ 还是挺可惜的,就差一个谐音字,就能出来结果了,可能是知识激活的不够?
3️⃣ 难度三:多重分析,复杂多步推理
从这个难度开始,对于人类玩家来说,也是上了强度了。(我自己在测的时候,我是一题都没做出来。只有一个天天玩抽象的朋友解出了答案,特此膜拜 ing)
不仅要能正确识别画面信息,拥有充足的知识,还要能够积极地对已知信息进行含义的多重解释与拆字分析。
第 5 轮:这是橙子

谜面图:2 只鸡站在大量的橙子上
这一轮 Claude 给出的推理过程最为完整正确:
鸡相对较少,橙子满地很多,所以"鸡少橙多"➡️ "积少成多"。

GLM、豆包也都对了答案,但推理其实并没有很完备(不过既然也算是做 Benchmark 测试,那对了就是对了)


剩下的 AI,则答案分歧的千奇百怪:
GPT-成绩斐然、QVQ-鸡立成群、Step-可乘之机、混元-诚心诚意。
本轮答题情况 ⬇️:

第 6 轮:这是疯了的派大星
最后一题,Call back 到文章开头的题目:
这是疯了的派大星,打一个 5 个字的网络热梗。

谜面图:疯了的派大星坐在一个柿子上
因为从姿势上来看"坐"≈"骑","疯了"≈"疯狂"。
➡️ 所以 疯狂的派大星骑在柿子上,
可得答案:疯狂星骑柿 ➡️ 疯狂星期四。
对于 AI 们来说,这道题同样也是本次比赛最难的题目。
相对冷门的知识点、特殊的断字断句、甚至还有平翘舌音的伪谐音。
论结果,没有一个 AI 解出了最终答案,甚至部分 AI 在神态姿势上,多模态识别也出现了问题。
本轮答题情况 ⬇️:

📍 盘点最终排名
统计 3 种难度,共 6 轮比赛结果,总分排名如下:

小结比赛结果:
-
豆包 Seed 1.6 意外地卷赢了GPT、Gemini,以 10/12 的总成绩,得到了本次「看图猜字谜」比赛的 Top 1(又名抽象视觉推理模型之王)
- 且 6 轮比赛中,视觉识别全部正确,在不同推理难度下均完全遵循指令
- 真是没想到,本来以为这个位置是 Gemini 的。看来豆包 Seed 1.6 的多模态 + 推理的综合能力相当能打。
-
Gemini、Claude,以及阶跃的 Step-3 以 9/12 的总成绩,并列第二;Step-3 表现意外突出,没有出现识别错误
💎 模型推荐
如果说想要以此,给出 * 模型选型的参考***,你不妨考虑:**
-
视觉识别上,全部正确的:Doubao-1.6、Step-3、GLM-4.5V、Hunyuan-t1-v、GPT5
-
指令遵循上,全部正确的:Doubao-1.6、Step-3、Gemini 2.5 Pro、Claude Opus 4.1、 QVQ-Max、GPT5
-
要又能视觉识别,又要处理复杂思考任务时遵循指令的话
- 在当前测试来看比较推荐:Doubao-1.6、Step-3、GPT5
- 不过其他几家,比如 GLM-4.5 在正常视觉任务中,表现也不会太差,也依然纳入推荐列表
当然,除了模型能力以外,在真实业务中,还要考虑价格,
所以你不妨对国产模型多一些信心,它们在多模态识别上表现也都追上了全球一线水平,值得在实际业务中测试~
🎐 写在最后
想做这个测试的起因,其实挺简单,就是用"好玩"的 benchmark,测试多模态模型的能力边界:
-
从"鸡照象"到"马拉松" ,我们能看到,当线索直白、逻辑链条单一时,顶级的视觉模型们已经具备了相当可靠的"计算智能"。
- 它们已然能够精准地识别万物,并执行"A+B=C"式的直接推理。这是我们过去几年,见证的最激动人心的技术进步。
-
然而,一旦进入 "鸡领鬼"和"积少成多" 的领域,AI 的表现就开始分化。
- 为什么"2 只鸡 + 一堆橙子"能让人联想到"鸡少橙多"?这背后是我们习以为常的语境和思考经验。
- 这就不仅是直白的视觉识别和逻辑组合,它需要更多的"联想智能":一种基于人类语言习惯、文化背景的引申理解能力。
-
而到了最后的 "疯狂星期四" ,难度更是达到了最高,所有 AI 全军覆没。
- 要解开"疯狂星期四"题,AI 不仅要认出"派大星"和"西红柿"(对,认出固定的角色形象与不太清晰的物品)
- 还要理解"疯狂"的表情神态,理解从"坐"到"骑"这个姿态的近似表达
- 甚至还要知道中文世界里,每周四下午特有的肯德基文化。如此复合的能力要求,对人类文化的理解,缺一不可。
-
Btw:在前期测试中,视觉模型都特别容易数错「图中的下划线数量」,原因离不开当下对图片先切片后理解的识别逻辑。
我们看到,多模态模型如今已具备了相当可靠的视觉识别能力,甚至在纯粹的逻辑推理上不弱于人类------坦白说,我自己的答对数量就不如顶尖的 AI。
但这次比赛的更大价值,是它清晰地揭示了"智能"的下一个台阶在哪里。
想要迈上这个台阶、得到更高的分数,AI 不能只停留在"看懂画面"和"逻辑推导"上。
除了继续优化切片识别、多步推理这类技术硬实力,它尤其需要补上"人文感知"这一课,去理解那些藏在谐音梗、表情和文化符号背后的言外之意。