AI 不懂「疯狂星期四」

👋 Hi,继《谁是视觉推理 AI 之王?》之后,我又来整没人整过的活了。

先请你只看下面这张图片,根据线索猜出图中的字谜,打 5 个字:

能猜出来吗?公布答案......

⬇️

------疯狂星期四

疯狂 的派大 了一个西红 ,即 "疯狂星骑柿"

最近在明星综艺「毛雪汪」、小红书中,这种「看图猜字谜」的抽象推理题很火:根据线索图,猜出谜面对应的词语。

是不是......很"抽象"?

人类答这种题尚有难度,那你是否好奇...擅长视觉识别与文本推理的视觉推理大模型表现如何呢?🤣

所以我又拉了 8 家顶级的视觉推理模型(国外的有 GPT、Gemini、Claude 三巨头,国内则囊括 豆包、Qwen、智谱、腾讯混元、阶跃等主流多模态模型),一起来接受抽象题的洗礼。

你猜,谁是最聪明、最能搞抽象的大模型?(从正经角度来看,也能考核出各家 VLM 的视觉识别能力与推理智力水平

简单介绍「AI 看图猜谜」赛制

本次视觉抽象题比赛,排除了不擅长推理的 VLM 后,共有 8 名参赛选手:

比赛规则很简单:

  1. 比赛共 3 档不同难度,每档测试 2 轮(其实幕后测试了大量题目,但文章篇幅原因,不全部列出)
  2. 通过统一的比赛 Prompt,要求 AI 给出视觉识别内容、推理过程与最终谜底
ini 复制代码
你是一位顶级的看图猜字谜大师,能清晰地识别"线索图"和"谜题图",并充分利用图中线索,猜出谜底。通常来说,谜底往往会让人会心一笑,感觉非常巧妙且合理。
# 提示
谜底范围:网络热梗(根据题型可换:成语/常见名词等)
谜底字数:5 个汉字
# 输出格式要求
【识别内容】[一句话描述你看到了什么]
【关键推理过程】[一句话描述怎么推理得到谜底的]
【谜底】[直接给出谜底答案]
  1. 根据回答情况,每题 答案正确、识别正确 各 +1 分,未遵指令 -1 分,计算最终总分,得出视觉推理 AI 的表现排名。

当然,你们不妨也可以一起玩一玩,and 猜猜哪家 AI 是最终的 TOP 1 😏

1️⃣ 难度一:视觉识别,单步推理

先从单步推理开始测试,这类题型的特征是视觉识别的描述文本,近乎直接涵盖了答案的全部谐音要素。

例如:粉色螺丝 ➡️ 螺丝粉 = 螺蛳粉

第 1 轮:这是鸡

线索图:这是鸡

谜面图:一只鸡拿着手电筒照在大象上

本题相对来说还算 easy,你是否能猜到答案?

以 GPT5 的推理过程为例,AI 很顺畅地给出了正确答案:

  1. 视觉识别: AI 们利用多模态,识别出谜面图的视觉信息:一只鸡拿着手电筒照射大象

  2. 推理分析:

    1. 从视觉信息,提炼出"鸡照象"的关键要素
    2. 最终通过谐音,联想并组织词序,猜出最终结果"照相机"

其他模型的推理过程也较为类似(在右半侧图,作为示例,你还能看到详细的推理过程):

最终,第 1 轮中 AI 们取得了 100% 完全正确率,这类题型对于 AI 来说,确实可解。

本轮答题情况 ⬇️:

第 2 轮:这是松树

相同难度的直接推理题,还准备了这道。

也只要视觉识别环节没有遗漏信息,就可以通过视觉内容,直接想到最终答案。

从结果来看,本轮比赛,除了 Claude Opus 4.1 回答错误,全部答对了题目。

第 2 轮答案为:马用绳拉着松树

即,马拉松

7 家答对的 AI 们基本都是按这个思路完成了解题:

唯独 Claude 在视觉识别环节,直接漏了要素,漏看了中间那根绳子,导致关键要素缺失,无法完成正确推理。

本轮答题情况 ⬇️:

2️⃣ 难度二:引申理解,简单的多步推理

稍微上一点强度,该难度的题目普遍需要 AI 根据视觉识别的直接结果,进行一定的引申理解,才能凑齐解题的全部谐音要素。

也对视觉推理模型的推理能力提出了更高的要求:

第 3 轮:这是鬼

谜面图:一只鸡走在一个鬼的前面,喊着 gogogo

提升完难度后,本轮完全正确的 AI 只有两个:Gemini 2.5 Pro 和 Claude Opus 4.1。

➡️ 正确答案为"鸡领着鬼",即 "机灵鬼"

正确的两个 AI,Gemini、Claude 各自分析如下:

错误的 AI 们则错的五花八门,好在视觉识别上,该识别的都识别出来了:

BTW,GLM-4.5V 和混元,在此题中,分别给出了"归鸡"、"机不可失"两个与 Prompt 提示谜底字数不同的结果,未完全遵循指令。

本轮答题情况 ⬇️:

第 4 轮:这是管子

这道题我倒是没反应过来......不知道你们如何?

谜面图:光标点击一个 Download 按钮,一根管子

要解这题,就得考虑跨语言的文本翻译,答案推导过程如下:

  1. Download 的中文是"下载"。
  2. 下载 + 管子 = 下管子 = 下馆子

本轮答题情况 ⬇️:

其中,GPT、QVQ、GLM 给出的错误答案分别是:管下载、下管子、管他下

QVQ 还是挺可惜的,就差一个谐音字,就能出来结果了,可能是知识激活的不够?

3️⃣ 难度三:多重分析,复杂多步推理

从这个难度开始,对于人类玩家来说,也是上了强度了。(我自己在测的时候,我是一题都没做出来。只有一个天天玩抽象的朋友解出了答案,特此膜拜 ing)

不仅要能正确识别画面信息,拥有充足的知识,还要能够积极地对已知信息进行含义的多重解释与拆字分析。

第 5 轮:这是橙子

谜面图:2 只鸡站在大量的橙子上

这一轮 Claude 给出的推理过程最为完整正确

鸡相对较少,橙子满地很多,所以"鸡少橙多"➡️ "积少成多"。

GLM、豆包也都对了答案,但推理其实并没有很完备(不过既然也算是做 Benchmark 测试,那对了就是对了)

剩下的 AI,则答案分歧的千奇百怪:

GPT-成绩斐然、QVQ-鸡立成群、Step-可乘之机、混元-诚心诚意。

本轮答题情况 ⬇️:

第 6 轮:这是疯了的派大星

最后一题,Call back 到文章开头的题目:

这是疯了的派大星,打一个 5 个字的网络热梗。

谜面图:疯了的派大星坐在一个柿子上

因为从姿势上来看"坐"≈"骑","疯了"≈"疯狂"。

➡️ 所以 疯狂的派大星骑在柿子上,

可得答案:疯狂星骑柿 ➡️ 疯狂星期四

对于 AI 们来说,这道题同样也是本次比赛最难的题目。

相对冷门的知识点、特殊的断字断句、甚至还有平翘舌音的伪谐音。

论结果,没有一个 AI 解出了最终答案,甚至部分 AI 在神态姿势上,多模态识别也出现了问题。

本轮答题情况 ⬇️:

📍 盘点最终排名

统计 3 种难度,共 6 轮比赛结果,总分排名如下:

小结比赛结果:

  • 豆包 Seed 1.6 意外地卷赢了GPT、Gemini,以 10/12 的总成绩,得到了本次「看图猜字谜」比赛的 Top 1(又名抽象视觉推理模型之王)

    • 且 6 轮比赛中,视觉识别全部正确,在不同推理难度下均完全遵循指令
    • 真是没想到,本来以为这个位置是 Gemini 的。看来豆包 Seed 1.6 的多模态 + 推理的综合能力相当能打。
  • Gemini、Claude,以及阶跃的 Step-3 以 9/12 的总成绩,并列第二;Step-3 表现意外突出,没有出现识别错误

💎 模型推荐

如果说想要以此,给出 * 模型选型的参考***,你不妨考虑:**

  • 视觉识别上,全部正确的:Doubao-1.6、Step-3、GLM-4.5V、Hunyuan-t1-v、GPT5

  • 指令遵循上,全部正确的:Doubao-1.6、Step-3、Gemini 2.5 Pro、Claude Opus 4.1、 QVQ-Max、GPT5

  • 要又能视觉识别,又要处理复杂思考任务时遵循指令的话

    • 在当前测试来看比较推荐:Doubao-1.6、Step-3、GPT5
    • 不过其他几家,比如 GLM-4.5 在正常视觉任务中,表现也不会太差,也依然纳入推荐列表

当然,除了模型能力以外,在真实业务中,还要考虑价格,

所以你不妨对国产模型多一些信心,它们在多模态识别上表现也都追上了全球一线水平,值得在实际业务中测试~

🎐 写在最后

想做这个测试的起因,其实挺简单,就是用"好玩"的 benchmark,测试多模态模型的能力边界:

  • 从"鸡照象"到"马拉松" ,我们能看到,当线索直白、逻辑链条单一时,顶级的视觉模型们已经具备了相当可靠的"计算智能"。

    • 它们已然能够精准地识别万物,并执行"A+B=C"式的直接推理。这是我们过去几年,见证的最激动人心的技术进步。
  • 然而,一旦进入 "鸡领鬼"和"积少成多" 的领域,AI 的表现就开始分化。

    • 为什么"2 只鸡 + 一堆橙子"能让人联想到"鸡少橙多"?这背后是我们习以为常的语境和思考经验。
    • 这就不仅是直白的视觉识别和逻辑组合,它需要更多的"联想智能":一种基于人类语言习惯、文化背景的引申理解能力。
  • 而到了最后的 "疯狂星期四" ,难度更是达到了最高,所有 AI 全军覆没。

    • 要解开"疯狂星期四"题,AI 不仅要认出"派大星"和"西红柿"(对,认出固定的角色形象与不太清晰的物品)
    • 还要理解"疯狂"的表情神态,理解从"坐"到"骑"这个姿态的近似表达
    • 甚至还要知道中文世界里,每周四下午特有的肯德基文化。如此复合的能力要求,对人类文化的理解,缺一不可。
  • Btw:在前期测试中,视觉模型都特别容易数错「图中的下划线数量」,原因离不开当下对图片先切片后理解的识别逻辑。

我们看到,多模态模型如今已具备了相当可靠的视觉识别能力,甚至在纯粹的逻辑推理上不弱于人类------坦白说,我自己的答对数量就不如顶尖的 AI。

但这次比赛的更大价值,是它清晰地揭示了"智能"的下一个台阶在哪里。

想要迈上这个台阶、得到更高的分数,AI 不能只停留在"看懂画面"和"逻辑推导"上。

除了继续优化切片识别、多步推理这类技术硬实力,它尤其需要补上"人文感知"这一课,去理解那些藏在谐音梗、表情和文化符号背后的言外之意。

相关推荐
feasibility.6 小时前
混元3D-dit-v2-mv-turbo生成3D模型初体验(ComfyUI)
人工智能·3d·aigc·三维建模·comfyui
PaperRed ai写作降重助手8 小时前
AI 论文写作工具排名(实测不踩坑)
人工智能·aigc·ai写作·论文写作·智能降重·辅助写作·降重复率
阿杰学AI11 小时前
AI核心知识80——大语言模型之Slow Thinking和Deep Reasoning(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·慢思考·深度推理
SmartBrain11 小时前
OCR 模型在医疗场景的选型研究
人工智能·算法·语言模型·架构·aigc·ocr
阿杰学AI13 小时前
AI核心知识79——大语言模型之Knowledge Conflict(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·rag·知识冲突
PaperRed ai写作降重助手16 小时前
主流 AI 论文写作工具排名(2026 最新)
人工智能·aigc·ai写作·论文写作·论文降重·论文查重·辅助写作
小程故事多_8016 小时前
RAG分块天花板?LGMGC多粒度语义分块策略深度解析与实践思考
人工智能·aigc
SmartBrain16 小时前
AI算法工程师面试:大模型和智能体知识(含答案)
人工智能·算法·语言模型·架构·aigc
renhongxia117 小时前
知识图谱如何在制造业实际落地应用
人工智能·语言模型·自然语言处理·aigc·知识图谱
学习吧~技术储备18 小时前
ComfyUI基础学习笔记
ai作画·aigc