听说 DeepSeek 识图功能上线了,我非常兴奋啊!终于要补上多模态这个短板了么?
打开APP和官网看了一眼:

真的出现了一个识图模式!哇塞!
我赶紧拿"梁爷爷"的图片试一波!

看到结果那一刻我瞬间,我忍不住笑出了声!

我的世界观被颠覆了。
原来这个人是腾讯公司高级副总裁、微信创始人张小龙。
我继续追问:那这个人是谁呢?

哇,世界观再次被颠覆!原来这两个人是同一个人?只是换了一个休息的造型而已???

牛逼,还说出了 1、2、3、4,有理有据!好的,我信你了,这个人叫"张小龙"!
但是,你为什么每次的答案都不一样呢?

这个穿着蓝色外套的男人真的是迷一般的存在啊!
它可以是微信的张小龙,也可以是快手的宿华,也可以是搜狗的王小川!
这个休闲外套的男人,可以是张小龙也可以是百度的创始人李彦宏!
说得好听点,这个功能充满了乐趣。说得难听点就是"一本正经的胡说八道"了!
我并不想批判啥,反正,我是笑的很大声!
好了,不跟大家开玩笑了!
图片中的男人就是梁文锋:
梁文锋,就是 DeepSeek 深度求索的创始人兼 CEO ,也是 幻方量化 High-Flyer 的联合创始人。他是这两年中国 AI 圈最重要的人物之一
这个事情最大的乐趣在于,DeepSeek 的大模型居然不认识它们的创始人!
但是......它却认识遥遥领先的东哥:

而且态度非常坚决,我想忽悠它一下都不行!难道提供显卡的才是"亲爹"!
认人这个事情,好像还是包包比较厉害: 
这个事情,我真的能笑半天🤣!好了,不开玩笑了......
我们来测试一个非常实用的场景吧,给小学生拍照检查作业。
我手上刚好有一份很好的样本:

这是小学四年级学生的一个试卷,而且就是本届四年级小学生的作业。而且刚好有个人写了一份有错误的答卷。
然后我直接把这个图片给了它: 
大概用了 140 秒思考和作答,最后得出了如下结论: 
这一波表现不错!
它成功识别了里面的几个图片题目,并进行了批改。正确的没改错,错误的被它抓出来了。
这一点足以证明它是真的有视觉理解能力了。如果只是简单的 OCR,是无法理解这些带图的题目的。
为了确认这一点,我再给它一个错题: 
这个题目也是一个视觉题,有两条虚线。而且试卷中是做错了的,看它能否找出这个错误。
下面是 DeepSeek 的答案:

它成功地找出了 3 个错题,并且进行了解析。
但是第十题指出错误之后,又给了一个错误的答案。这个错误有些不应该!
css
第 10 题(选择题):
学生选了 C(140),正确选项是 B(139)。
解析:
舞蹈队原平均身高是 140.2 cm,红红加入后,平均身高降到了 139 cm(虚线 b 的位置)。
说明红红的身高必须很矮,拉低了总平均分。
如果新平均身高是 139 cm,红红的身高极大概率就是 139 cm(或者低于 139,但在给定选项里 B 最合适)。
它成功地识别了原平均身高和后来的平均身高。
但是它逻辑判断错误了。
身高从 140.2 被拉到了 139,那么红红肯定是低于 139 的,如果等于或者高于 139,那么均值不可能会被拉到 139。
所以这个题目应该选:A!
这一点豆包是能轻松答对的: 
而且豆包的速度是非常快的!
我对图片识别的两大需求就是认人识物,以及批改作业,目前来看DeepSeek这两项都做得不是很好。
为了让这个测试再丰富一点,我加测一项,让它看一下时钟:

它的答案是 6:00:50,这个绝对是错误的!
我再次让它确认了一下:

它坚持确认无误,精确到秒是:6:00:50
我也拿豆包试了下: 
豆包说是 6:05:50,不是特别准确,但是已经非常接近了。以我们人类的角度来看,这个时间应该接近 6:04:50 的样子。
再加测一题:

我给了这个图片,然后问了下:黄色坦克向右开两枪会怎么样?
DeepSeek 的回答如下: 
下面是豆包的答案: 
这个题目你们怎么看? 按经典游戏来看,豆包才是对的。但是按我给的截图来看,DeepSeek才是对的。
DeepSeek能答对这个题目就非常牛逼了。因为它和常规的地图不一样,它能识别出这么细微的差别,就非常厉害了。
正当我要夸奖的它的时候:

它改口了!
所以可以确定它没有主见,其次,怀疑第一个答案也是随便猜的!
我有逼问了一把:

它完全没有意识的问题的关键!
我突然发现这个问题,其实很有代表性。
我问了DeepSeek,豆包,GPT5.5 它们都说要第三枪才能干掉老鹰。很显然,它们识别出了这是坦克大战,然后按标准答案套题目!
这个问题,又是只有Opus4.8能反思出来了:

卧槽,Opus4.8是真大神啊!
扯远了!说回DeepSeek!
我还是挺喜欢 DeepSeek 的,但是 DeepSeek 这个识图功能,确实有点儿戏啊~~!