DeepSeek 杀入多模态，识图功能正式上线！

今天我看到有人说 DeepSeek 出了识图模式，我的第一反应是，识图？识图不是早就有吗？我之前经常拿着照片让 DeepSeek 提取文字啊。

幸亏我这句话没说出口，要不然该贻笑大方了。

然后我就在 x 上看到了陈小康发的推文。

陈小康是 DeepSeek 的多模态团队的领头人，曾本科和博士都就读于北大。

老实说，DeepSeek 的识图模式在 V4 发布几天后就上线了，但当时是灰度测试，并没有大范围开放。

而今天，识图模式终于迎来了大范围开放。

Web 端和 App 端都可以使用。

DeepSeek 的识图模式并不是从 OCR 中提取文字，而是终于认识图片了。

也就是说，DeepSeek，终于开天眼了。

于是，我赶紧让它分析了一张图片。

整个识图过程速度非常快。

它先判断这是夜间足球比赛现场，位置像 VIP/包厢区域；然后继续看人物，能说出这是一位穿米色套装、拿着墨镜、靠在护栏上的女士；再往后，它甚至注意到了右下角护栏上的葡萄牙队徽。

这个细节是他同时注意到了右侧的葡萄牙队徽，这就挺关键。

因为这张图如果只看大概，谁都能说出一个女士在球场上。

它说"很可能是里斯本的光明球场或巨龙球场"。

它没有直接下结论，这就是某个球场，它说可能是，因为现在不怕 AI 犯错，就怕犯错之后还一本正经的胡说八道。

这个识别错误并且纠正的成本太高了。

更让我意外的是后面那段。

它看出了这张图很可能是 AI 生成图像。

理由也给得比较具体：画面太干净，光影太电影感，皮肤和人物边缘融合得有点过于平滑。

现在网上到处都是 AI 图，很多图第一眼看上去已经不差了。你让人肉眼看，很多时候也只能说"感觉有点怪"，但无法给出清晰的理由。

而且之前 ChatGPT 纠正图的时候，也只是从两点来判断的。

一个是检测到 SynthID，一个是检测到内容凭证。

这个更像是从图片源头的角度来判断。

而 DeepSeek 是从图像本身出发来判断的。

而且 DeepSeek 对于图像识别的推理能力也很出色。

我用了这张充满戏谑的图来问让他解释一下。

由于推理过程太多，放图文效果很差，所以我这里给大家录一个视频，来感受下。

它的推理过程非常出色，但是整个推理过它犯了两个错误。

一个是错误的把 Claude 3.5 认成了 Fable 5，第二个是被禁的原因说的是无法向中国大陆者提供服务。

不过这两个错误我觉得问题不大，无非是知识库训练时间的问题。

它目前的训练时间还是在

我需要联网搜索才能让它查询到最新日期的消息。

但是识图功能目前不支持联网搜索。

所以这就死锁了。

也就是说，目前识图功能只能大概率确定图片是不是 AI 图，而无法实时的分析和解释图片内容。

但是这个限制，反而让我更确定它现在适合干嘛。

它不是一个"看图搜索引擎"。

它更像一个"看图推理器"。

你给它一张图，它能把图里的元素拆开，把人物、文字、动作、空间关系和画面质感给你说出来。

但如果这张图背后依赖的是昨天刚发生的新闻，或者今天刚火起来的梗，它就会出现刚才这种情况

不过，这次更新至少说明一件事：

DeepSeek 补上了多模态入口。

以后它要拼的，是看见以后，能不能继续把事想明白、做下去。