DeepSeek-OCR:用“看图”代替“读文”,一种更像人类的上下文压缩方式

这两天,估计大家都刷到了 DeepSeek-OCR 的资讯。

最初看到时,我以为是专门做 OCR 的识别模型,顶多是参数小点、性能好点之类的,就没有太多关注。

直到中午看到卡兹克关于它的解读,我才发现:我被名字骗了。

这哪里是一个 OCR 工具,它完全可以说是一种压缩上下文的新范式

依旧亮眼的 OCR

虽然,DeepSeek-OCROCR 特性不是这次火热的重点,但依然非常亮眼。

处理金融研报图片时,DeepSeek-OCR 能在识别结果中完整保留图表的结构化信息

而下面的截图则体现了 DeepSeek-OCR 在科研工作中的一大优势,可以非常准确地从图片中识别出公式、表达式等专有信息。

下面,我们看下真正让它出圈的"压缩"思路。

惊艳的压缩思路

近两年最火的 AI 模型几乎都是大语言模型,大家的思路也都是以自然语言处理(NLP)的思路为主。

其中有一个名词"上下文"大家应该都不陌生了,可以理解为 AI 的"记忆"大小。

在当下,即使上下文上限一直在提升,但实际使用中终究会碰到超出的情况。因此大家提出了很多的压缩思路,尽可能减少信息丢失的情况下,减少上下文的占用。

比如:文字提炼摘要、token级去重,再或者直接丢弃掉最早的记忆。

DeepSeek-OCR 则提出了另一种思路:

稍远一点的信息,直接转化为图片进行存储

乍一听,有点反直觉。

但仔细一想,这和以前提到的"视觉记忆法"、"图像联想记忆法",甚至前几年很火的"记忆宫殿",都挺像的。

或者换种说法可能更好理解,我们不喜欢听微信语音,更喜欢看微信文字消息,就是因为语音智能顺序的一点点听,然后记忆,而文字消息,我们可以一眼扫完,快速记忆。------ 以上说法灵感来自于卡兹克留言区

在这种思路下,DeepSeek-OCR 给出以下测试结果:

保持识别精度 96.5% 的情况下,压缩比可以达到 10

更惊艳的相似性

以上思路确实挺惊艳的了,但更令我惊艳的是论文最终的一点讨论。

DeepSeek-OCR 认为:

"对于较旧的上下文(遥远的记忆),我们可以沿用上述思路,并逐步增大压缩比,从而减少令牌消耗。"

这简直就是人类记忆机制的模拟,我们不会一字不落记住上学时的一堂课,但我们会记住当时课堂的重要画面和知识。

此前,尽管 AI 十分好用,但其基于概率模型的本质总让我担心未来发展会受限。

然而今天,我感觉概率模型和人类记忆好像有些相通了,这让我对 AI 的发展更有信心了。

结语

GeminiOCR 能力上下文效果也很不错,社区里有大神怀疑可能也采用了类似的思路。

DeepSeek 的做法明显更实在,直接就开源了。

就冲这一点,不支持 DeepSeek 都不行啊!

相关推荐
Tadas-Gao14 分钟前
Mem0分层记忆系统:大语言模型长期记忆的架构革命与实现范式
人工智能·语言模型·自然语言处理·架构·大模型·llm·transformer
极客小俊19 分钟前
Windows 卸载 OpenClaw
人工智能
吴佳浩 Alben21 分钟前
GPU 生产环境实践:硬件拓扑、显存管理与完整运维体系
运维·人工智能·pytorch·语言模型·transformer·vllm
多年小白22 分钟前
OpenClaw 本周技术更新速递
人工智能·ai·ai编程·openclaw
深瞳智检37 分钟前
lesson-02 NLP 基础-文本表示与词向量
人工智能·自然语言处理·llm·大语言模型
twc8292 小时前
大模型生成 QA Pairs 提升 RAG 应用测试效率的实践
服务器·数据库·人工智能·windows·rag·大模型测试
宇擎智脑科技2 小时前
A2A Python SDK 源码架构解读:一个请求是如何被处理的
人工智能·python·架构·a2a
IT_陈寒2 小时前
Redis缓存击穿:3个鲜为人知的防御策略,90%开发者都忽略了!
前端·人工智能·后端
电商API&Tina2 小时前
【电商API接口】开发者一站式电商API接入说明
大数据·数据库·人工智能·云计算·json
湘美书院--湘美谈教育2 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作