DeepSeek-OCR:用“一张图“压缩万字长文,大模型记忆的新思路

一张图真能抵得上千言万语?DeepSeek-OCR给出了一个令人兴奋的答案。

最近,DeepSeek-AI 团队发布了一项名为 DeepSeek-OCR 的新技术,它不仅在 OCR(光学字符识别)任务上表现出色,更提出了一种全新的思路:用图像作为文本的高效压缩媒介。这项技术看似只是"读图识字",实则可能撬动大模型处理长上下文、构建记忆机制、甚至实现"无限上下文"的关键一步。

如图,左侧是图片,右侧是通过DeepSeek-OCR解析出来内容,几乎可以完美还原原始图片的内容。而传统的OCR,只能提取出图片中的文本,而文字之间的相互关系则一概不知。

大模型"记不住"长文本

当前基于Transformer架构的大语言模型(LLM)在处理超长文本时面临巨大挑战。原因很简单:计算开销随文本长度呈平方级增长。比如,处理一篇 10 万字的文档,模型不仅要耗费大量显存,推理速度也会急剧下降。

于是,研究人员开始思考:有没有办法把长文本"压缩"一下,让模型用更少的资源记住更多内容?

有趣的是,人类早就这么做了------我们用一张图表总结一页报告,用一张照片记录一段旅程。那么,大模型能不能也"看图说话",从一张图里还原出大量文字?

这就是 DeepSeek-OCR 要探索的核心问题。

DeepSeek-OCR 是什么?

DeepSeek-OCR 是一个端到端的视觉语言模型(VLM),专门用于将文档图像"翻译"回原始文本。但它不只是传统 OCR 的升级版,而是把 OCR 当作一个"压缩-解压"实验:

压缩端:把一段文字渲染成一张图像(比如 PDF 转图片)。

解压端:模型从这张图像中尽可能准确地还原出原始文字。

这个过程,论文称之为 "Contexts Optical Compression"(上下文光学压缩)。

核心组件:

DeepEncoder:一个新型视觉编码器,能在高分辨率下保持低显存占用,并将图像压缩成极少的"视觉 token"(比如 100 个)。

DeepSeek-3B-MoE 解码器:一个稀疏激活的 30 亿参数语言模型,负责从压缩后的视觉 token 中"解码"出原始文本。

惊人效果:100 个 token 还原 1000 字

实验结果显示:

当压缩比 ≤ 10 倍(即 1000 字文本用 100 个视觉 token 表示),OCR 精度高达 97%;

即使压缩到 20 倍(2000 字 → 100 token),准确率仍有 60%。

这意味着:一张 640×640 的图片,就能承载近 1000 字的文本信息,且几乎无损还原。

在权威 OCR 基准 OmniDocBench 上,DeepSeek-OCR 仅用 100 个视觉 token,就超过了 GOT-OCR2.0(需 256 token);用不到 800 token,就打败了需要 7000+ token 的 MinerU2.0。

更厉害的是,它还能处理:

多语言文档(支持近 100 种语言)

化学公式(转 SMILES 格式)

图表(转 HTML 表格)

几何图形(解析线段与坐标)

自然图像描述(保留通用视觉理解能力)

不只是 OCR:为大模型"造记忆"

DeepSeek-OCR 的真正野心,不在 OCR 本身,而在于为大模型提供一种模拟人类记忆遗忘机制的新范式。

想象一下:

最近的对话 → 用高分辨率图像保存(细节清晰,token 多)

一周前的记录 → 缩小成中等图(信息略模糊,token 少)

一年前的历史 → 压缩成极小缩略图(仅保留关键信息,token 极少)

这就像人类记忆:越久远的事,记得越模糊。而 DeepSeek-OCR 通过"图像分辨率 + token 数量"的双重控制,天然实现了这种渐进式遗忘。

论文甚至画了一张图(Figure 13)来类比:

时间 → 图像尺寸 → token 数量 → 信息保真度

越久远,图越小,token 越少,文字越模糊------但依然"记得一点"。

这为构建超长上下文、低成本记忆系统提供了全新可能。

实际价值:每天处理 20 万页文档

DeepSeek-OCR 不只是实验室玩具。据论文披露:

在单台 A100-40G GPU 上,每天可处理 20 万+ 页文档;

若用 20 节点集群(160 张 A100),日处理量达 3300 万页!

这意味着它可以:

为 LLM/VLM 大规模生成高质量训练数据;

自动解析历史档案、学术论文、财报、教材等;

构建企业级文档智能系统,替代传统 OCR 流水线。

未来展望:光学压缩,或是大模型的"第二大脑"

DeepSeek-OCR 的提出,让我们重新思考视觉与语言的关系:

视觉不仅是"看图问答"的辅助模态,更可能是文本信息的高效载体。

未来,我们或许会看到:

混合上下文系统:近期用文本 token,远期用图像 token;

光学记忆库:将历史对话自动渲染为图像存档,按需调用;

无限上下文 LLM:通过"光学压缩 + 分级存储",突破上下文长度限制。

正如论文所说:"A picture is worth a thousand words" 不再是比喻,而是一种可计算、可优化的技术路径。

结语

DeepSeek-OCR 不仅是一个强大的 OCR 工具,它可以用于处理复杂的文档、公式、图表解析等。

更是一次对大模型记忆与压缩机制的深刻探索。它告诉我们:有时候,让模型"看一眼",比让它"读万字"更高效。

随着多模态大模型的发展,"视觉即压缩"或许将成为下一代 AI 系统的核心能力之一。也期待视觉压缩技术在LLM中尽早应用起来,以解决超长上下文带来种种问题。

项目已开源:https://github.com/deepseek-ai/DeepSeek-OCR

相关推荐
源之缘-OFD先行者18 小时前
C# 实现 OCR 转双层 OFD,字符坐标与原图 1:1 精准匹配
ocr
liulanba19 小时前
OCR技术全流程详解:从原理到实现
ocr
漏刻有时2 天前
微信小程序学习实录12:wx.serviceMarket.invokeService接口OCR识别营业执照和银行卡
学习·微信小程序·ocr
沉下去,苦磨练!2 天前
UI的纯视觉方案OCR
ocr
njsgcs4 天前
基于vlm+ocr+yolo的一键ai从模之屋下载模型
人工智能·python·yolo·ocr·vlm
Damon小智4 天前
【TextIn大模型加速器 + 火山引擎】跨国药企多语言手册智能翻译系统设计与实现
人工智能·ai·ocr·agent·火山引擎
机器学习算法与Python实战5 天前
我写了一个OCR测试工具:DeepSeekOCR、PaddleOCR 和 混元OCR
ocr
week_泽6 天前
OCR学习笔记,调用免费百度api
笔记·学习·ocr
week_泽6 天前
离线OCR笔记及代码
笔记·ocr