从Token压缩到因果阅读:DeepSeek-OCR系列的视觉编码演进

从Token压缩到因果阅读:DeepSeek-OCR系列的视觉编码演进

论文信息

论文 f842cb8

标题: DeepSeek-OCR: Contexts Optical Compression

作者: Haoran Wei, Yaofeng Sun, Yukun Li

论文 f17b245

标题: DeepSeek-OCR 2: Visual Causal Flow

作者: Haoran Wei, Yaofeng Sun, Yukun Li

引言:视觉Token作为LLM上下文压缩的新范式

大语言模型(LLM)在处理长上下文时,Self-Attention 的二次复杂度 始终是难以逾越的计算高墙。当序列长度突破数万Token,显存与算力消耗呈爆炸式增长------这催生了对高效信息表征的迫切需求。DeepSeek-OCR 与 DeepSeek-OCR 2 正是在这一背景下,分别从效率压缩逻辑建模两个维度,对传统视觉语言模型(VLM)的视觉编码范式发起挑战。

前者提出将图像作为文本的"外部压缩缓存 ":一张1024×1024文档图像经 DeepEncoder 压缩后仅需256个视觉Token,即可还原近2500个文本Token,压缩比超10倍,OCR精度仍高达97%。这不仅是工程优化,更暗示了一种生物启发式的记忆机制------通过多级分辨率模拟人类"近期清晰、远期模糊"的遗忘曲线。

而后者则直指传统光栅扫描的逻辑缺陷。DeepSeek-OCR 2 引入可学习的因果流查询 ,让视觉Token按语义重要性重排序,而非死守空间坐标。其阅读顺序Edit Distance从0.085降至0.057,用更少Token讲出更连贯的故事

两篇工作目标迥异,却共享同一技术脉络:视觉编码正从"量"的压缩迈向"质"的重构 。如下图所示,这种从光学表征中自然涌现出的记忆与逻辑双重机制,或许正是突破LLM上下文瓶颈的关键钥匙。

人类记忆、视觉感知与文本表征随时间/距离/分辨率衰减的类比示意图,三者均呈现"近期清晰、远期模糊"的渐进式退化模式

2者异同点:效率优先 vs 因果建模的双路径探索

DeepSeek-OCR 与 DeepSeek-OCR 2 虽同出一门,却走上截然不同的技术岔路。二者均聚焦端到端OCR任务 ,坚持高分辨率输入+低Token输出策略,核心目标一致:为LLM/VLM提供高效、可扩展的上下文压缩方案。

初代 DeepSeek-OCR 是效率优先 的极致践行者。它采用 SAM + CLIP 串行架构 ,中间嵌入一个16倍卷积压缩模块 ,将4096个视觉token骤压至256个。这种设计在Fox基准上实现了97% OCR精度仅需10倍压缩比的惊人效果,直击LLM长上下文的计算瓶颈------用图像作"外部压缩缓存",以空间换序列长度。

而 DeepSeek-OCR 2 则转向因果建模 的新范式。它彻底抛弃CLIP ,改用 LLM风格视觉编码器 (基于Qwen2-0.5B架构),并引入一组可学习因果流查询 (causal flow queries)。这些查询通过混合注意力掩码------视觉token间全连接,查询token间因果掩码------动态重排语义顺序,模拟人类"先标题、再正文"的阅读逻辑。结果?OmniDocBench上的阅读顺序Edit Distance从0.085降至0.057,文本重复率显著下降。

一条路压Token数量,一条路塑Token秩序。前者问"能压缩多少?",后者问"该按什么顺序读?"。两者共同揭示:视觉Token不仅是信息载体,更是结构与因果的容器。

迭代和演进关系:从空间压缩到语义重排序的技术跃迁

DeepSeek-OCR 首次验证了视觉 Token 的压缩极限------一张 1024×1024 文档图像可被压缩至仅 256 个 Token,仍保持 97% OCR 精度。但其依赖的光栅扫描顺序,将二维语义强行拉成一维序列,导致复杂排版中阅读逻辑错乱。这暴露了纯工程优化的天花板:Token 越少越好,却未必"读得对"。

DeepSeek-OCR 2 正是在此瓶颈上实现认知跃迁。它不再满足于压缩数量,而是在编码阶段注入阅读因果性 。通过引入可学习的"因果流查询"与混合注意力掩码,模型能动态重排视觉 Token 的语义顺序,模拟人类"先标题、再正文、后图表"的注视路径。其掩码结构可形式化为:
M = [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n = m M = \begin{bmatrix} \mathbf{1}{m \times m} & \mathbf{0}{m \times n} \\ \mathbf{1}_{n \times m} & \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n = m M=[1m×m1n×m0m×nLowerTri(n)],where n=m

前半段保留视觉全局感知,后半段强制因果依赖,首次让视觉编码具备"先看哪里、后看哪里"的推理能力

架构层面,这一跃迁体现为从"SAM+CLIP"向"SAM+LLM as Vision Encoder"的范式迁移。抛弃 CLIP 的静态特征提取,转而采用 LLM 风格的因果主干,标志着视觉编码正向统一语言建模范式靠拢 。评估维度也随之升级:性能不再仅看 OCR 精度,更引入阅读顺序 Edit Distance------DeepSeek-OCR 2 将该指标从 0.085 降至 0.057,证明其真正理解了文档的内在逻辑流。

如下图所示,新架构通过因果流查询实现语义驱动的 token 重排序,彻底摆脱光栅扫描的束缚:

DeepEncoder 与 DeepEncoder V2 架构对比:后者以 LM as Vision Encoder 替代 CLIP,并引入可学习因果查询实现语义驱动的 token 重排序。

多模态编码正从"省 Token"走向"懂逻辑",这场从空间压缩到语义重排序的跃迁,或许正是通向类人视觉理解的关键一步。

总结:迈向生物启发的多模态上下文管理

DeepSeek-OCR 与 DeepSeek-OCR 2 共同勾勒出一条突破 LLM 上下文瓶颈的新路径。前者证明视觉可作为高效外部记忆 ,通过 DeepEncoder 实现近 10倍 Token 压缩 ,同时保持 97% 的 OCR 精度 ,将长文本"封存"为图像,绕过 Self-Attention 的平方墙。后者则更进一步,赋予视觉理解类人阅读逻辑 ------借助因果流查询与混合注意力掩码,动态重排视觉 token 顺序,使阅读顺序错误率显著下降,重复率从 6.25% 降至 4.17%

二者互补,指向一种新型上下文管理范式近期高保真、远期低开销的多级压缩记忆系统 。这不仅是工程优化,更是对人类记忆衰减机制的模拟------清晰保留当下,模糊但可用地存储过往。未来方向已然清晰:跨模态统一编码多跳重排序机制 ,以及与 LLM 原生集成的端到端训练,或将催生真正具备生物启发式记忆能力的下一代多模态智能体。

相关推荐
一顿能吃五大海碗啊啊啊10 小时前
OCR大模型如何解决多页文档的问题
ocr·ocr大模型·ocr长文档·ocr大模型面试
专家大圣10 小时前
告别付费 OCR!PaddleOCR-VL + cpolar,打造专属便携识别工具✨
网络·ocr·内网穿透·cpolar
AI人工智能+10 小时前
网约车运输证识别技术:深度融合计算机视觉与自然语言处理技术,实现对运输证全字段的高精度定位、识别与结构化提取
深度学习·计算机视觉·ocr·网约车运输证识别
Pyeako11 小时前
基于Qt和PaddleOCR的工业视觉识别报警系统开发
人工智能·python·深度学习·数码相机·opencv·ocr·pyqt5
guslegend1 天前
DeepSeek-OCR-2快速入门
ocr
hsling松子1 天前
基于 PaddleOCR-VL 与 PaddleFormers 的多模态文档解析微调项目
人工智能·计算机视觉·语言模型·自然语言处理·ocr
旗讯数字1 天前
智破纸质壁垒 赋能医药合规——旗讯数字医药注册批件纸质文档智能识别与结构化提取对接解决方案
数据结构·ocr·合规审查
百度智能云1 天前
OmniDocBench 93.12分!百度千帆发布端到端文档智能模型Qianfan-OCR
百度·ocr
大傻^1 天前
LangChain4j 企业知识库实战:PDF 解析、OCR 与文档加载器生态
人工智能·pdf·ocr·langchain4j
AI人工智能+1 天前
融合图像处理、深度学习和自然语言处理的手写文字识别技术,为各领域文档智能化处理提供了技术支撑
深度学习·计算机视觉·自然语言处理·ocr·手写文字识别