从Token压缩到因果阅读：DeepSeek-OCR系列的视觉编码演进

论文信息

论文 f842cb8

标题: DeepSeek-OCR: Contexts Optical Compression

作者: Haoran Wei, Yaofeng Sun, Yukun Li

会议/期刊: arXiv
代码仓库 : http://github.com/deepseek-ai/DeepSeek-OCR

论文 f17b245

标题: DeepSeek-OCR 2: Visual Causal Flow

作者: Haoran Wei, Yaofeng Sun, Yukun Li

会议/期刊: arXiv
论文链接 : https://arxiv.org/abs/2510.18234
代码仓库 : http://github.com/deepseek-ai/DeepSeek-OCR-2

引言：视觉Token作为LLM上下文压缩的新范式

大语言模型（LLM）在处理长上下文时，Self-Attention 的二次复杂度 始终是难以逾越的计算高墙。当序列长度突破数万Token，显存与算力消耗呈爆炸式增长------这催生了对高效信息表征的迫切需求。DeepSeek-OCR 与 DeepSeek-OCR 2 正是在这一背景下，分别从效率压缩 与逻辑建模两个维度，对传统视觉语言模型（VLM）的视觉编码范式发起挑战。

前者提出将图像作为文本的"外部压缩缓存 "：一张1024×1024文档图像经 DeepEncoder 压缩后仅需256个视觉Token，即可还原近2500个文本Token，压缩比超10倍，OCR精度仍高达97%。这不仅是工程优化，更暗示了一种生物启发式的记忆机制------通过多级分辨率模拟人类"近期清晰、远期模糊"的遗忘曲线。

而后者则直指传统光栅扫描的逻辑缺陷。DeepSeek-OCR 2 引入可学习的因果流查询 ，让视觉Token按语义重要性重排序，而非死守空间坐标。其阅读顺序Edit Distance从0.085降至0.057，用更少Token讲出更连贯的故事。

两篇工作目标迥异，却共享同一技术脉络：视觉编码正从"量"的压缩迈向"质"的重构 。如下图所示，这种从光学表征中自然涌现出的记忆与逻辑双重机制，或许正是突破LLM上下文瓶颈的关键钥匙。

人类记忆、视觉感知与文本表征随时间/距离/分辨率衰减的类比示意图，三者均呈现"近期清晰、远期模糊"的渐进式退化模式

2者异同点：效率优先 vs 因果建模的双路径探索

DeepSeek-OCR 与 DeepSeek-OCR 2 虽同出一门，却走上截然不同的技术岔路。二者均聚焦端到端OCR任务 ，坚持高分辨率输入+低Token输出策略，核心目标一致：为LLM/VLM提供高效、可扩展的上下文压缩方案。

初代 DeepSeek-OCR 是效率优先 的极致践行者。它采用 SAM + CLIP 串行架构 ，中间嵌入一个16倍卷积压缩模块 ，将4096个视觉token骤压至256个。这种设计在Fox基准上实现了97% OCR精度仅需10倍压缩比的惊人效果，直击LLM长上下文的计算瓶颈------用图像作"外部压缩缓存"，以空间换序列长度。

而 DeepSeek-OCR 2 则转向因果建模 的新范式。它彻底抛弃CLIP ，改用 LLM风格视觉编码器 （基于Qwen2-0.5B架构），并引入一组可学习因果流查询 （causal flow queries）。这些查询通过混合注意力掩码------视觉token间全连接，查询token间因果掩码------动态重排语义顺序，模拟人类"先标题、再正文"的阅读逻辑。结果？OmniDocBench上的阅读顺序Edit Distance从0.085降至0.057，文本重复率显著下降。

一条路压Token数量，一条路塑Token秩序。前者问"能压缩多少？"，后者问"该按什么顺序读？"。两者共同揭示：视觉Token不仅是信息载体，更是结构与因果的容器。

迭代和演进关系：从空间压缩到语义重排序的技术跃迁

DeepSeek-OCR 首次验证了视觉 Token 的压缩极限------一张 1024×1024 文档图像可被压缩至仅 256 个 Token，仍保持 97% OCR 精度。但其依赖的光栅扫描顺序，将二维语义强行拉成一维序列，导致复杂排版中阅读逻辑错乱。这暴露了纯工程优化的天花板：Token 越少越好，却未必"读得对"。

DeepSeek-OCR 2 正是在此瓶颈上实现认知跃迁。它不再满足于压缩数量，而是在编码阶段注入阅读因果性 。通过引入可学习的"因果流查询"与混合注意力掩码，模型能动态重排视觉 Token 的语义顺序，模拟人类"先标题、再正文、后图表"的注视路径。其掩码结构可形式化为：
M = [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , where n = m M = \begin{bmatrix} \mathbf{1}{m \times m} & \mathbf{0}{m \times n} \\ \mathbf{1}_{n \times m} & \text{LowerTri}(n) \end{bmatrix}, \quad \text{where } n = m M=[1m×m1n×m0m×nLowerTri(n)],where n=m

前半段保留视觉全局感知，后半段强制因果依赖，首次让视觉编码具备"先看哪里、后看哪里"的推理能力。

架构层面，这一跃迁体现为从"SAM+CLIP"向"SAM+LLM as Vision Encoder"的范式迁移。抛弃 CLIP 的静态特征提取，转而采用 LLM 风格的因果主干，标志着视觉编码正向统一语言建模范式靠拢 。评估维度也随之升级：性能不再仅看 OCR 精度，更引入阅读顺序 Edit Distance------DeepSeek-OCR 2 将该指标从 0.085 降至 0.057，证明其真正理解了文档的内在逻辑流。

如下图所示，新架构通过因果流查询实现语义驱动的 token 重排序，彻底摆脱光栅扫描的束缚：

DeepEncoder 与 DeepEncoder V2 架构对比：后者以 LM as Vision Encoder 替代 CLIP，并引入可学习因果查询实现语义驱动的 token 重排序。

多模态编码正从"省 Token"走向"懂逻辑"，这场从空间压缩到语义重排序的跃迁，或许正是通向类人视觉理解的关键一步。

总结：迈向生物启发的多模态上下文管理

DeepSeek-OCR 与 DeepSeek-OCR 2 共同勾勒出一条突破 LLM 上下文瓶颈的新路径。前者证明视觉可作为高效外部记忆 ，通过 DeepEncoder 实现近 10倍 Token 压缩 ，同时保持 97% 的 OCR 精度 ，将长文本"封存"为图像，绕过 Self-Attention 的平方墙。后者则更进一步，赋予视觉理解类人阅读逻辑 ------借助因果流查询与混合注意力掩码，动态重排视觉 token 顺序，使阅读顺序错误率显著下降，重复率从 6.25% 降至 4.17%。

二者互补，指向一种新型上下文管理范式 ：近期高保真、远期低开销的多级压缩记忆系统 。这不仅是工程优化，更是对人类记忆衰减机制的模拟------清晰保留当下，模糊但可用地存储过往。未来方向已然清晰：跨模态统一编码 、多跳重排序机制 ，以及与 LLM 原生集成的端到端训练，或将催生真正具备生物启发式记忆能力的下一代多模态智能体。