DeepSeek-OCR v2 解读

DeepSeek-OCR 发布于25年10月，而这次DeepSeek-OCR 2发布仅隔了三个月。这会不会是DeepSeek V4发布前上的前菜呢？让我们一起尝尝鲜吧。

github地址：https://github.com/deepseek-ai/DeepSeek-OCR-2

一、研究背景

传统视觉语言模型（VLMs）处理视觉令牌时，采用固定的从左上到右下的光栅扫描顺序，搭配固定位置编码，这与人类视觉感知存在本质差异。人类视觉会遵循由语义逻辑驱动的灵活且连贯的扫描模式，尤其在处理布局复杂的图像（如包含复杂版式、公式和表格的文档）时，会进行基于因果关系的顺序处理。

现有模型将2D图像块按预定义光栅扫描顺序展平为1D序列的方式，引入了不必要的归纳偏置，忽略了语义关联。而文档OCR任务中存在的复杂布局顺序、复杂公式和表格等结构化元素，天然携带因果视觉逻辑，需要复杂的推理能力，这使得文档OCR成为验证新型视觉编码方法的理想场景，因此亟需一种更贴近人类视觉编码方式的模型架构。

二、核心工作

提出新型编码器DeepEncoder V2 ，通过融合双向注意力 和因果注意力机制，让视觉编码器具备因果推理能力，实现视觉令牌的语义驱动重排序，突破传统固定扫描顺序的限制。
构建DeepSeek-OCR 2模型，在继承DeepSeek-OCR的图像压缩比和解码效率的基础上，显著提升性能，其视觉令牌数量控制在256-1120之间，既保证实用性又具备竞争力。
验证了将语言模型架构用作VLM编码器的可行性，为实现统一的全模态编码提供了新路径，该架构可通过配置特定模态的可学习查询，实现跨图像、音频、文本等多种模态的特征提取和令牌压缩。

三、研究方法

3.1 整体架构

延续DeepSeek-OCR的编码器-解码器架构，编码器负责将图像离散化为视觉令牌，解码器基于视觉令牌和文本提示生成输出，核心改进集中在编码器部分（升级为DeepEncoder V2）。

3.2 DeepEncoder V2关键设计

视觉令牌器：采用80M参数的SAM-base与两个卷积层结合的架构，最终卷积层输出维度从1024降至896，实现16倍令牌压缩，平衡计算成本和内存占用。
语言模型作为视觉编码器：用Qwen2-0.5B（500M参数）替代DeepEncoder中的CLIP组件，视觉令牌采用双向注意力保留全局建模能力，新增的因果流查询采用因果注意力，且查询与视觉令牌数量相等，仅将因果查询输出送入LLM解码器。
因果流查询：采用多裁剪策略，全局视图（1024×1024分辨率）对应256个查询嵌入，局部裁剪（768×768分辨率）可设置0-6个裁剪区域，每个局部视图共享144个查询嵌入，总令牌数为k×144+256（k为局部裁剪数）。
注意力掩码 ：由双向掩码（用于视觉令牌，支持全令牌可见）和因果三角掩码（用于因果流令牌，仅允许关注前面的令牌）拼接而成，实现特定的注意力机制。

3.3 解码器与训练流程

解码器：沿用DeepSeek-OCR的3B参数MoE结构，活跃参数约500M。
训练三阶段：
- 第一阶段预训练编码器，使其具备特征提取、令牌压缩和重排序能力；
- 第二阶段查询增强，联合优化LLM编码器和解码器，强化令牌重排序和视觉知识压缩；
- 第三阶段冻结编码器，仅优化解码器，提升训练效率和令牌理解能力。

四、实验设计

4.1 数据设置

采用与DeepSeek-OCR相同的数据源，包括OCR 1.0、OCR 2.0和通用视觉数据，OCR数据占训练混合数据的80%。对数据进行两项优化：

对OCR 1.0数据采用更均衡的采样策略，按文本、公式、表格3:1:1的比例划分页面。
合并语义相似的布局检测类别。

4.2 基准测试

选用OmniDocBench v1.5作为主要基准，该基准包含1355个文档页面，涵盖9个主要类别，支持中英文，具有多样化测试样本和稳健的评估标准，可全面验证模型在文本、公式、表格识别及阅读顺序等方面的性能。

4.3 评估指标

主要采用整体性能准确率、编辑距离（ED）作为评估指标，包括文本编辑距离、公式CDM、表格TEDs、阅读顺序编辑距离等，编辑距离越低表示性能越好。同时在生产环境中以重复率作为关键质量指标。

五、实验分析

5.1 主要结果

在OmniDocBench v1.5上，DeepSeek-OCR 2整体性能达到91.09% ，相比DeepSeek-OCR基准提升3.73%，阅读顺序编辑距离从0.085降至0.057，证明DeepEncoder V2能有效基于图像信息选择和排列视觉令牌。
在相同视觉令牌预算（1120）下，DeepSeek-OCR 2的整体编辑距离（0.100）低于Gemini-3 Pro（0.115），在文本、公式、表格的编辑距离上均有优化，体现了其在高压缩率下的优异性能。

5.2 改进空间

在报纸类文档的文本识别编辑距离上表现不佳（>0.13 ED），推测原因是视觉令牌上限较低以及相关训练数据不足（仅250k样本）。
阅读顺序指标在所有9类文档中均优于DeepSeek-OCR，进一步验证了视觉因果流编码器设计的有效性。

5.3 实际应用性能

在生产场景中，DeepSeek-OCR 2的重复率显著降低，在线用户日志图像的重复率从6.25%降至4.17%，PDF数据生产的重复率从3.69%降至2.88%，提升了实际应用中的实用性。

六、总结

DeepSeek-OCR 2通过引入新型编码器DeepEncoder V2，实现了视觉令牌的因果语义重排序，突破了传统视觉语言模型固定扫描顺序的局限。该模型在保持高视觉令牌压缩率和解码效率的同时，显著提升了文档OCR任务的性能，尤其在阅读顺序和多类型文档元素识别上表现突出。

此外，论文验证了语言模型架构作为VLM编码器的可行性，为统一全模态编码奠定了基础。未来研究将进一步优化架构，探索真正的2D推理能力，同时扩展至更多模态，朝着更全面的多模态智能方向发展。