Deepseek-OCR:《DeepSeek-OCR: Contexts Optical Compression》 论文要点解读

最近幻方又在搞事情了,一篇关于通过视觉进行语言理解的论文火遍圈子。迫不及待看了看论文,发现他们真是一支十分聪明又十分善于思考的团队,不得不佩服!

总的来说,这篇论文的核心思想就是:通过图像来理解文字。这个很符合人类的视觉行为,我们对于文字的捕捉和理解,只有两种渠道(盲文不算):视觉和听觉。好了,现在幻方团队正在解决视觉理解文字的问题,类似于我们看书,通过视觉将书中的文字传达给大脑,再经过一系列解析从而去理解文字。(这里我觉得听觉也是可以借鉴相应思路去尝试尝试的)

和传统的ocr不同,这篇文章所阐述的方法是直接获取视觉信息,再将其压缩成一个个token,最后再经过自解码器去解码压缩了的视觉信息的token,生成一个个文字。传统的更多的只是检测和识别,然后去词库里匹配。

而要实现上述方法,我们现在有很强的理论基础,视觉我们有卷积,语言我们有语言模型,这是很天然的优势。那么具体幻方团队是怎么做的呢?一起来读一读这篇论文吧!我会先对每一段进行翻译,然后再作一些讨论。

Abstract

翻译:

我们提出了 DeepSeek-OCR ,作为对通过光学二维映射压缩长上下文可行性的初步研究。

该模型由两个部分组成:DeepEncoder 与作为解码器的 DeepSeek3B-MoE-A570M。其中,DeepEncoder 是核心引擎,旨在在高分辨率输入下保持低激活内存的同时,实现高压缩比,以确保视觉 token 数量最优且可控。

实验结果表明,当文本 token 数量是视觉 token 数量的 10 倍以内(即压缩比 <10×)时,模型可实现 97% 的解码(OCR)精度 ;即使在 20× 压缩下,准确率仍保持在 约 60%

这显示了该方法在 长上下文压缩与记忆遗忘机制 等研究方向上的潜力。

此外,DeepSeek-OCR 还具有很高的实用价值:在 OmniDocBench 基准上,仅使用 100 个视觉 token 即超越 GOT-OCR2.0(256 tokens/page) 的性能,并在使用少于 800 个视觉 token 的情况下优于 MinerU2.0(平均6000+ tokens/page)

在生产环境中,DeepSeek-OCR 可在单卡(A100-40G)上每日生成超过 20 万页 的 LLM/VLM 训练数据。代码与模型权重已在 GitHub 公布。

这段摘要清晰地阐述了论文的核心贡献:

研究问题:探索通过光学2D映射压缩长上下文的可行性

模型架构:包含DeepEncoder(核心引擎)和DeepSeek3B-MoE-A570M解码器

关键技术:在高分辨率输入下保持低激活,同时实现高压缩比

实验成果

  • 10倍压缩比下达到97%的OCR精度

  • 20倍压缩比下仍保持60%精度

  • 在OmniDocBench基准测试中表现优异,使用更少的视觉token超越现有模型

实用价值:每天可处理20万+页面,为LLM/VLM生成训练数据

开源发布:代码和模型权重已公开

这里有两张图介绍了两个关键实验的结果:

  • 压缩比测试:在Fox基准上测试文本token与视觉token的比例

  • 性能比较:在OmniDocBench上与其他模型对比

  • 核心优势:在端到端模型中以最少的视觉token达到最先进性能

1、Introduction

当前大型语言模型(LLMs)在处理长文本内容时面临显著的计算挑战,因为其计算量随序列长度呈二次方增长。我们探索一种潜在的解决方案:利用视觉模态作为高效的文本信息压缩媒介。一张包含文档文字的图像可以用远少于等价数字文本的 token 表示丰富的信息,这暗示通过视觉 token 进行光学压缩可以实现更高的压缩率。

这一段提出了研究动机:当前主流LLM在处理长序列时计算量极大,因此需要更高效的方法来表示和处理长文本。作者提出通过将文本内容"渲染"成图像形式,用视觉输入进行压缩,利用图像相对于文本具有更高的信息密度(即用更少的token表示相同的信息),来缓解长上下文带来的开销问题。这一创意建立在"一图胜千言"的观察上,即一张图片可以承载大量文字信息,用视觉token代替文本token可能达到更高的压缩比。该段旨在引出"利用视觉模态作为文本信息的压缩媒介。这是论文的核心思想。

这一观点促使我们从LLM中心的角度重新审视视觉-语言模型(VLMs),重点研究视觉编码器如何提高LLM处理文本信息的效率(而不是像视觉问答等人类擅长的任务)。作为介于视觉和语言之间的中间形式,OCR任务提供了该视觉-文本压缩范式的理想测试平台,因为它们建立了视觉和文本表征之间自然的压缩-解压映射,同时提供了定量评估指标。

作者强调要将VLM的设计思路从传统的"视觉问答"(VQA) 转向"LLM视角",也就是说,让视觉编码器辅助LLM更高效地读取文本内容。OCR任务成为核心测试平台:因为OCR本身就是将图像转换为文字的过程,天生符合"视觉压缩-文本恢复"的框架。而OCR评估也有现成的指标(如识别准确率),可以用于衡量这种视觉压缩方法的有效性。因此,本段划定了研究范围------利用OCR作为实践场景验证视觉压缩文本的可行性。

总的来说,这一段阐述了研究视角和选择OCR任务的原因

新视角 :从一个以LLM为中心的视角重新审视视觉语言模型(VLMs)。关注点不再是让模型具备人类擅长的视觉问答(VQA)能力,而是如何利用视觉编码器来提高LLM处理文本信息的效率

选择OCR的原因

  • 桥梁作用:OCR是连接视觉和语言的中间模态。

  • 天然的压缩-解压缩映射:图像是"压缩"的文本,OCR识别就是"解压缩"过程。

  • 可量化评估:OCR有明确的评估指标(如精度),便于量化研究压缩效果。

为此,我们提出了 DeepSeek-OCR,这是一种作为有效视觉-文本压缩的初步概念验证的视觉-语言模型。我们的工作有以下三大主要贡献:

第一,我们提供了对视觉-文本token压缩率的全面定量分析。我们的方法在Fox基准(包含多样化文档布局)上,在9-10倍文本压缩率时实现了96%+的OCR解码精度,10-12倍时约90%,20倍时约60%(若考虑输出与真值的格式差异,实际准确率更高),如图1(a)所示。结果表明,即使是紧凑型的语言模型也能有效地学习解码压缩的视觉表征,这暗示通过合适的预训练设计,更大的LLM也可以轻松获得类似能力。

第二,我们提出了DeepEncoder,这是一种新颖的架构,即使在高分辨率输入下也能保持低激活内存并产生极少量的视觉token。它通过一个16×卷积压缩器将窗口注意力和全局注意力编码组件串联连接。该设计确保窗口注意力部分可以处理大量视觉token,而在进入密集的全局注意力部分之前通过压缩器显著减少视觉token数量,从而实现了有效的内存和token压缩。

第三,我们基于DeepEncoder和DeepSeek3B-MoE [19, 20]开发了DeepSeek-OCR。如图1(b)所示,它在端到端模型中以使用最少视觉token的条件下,在OmniDocBench上取得了最先进的性能。此外,我们赋予模型解析图表、化学公式、简单几何图形和自然图像的能力,以进一步提升其实用性。在实际生产环境中,DeepSeek-OCR使用20台节点(每台配备8个A100-40G GPU)每天可以为LLMs或VLMs生成3300万页训练数据。

这里总结了首要贡献:第一是对视觉压缩能力的定量验证。具体实验使用Fox数据集(含多种复杂布局的文档)评估在不同压缩比下OCR的准确率。实验结果显示,在10倍左右的压缩下仍能保持97%左右的识别率,20倍时也能保持60%以上。这些数值表明即便将原本文本渲染为图像并压缩(减少大量token),模型依然可以准确恢复文本。分析指出这是一个很有意义的发现:说明即使小型模型也能学习解码这种视觉压缩表示,暗示更大模型通过类似预训练也能实现高质量的视觉压缩解码。这一贡献强调了研究的可行性和意义。

第二大贡献是DeepEncoder的设计要点。DeepEncoder通过串联两种编码器(前半部分是窗口注意力为主,后半部分是全局注意力为主)并在二者之间插入一个16倍卷积下采样模块,来兼顾高分辨率和少token的需求。具体来说,大量信息先由窗口注意力处理,然后通过下采样"压缩"tokens,再由全局注意力进行融合和理解。这种架构在保证处理高分辨率图像的同时,大幅度减少了后端全局注意力所需的token数量,从而降低显存占用和计算量。这是对现有视觉编码器的一种创新,为高效大图像编码提供了新方案。

第三项贡献:具体实现的DeepSeek-OCR系统。该模型结合了前述DeepEncoder和一个DeepSeekMoE解码器,并在OmniDocBench真实文档OCR基准上表现优秀,同时消耗的视觉token数量非常低。这意味着在实用OCR任务中,该模型实现了最先进的性能-效率权衡。此外,作者还拓展了DeepSeek-OCR的功能,使其能够对各种复杂内容(如图表、公式、几何图形和自然场景图像)进行解析,这使其更具通用性和应用价值。最后,作者指出该系统具有很高的工程价值:在生产环境中可高效生成海量训练数据,证明了系统设计的可扩展性和实用性。

总结一下,第一个贡献:

  1. 内容:对视觉-文本token压缩比进行了全面的定量分析。

  2. 关键数据

    • 9-10倍压缩:OCR精度 >96%

    • 10-12倍压缩:精度 ~90%

    • 20倍压缩:精度 ~60%

  3. 意义:证明了即使是紧凑的语言模型也能有效解码被压缩的视觉表征。这预示着更大的LLM通过适当的预训练设计,也能轻松获得这种能力,为未来研究指明了方向。

第二个贡献:

  1. 内容 :提出了一个新颖的视觉编码器架构------DeepEncoder

  2. 设计目标 :在高分辨率输入下,仍能保持低激活内存最少的视觉token

  3. 核心设计

    • 串联结构 :窗口注意力 → 16倍卷积压缩器 → 全局注意力。

    • 分工明确:窗口注意力处理大量token(计算高效),压缩器大幅减少token数量,全局注意力处理精炼后的token(效果好)。

    • 效果:同时实现了内存和token的有效压缩。

第三个贡献:

  1. 内容:基于DeepEncoder和DeepSeek3B-MoE开发了完整的DeepSeek-OCR模型。

  2. 性能:在OmniDocBench上,在使用最少视觉token的端到端模型中,达到了最先进的性能。

  3. 功能拓展:不仅限于文字OCR,还扩展了图表、化学公式、几何图形和自然图像的理解能力,增强了实用性。

  4. 工程价值:展示了强大的生产力,每天可为LLM/VLM生成3300万页的训练数据。

总而言之,本工作提出并初步探索了使用视觉模态作为LLMs文本信息处理中的高效压缩媒介。通过DeepSeek-OCR,我们证明了视觉-文本压缩可以在不同历史上下文阶段实现7-20倍的显著token减少,为解决大型语言模型中的长上下文问题提供了一个有前景的方向。我们的定量分析为VLM的token分配优化提供了经验指导,而所提的DeepEncoder架构则展示了在实际部署中的可行性。虽然本研究以OCR任务作为概念验证,但这一范式为重新思考视觉和语言模态如何协同提高大规模文本处理和智能体系统的计算效率开辟了新可能。

这一总结段强调了本文工作的意义和贡献。它将研究定位为"初步探索",表明该工作为使用视觉信息压缩文本提供了初步证据和思路。核心在于证明"视觉-文本压缩"(即将文本渲染为图像并利用视觉编码恢复)能够显著降低需要处理的token数量(可高达20倍以上),为解决LLM的长上下文瓶颈提供了新方向。同时,作者提到的定量实验结果和DeepEncoder设计可以指导未来VLM的资源分配策略,并证明了系统设计的实际可行性。最后指出虽然本文专注于OCR,这一思路广泛适用于其它场景,即将视觉和语言融合以提高大规模文本处理效率可能成为一种重要范式。

2、Related Works

2.1、Typical Vision Encoders in VLMs

当前开源的VLM使用三种主要类型的视觉编码器,如图2所示。第一类是以Vary [36]为代表的双塔架构,它采用并行的SAM [17]编码器来扩大视觉词汇以处理高分辨率图像。虽然这种方法具有可控的参数规模和激活内存,但存在显著缺点:它需要对图像进行双重预处理,这增加了部署复杂度,并且在训练时导致编码器流水线并行化变得困难。第二类是以InternVL2.0 [8]为例的基于切片(tile)的处理方法,它将图像划分为小块进行并行计算,从而在高分辨率设置下减少激活内存消耗。虽然该方法能处理极高分辨率,但由于其原生编码器分辨率通常很低(低于512×512),导致大图像被过度切割,产生大量视觉token,这是一大局限。第三类是以Qwen2-VL [35]为代表的自适应分辨率编码,它采用NaViT [10]范式,通过基于patch的分割直接处理完整图像,而不进行切片并行。虽然该编码器能灵活应对多种分辨率,但在处理大图像时面临巨大挑战:海量激活内存消耗可能导致GPU内存溢出,同时序列打包需要极长序列长度进行训练,长序列的视觉token会拖慢推理阶段的填充和生成速度。

本段回顾了现有VLM中常见的三类视觉编码器结构,并点出了它们各自的不足,为设计新编码器(DeepEncoder)提供背景。双塔结构通过并行编码器提升视觉词汇表,但要处理图像需要两次预处理,增加了部署难度和训练复杂度。基于切片的方法通过将大图划分为小块并行处理来节省内存,但其固有限于较低的本地分辨率,会使大图生成许多碎片和过多token。自适应分辨率(Navit)方法处理能力强,但在高分辨率时内存消耗巨大,序列长度又过长,影响训练和推理速度。这说明现有编码器在满足高分辨率和少token的综合要求上都有缺陷,为DeepEncoder的设计留出了优化空间。

其实从图中就可以抽象理解上述三种方法的大致的处理方式,我们来总结一下:

  1. 双塔架构(以Vary为代表)

    • 优点:参数和激活内存可控。

    • 缺点:需要双重图像预处理,部署复杂,训练时编码器管道并行困难。

  2. 分块处理(以InternVL2.0为代表)

    • 优点:能处理极高分辨率,通过并行计算减少激活内存。

    • 缺点:原生编码器分辨率低,导致大图像被过度碎片化,产生大量视觉token。

  3. 自适应分辨率编码(以Qwen2-VL为代表)

    • 优点:能灵活处理不同分辨率。

    • 缺点:处理大图像时激活内存消耗巨大,可能导致GPU内存溢出;训练时需要极长的序列长度,推理时也会减慢速度。

总结:作者通过分析指出,现有编码器无法同时满足高分辨率处理、低激活内存、少视觉token、多分辨率支持和适中参数量的需求,从而引出他们需要自行设计DeepEncoder。

2.2、End-to-end OCR Models

OCR,尤其是文档解析任务,一直是图像到文本领域的热点话题。随着VLM的发展,大量端到端OCR模型应运而生,从根本上简化了传统的流水线架构(传统OCR需要分开进行文本检测和识别),极大提升了OCR系统的简洁性。Nougat [6]首次在arXiv学术论文OCR中采用端到端框架,展示了模型处理高密度文本的潜力。GOT-OCR2.0 [38]将OCR2.0的范围扩大到更多合成图像解析任务,并设计了兼顾性能和效率的OCR模型,进一步凸显了端到端OCR研究的潜力。此外,Qwen-VL系列 [35]、InternVL系列 [8] 等通用视觉模型及其众多衍生模型不断增强文档OCR能力,以探索视觉感知的极限。然而,目前的模型尚未解决一个关键问题:对于包含1000个单词的文档,至少需要多少视觉token才能实现解码?这个问题对于验证"百字图胜千言"这一原则具有重要意义。

本段综述了OCR模型的发展状况,并提出了本文关注的关键研究问题。过去几年出现了许多端到端OCR模型,它们用统一的模型替代了传统的先检测后识别的流水线,提高了任务处理效率。然而,这些研究并未回答"对于一定量的文本(如1000词),需要多少视觉token才能恢复"这一问题。这正是本文试图探讨的根本问题,旨在定量理解图像文本编码的效率上限,从而验证"用图像压缩长文"的合理性。

3、Methodology

3.1、Architecture

如图3所示,DeepSeek-OCR采用统一的端到端VLM架构,由一个编码器和一个解码器组成。编码器(即DeepEncoder)负责提取图像特征,并将视觉信息进行token化和压缩;解码器则用于基于图像token和提示生成所需的文本输出。DeepEncoder的参数量约为380M,主要由一个80M的SAM-base [17]和一个300M的CLIP-large [29]串联组成。解码器采用一个3B参数量的MoE架构,激活参数约570M。下面的内容将详细介绍模型组件、数据处理及训练策略。

该段对DeepSeek-OCR的整体架构做了宏观说明。系统分为"编码器-解码器"两大部分:DeepEncoder负责视觉输入处理,将图像转换为压缩后的视觉token;解码器负责将这些token和提示转为文本输出。作者给出了网络规模:编码器约380M参数(分为两个部分:80M的窗口式Transformer(即SAM-base)和300M的全局Transformer(CLIP-large)串联),解码器约3B参数(MoE架构,仅激活570M)。这一体系结构体现了"视觉压缩-文本生成"的设计理念,即在视觉和文本之间建立端到端流程。

其实这段话的重点就两个:

  • DeepEncoder:约3.8亿参数(SAM-base 0.8亿 + CLIP-large 3亿,串联)。

  • Decoder:采用30亿参数的MoE架构,但每次推理仅激活约5.7亿参数。这体现了MoE模型在保持强大表达能力的同时,兼具推理高效性的优势。

接下来的章节将详述各组件细节及训练方法。

3.2、DeepEncoder

为了探索上下文光学压缩的可行性,我们需要一个具有以下特征的视觉编码器:1. 能够处理高分辨率输入;2. 在高分辨率下仍保持低激活内存占用;3. 生成极少量的视觉token;4. 支持多种分辨率输入;5. 参数规模适中。然而,如第2.1节所述,目前开源的编码器并不能同时满足所有这些条件。因此,我们自行设计了一个新的视觉编码器,命名为DeepEncoder。

本段明确了设计DeepEncoder的需求:既要能接受超高分辨率图像,又要保证模型运行时占用内存低、生成的token少、支持多分辨率场景并且模型规模不能过大。回顾前文可知,现有编码器方案至少缺少这些要求的一两项,因此作者决定全新设计DeepEncoder来满足这些技术指标。

3.2.1、Architecture of DeepEncoder

DeepEncoder主要由两个部分组成:一个以窗口注意力为主的视觉感知特征提取组件,以及一个具有密集全局注意力的视觉知识提取组件。为了利用之前工作的预训练成果,我们分别采用SAM-base(patch大小16)和CLIP-large作为这两个部分的主干网络。对于CLIP模块,我们去掉了其第一个patch嵌入层,因为其输入不再是原始图像而是前一模块的输出token。在这两部分之间,我们借鉴Vary [36]的思路,使用一个两层卷积模块对视觉token进行16倍下采样。每个卷积层的卷积核大小为3,步幅为2,填充为1,通道数从256增加到1024。假设输入一幅1024×1024的图像,DeepEncoder会将其分割成1024/16 × 1024/16 = 4096个patch token。由于编码器的前半部分由80M参数的窗口注意力模块主导,其激活内存消耗可控。在进入全局注意力之前,这4096个token经过压缩模块处理后,token数量缩减为4096/16 = 256,从而使整体激活内存可控。

本段详细描述了DeepEncoder的架构:它首先用窗口注意力网络(SAM-base)处理图像特征,然后再用全局注意力网络(CLIP)进行更深层次理解。关键在于两者之间的16倍下采样卷积层:这一步将高分辨率图像产生的4096个token压缩为256个,有效减少了送入CLIP前的token数量。具体而言,输入1024×1024图像被切分为4096个16×16patch,如此窗口注意力网络可在保持局部信息的同时控制激活量。随后下采样卷积降低token数量,使全局注意力部分的计算开销显著减小。综上,DeepEncoder通过串联窗口与全局注意力并在中间加卷积,解决了高分辨率处理与token压缩的矛盾。

总结一下这段包含的内容:

  1. 两个核心组件

    • 视觉感知特征提取组件 :以窗口注意力(Window Attention) 为主。使用SAM-base实现。优点是计算效率高,能在处理大量patch token时保持可接受的激活内存。

    • 视觉知识特征提取组件 :使用密集全局注意力(Dense Global Attention) 。使用CLIP-large实现(但去掉了最初的patch embedding层)。优点是能捕获丰富的语义知识。

  2. 连接两个组件的关键模块 :一个2层卷积模块 ,用于对视觉token进行16倍下采样

    • 具体参数:kernel=3, stride=2, padding=1,通道数从256增加到1024。
  3. 工作流程举例

    • 输入1024x1024图像 → SAM将其分割为 (1024/16)^2 = 4096个patch token。

    • 这些token经过窗口注意力的SAM(参数量小,激活内存可控)。

    • 然后通过卷积压缩器:4096 / 16 = 256个token。

    • 最后,这256个token送入全局注意力的CLIP部分。

这种串联式设计,先利用高效的窗口注意力处理大量token,再通过压缩器大幅减少token数量,最后用计算代价高的全局注意力处理精炼后的token,巧妙地平衡了计算效率、内存消耗和模型性能。

3.2.2、Multiple resolution support

假设我们有一张包含1000个字符的图像,并希望测试需要多少视觉token才能完成解码。这要求模型能支持可变数量的视觉token。换言之,DeepEncoder需要支持多种分辨率输入。

这里作者提出一个实际需求:在现实OCR场景中,不同文档的长度可能非常不同,比如1000个字符的文档,需要不同量的视觉token来表示和解码。为了灵活应对不同规模的文本,上述需求要求编码器能够适应不同的分辨率设置,使得视觉token的数量能够根据任务动态变化。这正是设计多分辨率支持的出发点。

我们通过对位置编码进行动态插值来满足上述要求,并设计了若干分辨率模式同时训练,使得同一个DeepSeek-OCR模型能够支持多种分辨率。如图4所示,DeepEncoder主要支持两种输入模式:原生分辨率和动态分辨率,每种模式包含多个子模式。

作者介绍了DeepEncoder支持多分辨率的策略:通过在训练时使用不同的分辨率方案并动态插值位置编码,模型学会处理多种图像大小。图4所示,"原生分辨率"是指固定尺寸输入(Tiny、Small、Base、Large),而"动态分辨率"则结合了多个固定分辨率来处理超大图(例如将图像划分为局部块和一个全局视图)。这种设计允许单一模型自适应不同输入尺寸,从而在实践中能够灵活地调节视觉token数量以匹配文本长度需求。

原生分辨率支持四个子模式:Tiny、Small、Base和Large,对应的输入尺寸和视觉token数分别为512×512 (64)、640×640 (100)、1024×1024 (256)和1280×1280 (400)。由于Tiny和Small模式的分辨率较小,为避免浪费视觉token,输入图像直接按比例缩放至对应大小。对于Base和Large模式,为保留原始图像的纵横比,先将图像填充到对应尺寸。填充后,有效的视觉token数量少于实际的token数量,其计算公式为:

W和h表示原始输入图像的宽和高。

本段细化了原生分辨率模式的设计。Tiny/Small模式直接缩放图像,因此按输出token数对应固定值;Base/Large模式则通过填充保持原始纵横比,避免图像被扭曲。填充后图像边缘会产生无效区域,公式给出了有效token的计算方法,确保下游只关注实质内容。这些设置可以根据实际硬件资源和任务需求选择不同的分辨率---Token配置,以平衡性能和效率。

公式(1)是有效Token计算:定义了在填充后"有效"视觉token的数量,它小于实际产生的token数。这考虑了图像非正方形时填充带来的冗余。

总的来说,作者设计了两种输入模式:

  • Tiny/Small模式:直接缩放(Resize)图像,避免浪费token。

  • Base/Large模式:使用填充(Padding)以保持图像原始宽高比。

每种模式下的不同分辨率策略如下:

  • Tiny: 512x512 (64 tokens)

  • Small: 640x640 (100 tokens)

  • Base: 1024x1024 (256 tokens)

  • Large: 1280x1280 (400 tokens)

上述模式和分辨率策略的说明对于研究不同压缩比至关重要,而研究不同压缩比正是该论文的真实意图。

动态分辨率可以由两种原生分辨率组合而成。例如,Gundam模式由n个640×640大小的分片(局部视图)和一个1024×1024全局视图构成(分片切分方法参考InternVL2.0 [8])。引入动态分辨率主要是为了应用考虑,特别是针对超高分辨率输入(如报纸图像)。分片处理实际上是一种二次窗口注意力,可进一步降低激活内存消耗。值得注意的是,由于我们的原生分辨率已经较大,在动态分辨率下图像不会被过度切碎(分片数控制在2到9之间)。在Gundam模式下DeepEncoder输出的视觉token数为:n × 100 + 256,其中n是分片数量。对于宽高都小于640的图像,将n设为0,即Gundam模式退化为Base模式。

此段详细说明了动态分辨率模式的设计与训练策略

  1. 动态分辨率构成:由两种原生分辨率组合而成。例如:

    • Gundam模式n个640x640的局部切片 + 1个1024x1024的全局视图。
  2. 应用目标 :主要用于处理超高分辨率输入(如报纸图像)。

  3. 技术优势 :分片(Tiling)是一种二次窗口注意力机制,能进一步有效降低激活内存。

  4. 设计考量:由于原生分辨率已经较大(如640, 1024),动态分辨率下图像不会被过度碎片化(切片数n控制在2-9之间),保持了处理效率。

  5. Token数量计算 :Gundam模式输出的视觉token数为 n x 100 + 256。如果图像本身很小,则退化到Base模式(n=0)。

  6. 训练策略

    • 联合训练 :Gundam模式与四种原生分辨率模式一起训练,实现单一模型支持多分辨率。

    • 分阶段训练 :Gundam-master模式(分辨率更高)是在训练好的DeepSeek-OCR模型基础上继续训练 得到的。这样做是为了负载均衡,避免大分辨率拖慢整体训练速度。

Gundam模式与四种原生分辨率模式一同训练,以实现单模型支持多种分辨率的目标。需要注意的是,Gundam-master模式(1024×1024局部视图+1280×1280全局视图)是在已训练的DeepSeek-OCR模型基础上继续训练得到的。这主要是为了负载均衡,因为Gundam-master的分辨率过大,如果和其他模式同时训练会使整体训练速度变慢。

本段补充了多分辨率训练策略的细节。普通Gundam模式是在与其它分辨率模式并行训练中学到的,而Gundam-master(更高分辨率)则单独在已有模型上继续训练得到,以避免训练过程过慢。这说明训练设计上采取了分阶段策略,使模型既能容纳极大尺寸输入,又能兼顾整体训练效率。

3.3、The MoE Decoder

我们的解码器使用DeepSeekMoE [19, 20],具体为DeepSeek-3B-MoE。在推理过程中,模型会激活64个专家路由中的6个专家和2个共享专家,大约570M个参数被激活。这种3B规模的DeepSeekMoE非常适合领域专用(此处为OCR)的VLM研究,因为它同时具备3B模型的表达能力和500M小模型的推理效率。

解码器从DeepEncoder输出的压缩潜在视觉token重建原始文本表示:

其中表示来自DeepEncoder的压缩视觉token,表示重建的文本表示。函数代表一个非线性映射,通过类似OCR风格的训练,紧凑的语言模型可以有效学习该映射。我们可以合理推测,通过专门的预训练优化,更大的LLM将能够更自然地整合这类能力。

上面主要介绍了解码器的选择、优势及其核心功能

  1. 解码器选择 :采用DeepSeek-3B-MoE(混合专家模型)。

  2. MoE优势

    • 表达能力强:具备30亿参数模型的表达能力。

    • 推理效率高:每次推理仅激活6个路由专家和2个共享专家,约5.7亿参数,享受小模型(5亿参数)的推理效率。

    • 非常适合领域研究:这种特性使其非常适合像OCR这样的领域中心化VLM研究。

  3. 核心功能数学化表述(公式2):

    • 解码器函数 f_dec 将DeepEncoder输出的压缩潜在视觉token序列 Z(维度: n x d_latent)映射/重构 为文本表征 X_hat(维度: N x d_text)。

    • 其中 n ≤ N,直观体现了压缩的过程:用较少的视觉token(n)来还原出较多的文本token(N)。

  4. 理论推测:这种非线性映射能力可以通过OCR风格的训练被紧凑的语言模型有效学习。作者进一步推测,大型语言模型(LLMs)通过专门的预训练优化,将能更自然地集成此类能力。

整体而言,这表述了DeepSeek-OCR的基本目标:学会将视觉压缩表征还原为文本形式。

3.4、Data Engine

我们为DeepSeek-OCR构建了复杂多样的训练数据集,包含OCR 1.0数据(主要涵盖场景图像OCR和文档OCR等传统OCR任务)、OCR 2.0数据(主要包含常见图表、化学公式、平面几何等复杂人工图像的解析任务)以及通用视觉数据。其中通用视觉数据主要用于为DeepSeek-OCR注入特定的通用图像理解能力,同时保持其通用视觉接口的完整性。

从这里开始,主要是介绍所用数据集以及评估方法。

此段概述了为DeepSeek-OCR构建的复杂多样的训练数据体系,主要分为三大类:

  1. OCR 1.0 数据:传统OCR任务,如场景图像OCR和文档OCR。

  2. OCR 2.0 数据:复杂人工图像的解析任务,如图表、化学公式、平面几何。

  3. 通用视觉数据:用于为模型注入通用图像理解能力,并保留通用视觉接口。

3.4.1、OCR 1.0 data

文档数据是DeepSeek-OCR的首要任务。我们从互联网收集了涵盖约100种语言的3000万页多样化PDF数据,其中中文和英文约占2500万页,其他语言约占500万页。针对这些数据,我们创建了两种类型的基准数据:粗标注和细标注。粗标注通过fitz工具直接从完整数据集中提取,旨在训练模型识别光学文本,尤其针对少数民族语言。细标注包含中文和英文各200万页,采用先进的布局模型(如PP-DocLayout[33])和OCR模型(如MinuerU[34]、GOT-OCR2.0[38])进行标注,构建检测与识别交织的数据集。对于少数民族语言,我们在检测阶段发现布局模型具有一定的泛化能力。在识别阶段,我们使用fitz生成小块数据训练GOT-OCR2.0模型,再利用训练好的模型对布局处理后的数据进行标注,通过模型飞轮机制生成60万数据样本。在DeepSeekOCR训练过程中,粗标注和细标注通过不同提示词进行区分。图5展示了OCR 1.0细标注的展示效果。精细标注图像-文本对的基准数据可参见图5。我们还收集了300万份Word数据,通过直接提取内容构建高质量的图像-文本对,无需布局。这些数据主要对公式和HTML格式表格有益。此外,我们还选取了一些开源数据[28,37]作为补充。

开始详细介绍OCR 1.0 数据,尤其是文档数据:

  1. 数据规模与多样性:收集了3000万页多样化的PDF数据,覆盖约100种语言(中英文约2500万页,其他语言约500万页)。
  2. 两种标注真值:
    1. 粗标注(Coarse annotations)
    2. 细标注(Fine annotations)

我们先看论文里的两张图:

上图是原图

上面这张图展示了细标注图文对的真值格式。

从图中可以看出,论文是如何将一张带有图标和图表的富文本进行标注转换的。

这部分继续详细说明OCR 1.0 数据的构建细节

  1. 粗标注

    • 方法 :使用 fitz 直接从PDF中提取。

    • 目的 :主要教模型识别光学文本,特别是小语种

  2. 细标注

    • 规模:中英文各200万页。

    • 方法 :使用先进的布局模型(PP-DocLayout)和OCR模型(MinerU, GOT-OCR2.0)来构建检测与识别交错的数据(即包含布局框和文本内容)。

    • 小语种处理策略

      • 检测:利用布局模型的泛化能力。

      • 识别 :采用模型飞轮(Model Flywheel) :先用 fitz 创建小patch数据训练一个GOT-OCR2.0模型,再用该模型对经过布局处理的patch进行标注,生成了60万数据样本。

  3. 训练区分 :通过不同的提示词(Prompts) 来区分使用粗标签还是细标签进行训练。

  4. Word数据:收集300万Word文档数据,通过直接提取内容构建高质量图文对(无布局信息),主要有利于公式和HTML格式表格的识别。

  5. 自然场景OCR

    • 语言:主要支持中英文。

    • 数据源:LAION和Wukong。

    • 标注:使用PaddleOCR,中英文各1000万数据样本。

    • 灵活性:与文档OCR一样,可以通过提示词控制是否输出检测框。

最后:

For natural scene OCR, our model mainly supports Chinese and English. The image data
sources come from LAION [ 31 ] and Wukong [ 13 ], labeled using PaddleOCR [ 9 ], with 10M data samples each for Chinese and English. Like document OCR, natural scene OCR can also control whether to output detection boxes through prompts.

对于自然场景OCR,我们的模型主要支持中文和英文。图像数据来源于LAION [31]和Wukong [13],使用PaddleOCR [9]进行标注,中文和英文各有1000万数据样本。与文档OCR类似,自然场景OCR也可以通过提示词控制是否输出检测框。

3.4.2. OCR 2.0 data

Following GOT-OCR2.0 [ 38 ], we refer to chart, chemical formula, and plane geometry parsing data as OCR 2.0 data. For chart data, following OneChart [ 7 ], we use pyecharts and matplotlib to render 10M images, mainly including commonly used line, bar, pie, and composite charts. We define chart parsing as image-to-HTML-table conversion task, as shown in Figure 6(a). For chemical formulas, we utilize SMILES format from PubChem as the data source and render them into images using RDKit, constructing 5M image-text pairs. For plane geometry images, we follow Slow Perception [ 39] for generation. Specifically, we use perception-ruler size as 4 to model each line segment. To increase the diversity of rendered data, we introduce geometric translation-invariant data augmentation, where the same geometric image is translated in the original image, corresponding to the same ground truth drawn at the centered position in the coordinate system. Based on this, we construct a total of 1M plane geometry parsing data, as illustrated in Figure 6(b).

遵循GOT-OCR2.0 [38],我们将图表、化学公式和平面几何解析数据称为OCR 2.0数据。对于图表数据,按照OneChart [7]的方法,我们使用pyecharts和matplotlib生成1000万张图像,主要包括常用的折线图、柱状图、饼图和复合图表。我们将图表解析定义为图像到HTML表格的转换任务,如图6(a)所示。对于化学公式,我们利用PubChem的SMILES格式作为数据源,并使用RDKit将其渲染为图像,构建500万组图像-文本对。对于平面几何图像,我们遵循Slow Perception [39]的方法进行生成。具体而言,我们使用感知标尺大小为4来对每个线段进行建模。为了增加渲染数据的多样性,我们引入了几何平移不变性数据增强,即在原始图像中对同一几何图像进行平移,对应的地面真值在同一坐标系的中心位置绘制。基于此,我们构建了总计100万组平面几何解析数据,如图6(b)所示。

这里详细说明了三类OCR 2.0数据的构建方法

  1. 图表数据

    • 规模:渲染生成1000万张图像。

    • 类型:主要包括常用的折线图、柱状图、饼图以及复合图表。

    • 任务定义 :将图表解析任务定义为 图像到HTML表格的转换。如图6(a)所示,这种格式比字典格式更节省token。

  2. 化学公式数据

    • 数据源 :使用PubChem数据库中的SMILES格式(一种用字符串表示分子结构的规范)作为真值。

    • 渲染工具 :使用RDKit将SMILES字符串渲染成化学结构图像。

    • 规模:构建了500万图文对。

  3. 平面几何数据

    • 生成方法:遵循Slow Perception的方法。

    • 关键参数:感知标尺(perception-ruler)大小为4,用于对每条线段进行建模。

    • 数据增强 :引入了几何平移不变性 增强------将相同的几何图形在图像内进行平移,但其坐标系的真值始终以居中位置绘制。这增加了数据的多样性,并教导模型关注几何关系而非绝对位置。

    • 规模:总共构建了100万平面几何解析数据。


图6 (a) Image-text ground truth of chart


图6 (b) Image-text ground truth of geometry

图6展示了图表和平面几何数据的标签格式。

3.4.3. General vision data

DeepEncoder can benefit from CLIP's pretraining gains and has sufficient parameters to in
corporate general visual knowledge. Therefore, we also prepare some corresponding data for
DeepSeek-OCR. Following DeepSeek-VL2 [ 40 ], we generate relevant data for tasks such as
caption, detection, and grounding. Note that DeepSeek-OCR is not a general VLM model, and
this portion of data accounts for only 20% of the total data. We introduce such type of data
mainly to preserve the general vision interface, so that researchers interested in our model and
general vision task can conveniently advance their work in the future.

DeepEncoder能够受益于CLIP的预训练成果,并拥有足够的参数来整合通用视觉知识。因此,我们也为DeepSeek-OCR准备了一些相应的数据。遵循DeepSeek-VL2 [40]的方法,我们为诸如字幕生成、检测和定位等任务生成相关数据。需要注意的是,DeepSeek-OCR并非一个通用的视觉语言模型,这部分数据仅占总数据的20%。我们引入此类数据主要是为了保留通用的视觉接口,以便对我们模型及通用视觉任务感兴趣的研究人员未来能够便捷地推进他们的工作。

这一小节说明了引入通用视觉数据的目的和规模

  1. 动机

    • DeepEncoder本身基于CLIP,能从其预训练中获益。

    • 模型有足够的参数容纳通用视觉知识。

  2. 数据内容:遵循DeepSeek-VL2,生成图像描述(Caption)、目标检测(Detection)、定位(Grounding)等相关任务的数据。

  3. 定位与比例 :明确强调DeepSeek-OCR不是一个通用VLM ,这类数据仅占总数据的20%

  4. 主要目的保留通用视觉接口,为后续研究者基于该模型推进通用视觉任务的研究提供便利,体现了工作的延续性和开放性。

3.4.4. Text-only data

To ensure the model's language capabilities, we introduced 10% of in-house text-only pretrain
data, with all data processed to a length of 8192 tokens, which is also the sequence length
for DeepSeek-OCR. In summary, when training DeepSeek-OCR, OCR data accounts for 70%,
general vision data accounts for 20%, and text-only data accounts for 10%.

为确保模型的语言能力,我们引入了10%的内部纯文本预训练数据,所有数据均被处理为8192个标记的长度,这也是DeepSeek-OCR的序列长度。总结而言,在训练DeepSeek-OCR时,OCR数据占比70%,通用视觉数据占比20%,纯文本数据占比10%。

这里说明了纯文本数据的作用和整体数据配比

  1. 目的 :确保模型的语言能力不因专注视觉任务而退化。

  2. 数据与长度:使用内部预训练文本数据,所有数据处理为8192 token的长度,这也是DeepSeek-OCR的序列长度。

  3. 最终训练数据混合比例

    • OCR数据(1.0 + 2.0)70% (核心任务)

    • 通用视觉数据20% (保留接口)

    • 纯文本数据10% (保持语言能力)

这个比例清晰地反映了模型的定位:一个专注于OCR但兼具通用视觉理解和语言能力的强大工具。

3.5. Training Pipelines

Our training pipeline is very simple and consists mainly of two stages: a).Training DeepEncoder
independently; b).Training the DeepSeek-OCR. Note that the Gundam-master mode is obtained
by continuing training on a pre-trained DeepSeek-OCR model with 6M sampled data. Since the
training protocol is identical to other modes, we omit the detailed description hereafter.

我们的训练流程非常简单,主要包括两个阶段:a). 独立训练DeepEncoder;b). 训练DeepSeek-OCR。需要注意的是,Gundam-master模式是通过在预训练的DeepSeek-OCR模型上使用600万采样数据继续训练而获得的。由于训练协议与其他模式相同,我们在此省略详细描述。

从3.5开始,主要概述训练流程

  1. 两个主要阶段

    • a) 独立训练DeepEncoder

    • b) 训练完整的DeepSeek-OCR

  2. Gundam-master模式的特殊处理 :在预训练好的DeepSeek-OCR模型上,使用600万采样数据继续进行继续训练(Continued Training) 得到。因其训练协议与其他模式相同,下文不再赘述。

3.5.1. Training DeepEncoder

Following Vary [ 36 ], we utilize a compact language model [ 15 ] and use the next token prediction
framework to train DeepEncoder. In this stage, we use all OCR 1.0 and 2.0 data aforementioned,
as well as 100M general data sampled from the LAION [ 31 ] dataset. All data is trained for
2 epochs with a batch size of 1280, using the AdamW [ 23 ] optimizer with cosine annealing
scheduler [ 22 ] and a learning rate of 5e-5. The training sequence length is 4096.

遵循Vary [36]的方法,我们采用了一个紧凑的语言模型[15],并利用下一个令牌预测框架来训练DeepEncoder。在此阶段,我们使用了前述的所有OCR 1.0和2.0数据,以及从LAION [31]数据集中抽取的1亿条通用数据。所有数据均训练2个周期,批次大小为1280,采用AdamW [23]优化器配合余弦退火调度器[22],学习率为5e-5。训练序列长度为4096。

这里说明了DeepEncoder独立训练阶段的具体设置

  1. 训练方法 :遵循Vary的方法,使用一个紧凑的语言模型 (作为解码器),在下一词预测(Next Token Prediction) 框架下训练DeepEncoder。这实质上是让DeepEncoder学习如何输出能被语言模型良好理解的视觉token序列。

  2. 训练数据

    • 所有前述的OCR 1.0和OCR 2.0数据。

    • 从LAION数据集中采样的1亿通用视觉数据。

  3. 超参数

    • 训练轮数:2个epoch。

    • 批大小:1280。

    • 优化器:AdamW。

    • 学习率调度:余弦退火(Cosine Annealing),初始学习率5e-5。

    • 序列长度:4096。

3.5.2. Training DeepSeek-OCR

After DeepEncoder is ready, we use data mentioned in Section 3.4 to train the DeepSeek-OCR.
with the entire training process conducted on the HAI-LLM [ 14 ] platform. The entire model
uses pipeline parallelism (PP) and is divided into 4 parts, with DeepEncoder taking two parts
and the decoder taking two parts. For DeepEncoder, we treat SAM and the compressor as the
vision tokenizer, place them in PP0 and freeze their parameters, while treating the CLIP part as
input embedding layer and place it in PP1 with unfrozen weights for training. For the language
model part, since DeepSeek3B-MoE has 12 layers, we place 6 layers each on PP2 and PP3. We
use 20 nodes (each with 8 A100-40G GPUs) for training, with a data parallelism (DP) of 40 and
a global batch size of 640. We use the AdamW optimizer with a step-based scheduler and an
initial learning rate of 3e-5. For text-only data, the training speed is 90B tokens/day, while for
multimodal data, the training speed is 70B tokens/day.

在DeepEncoder准备就绪后,我们使用第3.4节中提到的数据来训练DeepSeek-OCR。整个训练过程在HAI-LLM [14]平台上进行。整个模型采用流水线并行(PP)技术,被划分为4个部分,其中DeepEncoder占据两部分,解码器占据另外两部分。对于DeepEncoder,我们将SAM和压缩器视为视觉分词器,将它们放置在PP0中并冻结其参数,同时将CLIP部分作为输入嵌入层,放置在PP1中,权重未冻结以进行训练。对于语言模型部分,由于DeepSeek3B-MoE有12层,我们将6层分别放置在PP2和PP3上。我们使用20个节点(每个节点配备8个A100-40G GPU)进行训练,数据并行(DP)度为40,全局批次大小为640。我们采用AdamW优化器,配合基于步数的调度器,初始学习率为3e-5。对于纯文本数据,训练速度为每天900亿个标记,而对于多模态数据,训练速度为每天700亿个标记。

此处详细说明了完整DeepSeek-OCR模型的训练设置,重点在于分布式训练策略

  1. 训练数据:使用第3.4节提到的所有数据(OCR 70%, 通用视觉20%, 纯文本10%)。

  2. 训练平台:HAI-LLM平台。

  3. 并行策略

    • 模型划分 :采用流水线并行(PP, Pipeline Parallelism),将整个模型划分为4个部分(4个PP阶段)。

    • DeepEncoder分配:占据PP0和PP1。

      • PP0 :SAM和压缩器(视为视觉标记器),参数冻结

      • PP1 :CLIP部分(视为输入嵌入层),参数未冻结,参与训练

    • 解码器分配:DeepSeek3B-MoE有12层,平均分配到PP2和PP3(各6层)。

  4. 硬件与数据并行

    • 硬件:20个节点(每个节点8张A100-40G GPU),共160张GPU。

    • 数据并行(DP):度为40。

    • 全局批大小:640。

  5. 优化设置

    • 优化器:AdamW。

    • 学习率调度:基于步长的调度器(Step-based Scheduler),初始学习率3e-5。

  6. 训练速度

    • 纯文本数据:每天900亿token。

    • 多模态数据:每天700亿token。

    • (速度差异反映了图像编码的计算开销)

这种精细的并行策略(PP+DP)和参数冻结策略,体现了在大规模训练中对计算效率和内存管理的深入考量。这里有个表2可以看下:

表2呈现了视觉-文本压缩研究的核心定量结果

  1. 实验设计:在不同文本长度区间,测试两种视觉token数量(64和100)下的性能。

  2. 关键指标

    • 精度:OCR解码的准确率。

    • 压缩比:文本token数 / 视觉token数。

  3. 核心发现

    • 压缩比低于10倍 时(对于64视觉token,文本token约小于700;对于100视觉token,文本token约小于1100),模型能保持非常高的精度(>90%,甚至接近98%) 。这证明了近无损光学压缩的可行性

    • 随着压缩比升高(即用固定的少量视觉token表示更长的文本),精度开始下降,但即使在近20倍压缩 (64视觉token对应1200-1300文本token)下,精度仍接近60%。这揭示了压缩的边界,但也显示了该方向巨大的潜力。

    • 使用更多的视觉token(100 vs 64)在同一文本长度区间内能获得更高的精度和更低的压缩比,这符合直觉。

作者使用来自Fox [21]基准测试中所有包含600-1300个标记的英文文档来测试DeepSeek-OCR的视觉-文本压缩比。文本标记表示使用DeepSeek-OCR的分词器对真实文本进行分词后的标记数量。视觉标记=64或100分别表示将输入图像调整为512×512和640×640后,由DeepEncoder输出的视觉标记数量。

至此,训练部分讲完了,接下来第四章是推理评估部分。

4. Evaluation

4.1. Vision-text Compression Study

We select Fox [ 21 ] benchmarks to verify DeepSeek-OCR's compression-decompression capability for text-rich documents, in order to preliminarily explore the feasibility and boundaries of contexts optical compression. We use the English document portion of Fox, tokenize the ground truth text with DeepSeek-OCR's tokenizer (vocabulary size of approximately 129k), and select documents with 600-1300 tokens for testing, which happens to be 100 pages. Since the number of text tokens is not large, we only need to test performance in Tiny and Small modes, where Tiny mode corresponds to 64 tokens and Small mode corresponds to 100 tokens. We use the prompt without layout: "<image>\nFree OCR." to control the model's output format. Nevertheless, the output format still cannot completely match Fox benchmarks, so the actual performance would be somewhat higher than the test results.

选取Fox[21]基准测试集验证DeepSeek-OCR对文本密集文档的压缩-解压能力,以初步探索光学上下文压缩的可行性及边界。采用Fox英文文档部分,通过DeepSeek-OCR的分词器(词汇量约129k)对真实文本进行分词,筛选600-1300个token的文档作为测试集,恰好对应100页内容。由于文本token数量不大,仅需测试Tiny和Small两种模式:Tiny模式对应64个token,Small模式对应100个token。使用无版式提示词"<image>\nFree OCR."控制模型输出格式,但输出格式仍无法完全匹配Fox基准,因此实际性能会略高于测试结果。

首先介绍了视觉-文本压缩研究的实验设置

  1. 评估基准Fox基准(包含丰富文本的文档)。

  2. 评估目标:验证模型的压缩-解压缩能力,初步探索光学上下文压缩的可行性与边界。

  3. 数据准备

    • 使用Fox的英文文档部分。

    • 使用DeepSeek-OCR自身的tokenizer(词表大小约12.9万)对真值文本进行标记化。

    • 选择文本token数在600-1300之间的文档进行测试(恰好100页)。

  4. 测试模式 :由于文本token数不多,仅测试Tiny(64视觉token)Small(100视觉token) 模式。

  5. 提示词 :使用特定提示词控制输出格式("<image>\nFree OCR.")。

作者使用OmniDocBench [27] 来测试DeepSeek-OCR在真实文档解析任务上的性能。这里表3中的所有指标均为编辑距离,数值越小表示性能越好。"Tokens" 表示每页使用的视觉令牌平均数量,"†200dpi" 表示使用fitz将原始图像插值至200dpi。对于DeepSeek-OCR模型,"Tokens" 列中括号内的数值代表有效视觉令牌,根据公式1计算得出。

表3的说明

  • 评估基准:OmniDocBench,用于测试真实文档解析任务。

  • 评估指标编辑距离(Edit Distance),值越小性能越好。

  • Tokens列:表示每页使用的平均视觉token数。

    • 对于DeepSeek-OCR,括号内的值表示有效视觉token数(根据公式1计算)。
  • i200dpi :表示使用fitz将原始图像插值到200dpi。

下面是对表2的再次说明。
As shown in Table 2, within a 10 × compression ratio, the model's decoding precision can
reach approximately 97%, which is a very promising result. In the future, it may be possible to
achieve nearly 10 × lossless contexts compression through text-to-image approaches. When the
compression ratio exceeds 10 × , performance begins to decline, which may have two reasons:
one is that the layout of long documents becomes more complex, and another reason may be
that long texts become blurred at 512 × 512 or 640 × 640 resolution. The first issue can be solved
by rendering texts onto a single layout page, while we believe the second issue will become a feature of the forgetting mechanism. When compressing tokens by nearly 20× , we find that
precision can still approach 60%. These results indicate that optical contexts compression is
a very promising and worthwhile research direction, and this approach does not bring any
overhead because it can leverage VLM infrastructure, as multimodal systems inherently require
an additional vision encoder.

如表2所示(表2在上文),在10倍压缩比范围内,该模型的解码精度可达约97%,这一结果极具前景。未来或许能通过文生图方法实现接近10倍的无损上下文压缩。当压缩比超过10倍时,性能开始下降,这可能存在两方面原因:其一是长文档的版面结构趋于复杂,其二可能是长文本在512×512或640×640分辨率下产生模糊。第一个问题可通过将文本渲染至单页版面来解决,而我们认为第二个问题将演变为遗忘机制的特征。当令牌压缩接近20倍时,我们发现精度仍能维持在60%左右。这些结果表明光学上下文压缩是极具潜力且值得探索的研究方向,且该方法不会产生额外开销------因其可复用视觉语言模型的基础设施,毕竟多模态系统本身就需要额外的视觉编码器。

此段是对表2结果的进一步分析和展望:

  1. 核心结论 :在10倍压缩比 内,模型解码精度可达约97%,这是非常令人鼓舞的结果。

  2. 未来展望 :未来可能通过文本到图像的方法实现近10倍的无损上下文压缩

  3. 性能下降原因分析:当压缩比超过10倍时,性能开始下降,可能原因有二:

    • 布局复杂性:长文档的布局变得更复杂。

    • 分辨率限制:在512x512或640x640分辨率下,长文本变得模糊。

  4. 解决方案

    • 布局复杂性问题可以通过将文本渲染到单页布局上来解决。

    • 分辨率限制问题(如下文所述)将被视为遗忘机制的一个特征。

并总结了压缩研究的价值:

  1. 视为特征 :将分辨率限制导致的性能下降视为遗忘机制的一个特征

  2. 20倍压缩的价值:即使压缩近20倍,精度仍能接近60%,这表明光学上下文压缩是一个非常有前景且值得研究的方向。

  3. 架构优势 :这种方法不会带来额外开销,因为它可以利用现有的VLM基础设施------多模态系统本身就需要一个额外的视觉编码器。

4.2. OCR Practical Performance

DeepSeek-OCR is not only an experimental model; it has strong practical capabilities and can
construct data for LLM/VLM pretraining. To quantify OCR performance, we test DeepSeek
OCR on OmniDocBench [ 27 ], with results shown in Table 3. Requiring only 100 vision tokens
(640 × 640 resolution), DeepSeek-OCR surpasses GOT-OCR2.0 [ 38 ] which uses 256 tokens; with
400 tokens (285 valid tokens, 1280 × 1280 resolution), it achieves on-par performance with state
of-the-arts on this benchmark. Using fewer than 800 tokens (Gundam mode), DeepSeek-OCR
outperforms MinerU2.0 [ 34 ] which needs nearly 7,000 vision tokens. These results demonstrate
that our DeepSeek-OCR model is powerful in practical applications, and because the higher
tokens compression, it enjoys a higher research ceiling.

DeepSeek-OCR不仅是一个实验性模型;它具备强大的实际能力,能够为LLM/VLM预训练构建数据。为量化OCR性能,我们在OmniDocBench[27]上测试了DeepSeek-OCR,结果如表3所示。仅需100个视觉标记(640×640分辨率),DeepSeek-OCR便超越了使用256个标记的GOT-OCR2.0[38];当使用400个标记(285个有效标记,1280×1280分辨率)时,其在该基准测试中达到了与最先进技术相当的性能。使用少于800个标记(高达模式)时,DeepSeek-OCR的表现优于需要近7000个视觉标记的MinerU2.0[34]。这些结果表明,我们的DeepSeek-OCR模型在实际应用中表现强劲,并且由于更高的标记压缩率,其研究上限也更高。

通过表3的结果展示了DeepSeek-OCR强大的实际应用性能

  1. 模型定位:不仅是实验模型,更具有强大的实用能力,能为LLM/VLM预训练构建数据。

  2. 性能对比(基于表3):

    • 仅用100视觉token (Small模式)即超越使用256token的GOT-OCR2.0。

    • 用400token (Large模式,有效285token)即与当前最先进模型性能相当

    • 用少于800token (Gundam模式)即超越需要近7000token的MinerU2.0。

  3. 结论:DeepSeek-OCR在实际应用中非常强大,并且由于更高的token压缩率,拥有更高的研究上限。

As shown in Table 4, some categories of documents require very few tokens to achieve
satisfactory performance, such as slides which only need 64 vision tokens. For book and
report documents, DeepSeek-OCR can achieve good performance with only 100 vision tokens.
Combined with the analysis from Section 4.1, this may be because most text tokens in these
document categories are within 1,000, meaning the vision-token compression ratio does not
exceed 10 × . For newspapers, Gundam or even Gundam-master mode is required to achieve
acceptable edit distances, because the text tokens in newspapers are 4-5,000, far exceeding the
10 × compression of other modes. These experimental results further demonstrate the boundaries
of contexts optical compression, which may provide effective references for researches on the
vision token optimization in VLMs and context compression, forgetting mechanisms in LLMs.

如表4所示,某些文档类别仅需少量视觉标记即可达到理想效果,例如幻灯片仅需64个视觉标记。对于书籍和报告类文档,DeepSeek-OCR仅需100个视觉标记即可实现良好性能。结合第4.1节的分析,这可能是因为这些文档类别的文本标记大多在1000以内,意味着视觉标记压缩比不超过10倍。对于报纸类文档,需要使用高达模式甚至高达大师模式才能达到可接受的编辑距离,因为报纸的文本标记数量为4000-5000,远超其他模式10倍的压缩比。这些实验结果进一步揭示了上下文光学压缩的局限性,为研究视觉标记在大语言模型中的优化及语言模型中的上下文压缩与遗忘机制提供了有效参考。

我们先来看下表4:

表4展示了在OmniDocBench中对不同类别的文档进行距离编辑后结果显示,某些类型的文档仅需64或100个视觉标记即可实现良好性能,而其他类型则需要Gundam模式。64或100个视觉token分别对应Tiny和Small,可参见表3。

这里结合表4分析了不同文档类型对压缩的需求,进一步揭示了光学压缩的边界

  1. 低需求文档

    • 幻灯片:仅需64视觉token即可获得满意性能。

    • 书籍和报告:仅需100视觉token即可获得良好性能。

    • 原因:这些文档的文本token数大多在1000以内,即视觉token压缩比不超过10倍(与4.1节分析吻合)。

  2. 高需求文档

    • 报纸:需要Gundam甚至Gundam-master模式,因为文本token数高达4000-5000,远超其他模式的10倍压缩能力。
  3. 研究意义:这些实验结果进一步证明了光学上下文压缩的边界,可为VLM的视觉token优化、LLM的上下文压缩和遗忘机制研究提供有效参考。

从4.3开始,主要通过大量的图例说明deepseek-ocr的应用。这里不再逐段解析。仅概述性的进行说明。图太多就不贴了,自己看论文哈。

4.3. Qualitative Study

4.3.1. Deep parsing

DeepSeek-OCR possesses both layout and OCR 2.0 capabilities, enabling it to further parse
images within documents through secondary model calls, a feature we refer to as "deep parsing".
As shown in Figures 7,8,9,10, our model can perform deep parsing on charts, geometry, chemical
formulas, and even natural images, requiring only a unified prompt.

DeepSeek-OCR兼具布局识别与OCR 2.0功能,可通过二次调用模型实现文档内图像的深度解析,该功能我们称之为"深度解析"。如图7、8、9、10所示,我们的模型仅需统一提示即可对图表、几何图形、化学公式乃至自然图像进行深度解析。

  • 内容 :DeepSeek-OCR具备布局和OCR 2.0能力,可以通过二次模型调用进一步解析文档中的图像,称为"深度解析"。

  • 解析 :如图7、8、9、10所示,模型能对图表、几何图形、化学公式甚至自然图像进行深度解析,只需一个统一的提示词。这展示了模型超越传统文字OCR的强大结构化信息提取能力,在金融、科研等领域有很高实用价值。

4.3.2. Multilingual recognition

PDF data on the Internet contains not only Chinese and English, but also a large amount of
multilingual data, which is also crucial when training LLMs. For PDF documents, DeepSeek
OCR can handle nearly 100 languages. Like Chinese and English documents, multilingual data
also supports both layout and non-layout OCR formats. The visualization results are shown in
Figure 11, where we select Arabic and Sinhala languages to demonstrate results.

互联网上的PDF数据不仅包含中文和英文,还包含大量多语言数据,这对训练大语言模型(LLM)至关重要。DeepSeekOCR可处理近100种语言的PDF文档。与中文和英文文档类似,多语言数据同样支持布局和非布局两种OCR格式。可视化结果如图11所示,我们选取阿拉伯语和僧伽罗语进行演示。

  • 内容:PDF数据包含多种语言。DeepSeek-OCR能处理近100种语言,并支持通过不同提示词控制是否输出布局。

  • 解析:如图11所示,以阿拉伯语和僧伽罗语为例,展示了模型的多语言OCR能力。这是构建多语言LLM训练数据的关键。

4.3.3. General vision understanding

We also provide DeepSeek-OCR with a certain degree of general image understanding capabili
ties. The related visualization results are shown in Figure 12.

我们还为DeepSeek-OCR提供了一定程度的通用图像理解能力。相关可视化结果如图12所示。

  • 内容:DeepSeek-OCR保留了一定的通用图像理解能力。

  • 解析 :如图12所示,模型能进行图像描述、目标检测、定位(Grounding) 等任务。同时,由于包含了纯文本数据,语言能力也得以保留。但作者强调,由于没有进行SFT,模型不是聊天机器人,某些能力需要特定的完成提示(Completion Prompts)来激活。

5. Discussion

Our work represents an initial exploration into the boundaries of vision-text compression, inves
tigating how many vision tokens are required to decode 𝑁 text tokens. The preliminary results
are encouraging: DeepSeek-OCR achieves near-lossless OCR compression at approximately
10 × ratios, while 20 × compression still retains 60% accuracy. These findings suggest promising
directions for future applications, such as implementing optical processing for dialogue histories
beyond 𝑘 rounds in multi-turn conversations to achieve 10 × compression efficiency

本研究首次探索了视觉-文本压缩的边界,重点探究解码 𝑁 文本所需的视觉标记数量。初步结果令人鼓舞:DeepSeek-OCR在约10倍压缩率下实现了近乎无损的OCR压缩,即便压缩至20倍仍保持60%的准确率。这些发现为未来应用指明了方向,例如通过光学处理实现多轮对话中 𝑘 轮次之外的对话历史压缩,从而达到10倍的压缩效率。

遗忘机制是人类记忆最基本的特征之一。上下文光学压缩方法可以模拟这种机制:将前几轮的历史文本渲染到图像上进行初步压缩,然后逐步调整旧图像的尺寸以实现多级压缩,在此过程中,标记数量逐渐减少,文本变得越来越模糊,从而实现文本遗忘。
For older contexts, we could progressively downsizing the rendered images to further reduce
token consumption. This assumption draws inspiration from the natural parallel between
human memory decay over time and visual perception degradation over spatial distance---both
exhibit similar patterns of progressive information loss, as shown in Figure 13. By combining
these mechanisms, contexts optical compression method enables a form of memory decay that
mirrors biological forgetting curves, where recent information maintains high fidelity while
distant memories naturally fade through increased compression ratios.
While our initial exploration shows potential for scalable ultra-long context processing,
where recent contexts preserve high resolution and older contexts consume fewer resources,
we acknowledge this is early-stage work that requires further investigation. The approach
suggests a path toward theoretically unlimited context architectures that balance information
retention with computational constraints, though the practical implications and limitations of
such vision-text compression systems warrant deeper study in future research.

对于较早的上下文信息,我们可以通过逐步缩小渲染图像尺寸来进一步降低令牌消耗。这一假设的灵感源自人类记忆随时间衰减与视觉感知随空间距离退化之间的自然对应关系------两者都呈现出类似的信息渐进性丢失模式,如图13所示。通过结合这两种机制,上下文光学压缩方法实现了模拟生物遗忘曲线的记忆衰减形式:近期信息保持高保真度,而远期记忆则会随着压缩比的提升自然淡出。

虽然我们的初步探索表明超长上下文处理具有可扩展潜力(近期上下文保持高分辨率,而旧上下文消耗更少资源),但我们承认这仍处于早期研究阶段,需要进一步探索。该方法为理论上的无限上下文架构指明了方向,这些架构在信息保留与计算约束之间取得平衡,不过此类视觉-文本压缩系统的实际应用价值与局限性,仍需未来研究进行更深入的探讨。

  • 内容:这项工作是对视觉-文本压缩边界的初步探索。初步结果令人鼓舞:DeepSeek-OCR在约10倍压缩比下实现近无损OCR压缩,20倍压缩仍保持60%精度。这些发现为未来应用指明了方向,例如对多轮对话中超过k轮的历史记录进行光学处理,以实现10倍的压缩效率。

  • 核心洞见 :对于较旧的上下文,可以逐步缩小渲染图像来进一步减少token消耗。这一假设的灵感来源于人类记忆随时间衰减视觉感知随空间距离退化 之间的自然并行------两者都表现出渐进式信息丢失的相似模式(如图13所示)。通过结合这些机制,光学上下文压缩方法实现了一种模拟生物遗忘曲线的记忆衰减,其中近期信息保持高保真度,而遥远的记忆通过增加的压缩比自然消退。

  • 展望与局限:虽然初步探索显示了可扩展超长上下文处理的潜力,但作者承认这是早期工作,需要进一步研究。该方法为平衡信息保留与计算约束的理论上无限长的上下文架构指明了一条道路,尽管这种视觉-文本压缩系统的实际影响和局限性值得在未来研究中深入探讨。

6. Conclusion

In this technical report, we propose DeepSeek-OCR and preliminarily validate the feasibility of
contexts optical compression through this model, demonstrating that the model can effectively
decode text tokens exceeding 10 times the quantity from a small number of vision tokens. We
believe this finding will facilitate the development of VLMs and LLMs in the future. Addi
tionally, DeepSeek-OCR is a highly practical model capable of large-scale pretraining data
production, serving as an indispensable assistant for LLMs. Of course, OCR alone is insufficient
to fully validate true context optical compression and we will conduct digital-optical text in
terleaved pretraining, needle-in-a-haystack testing, and other evaluations in the future. From
another perspective, optical contexts compression still offers substantial room for research and
improvement, representing a promising new direction.

在本技术报告中,我们提出DeepSeek-OCR模型并初步验证了通过该模型实现上下文光学压缩的可行性,证明该模型能够有效解码数量超过10倍的视觉标记文本。我们相信这一发现将推动未来视觉语言模型(VLM)和语言模型(LLM)的发展。此外,DeepSeek-OCR是一个高度实用的模型,能够大规模生成预训练数据,成为LLM不可或缺的辅助工具。当然,仅凭OCR技术还不足以完全验证真正的上下文光学压缩效果,未来我们将开展数字-光学文本交替预训练、大海捞针测试等评估工作。从另一个角度来看,光学上下文压缩仍具有巨大的研究空间和改进潜力,代表着一个充满前景的新方向。

  • 总结:本技术报告提出了DeepSeek-OCR,并通过该模型初步验证了光学上下文压缩的可行性,证明模型能够从少量视觉token中有效解码出超过10倍数量的文本token。

  • 价值:相信这一发现将促进未来VLMs和LLMs的发展。此外,DeepSeek-OCR是一个高度实用的模型,能够进行大规模预训练数据生产,是LLMs不可或缺的助手。

  • 未来工作:当然,仅凭OCR不足以完全验证真正的上下文光学压缩,未来将进行数字-光学文本交错预训练、大海捞针测试等评估。

  • 最终观点:从另一个角度看,光学上下文压缩仍有巨大的研究和改进空间,代表了一个有前途的新方向。

相关推荐
人工智能AI技术1 小时前
【C#程序员入门AI】本地大模型落地:用Ollama+C#在本地运行Llama 3/Phi-3,无需云端
人工智能·c#
Agentcometoo2 小时前
智能体来了从 0 到 1:规则、流程与模型的工程化协作顺序
人工智能·从0到1·智能体来了·时代趋势
工程师老罗2 小时前
什么是目标检测?
人工智能·目标检测·计算机视觉
jarreyer2 小时前
【AI 编程工具】
人工智能·编程工具
阿杰学AI2 小时前
AI核心知识75——大语言模型之MAS (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·agent·多智能体协作·mas
小程故事多_802 小时前
深度搜索Agent架构全解析:从入门到进阶,解锁复杂问题求解密码
人工智能·架构·aigc
朴实赋能2 小时前
AI赋能文旅出海:智矩引擎(MatriPower)社媒矩阵破局与流量长效增长实操指南
人工智能·社媒矩阵·matripower·文旅出海·海外社媒引流·文旅ip出海·智矩引擎
许泽宇的技术分享2 小时前
第 1 章:认识 Claude Code
开发语言·人工智能·python
沃达德软件2 小时前
图像处理与复原技术
图像处理·人工智能·深度学习·神经网络·目标检测·计算机视觉·目标跟踪