《DeepSeek-OCR: Contexts Optical Compression》速览

第一部分：摘要与核心思想------为什么需要"光学压缩"？
- [1.1 问题的根源：LLM 的"上下文长度瓶颈"](#1.1 问题的根源：LLM 的“上下文长度瓶颈”)
- [1.2 颠覆性构想：从"文本"到"视觉"的上下文压缩](#1.2 颠覆性构想：从“文本”到“视觉”的上下文压缩)
第二部分：相关工作------现有方法的局限性
[第三部分：DeepSeek-OCR 方法论](#第三部分：DeepSeek-OCR 方法论)
- [3.1 核心组件：DeepEncoder 的精巧设计](#3.1 核心组件：DeepEncoder 的精巧设计)
- [3.2 灵活的多分辨率支持](#3.2 灵活的多分辨率支持)
- [3.3 高效的解码器：DeepSeek-3B-MoE](#3.3 高效的解码器：DeepSeek-3B-MoE)
- [3.4 全面的数据引擎与训练策略](#3.4 全面的数据引擎与训练策略)
第四部分：实验评估与结果分析
- [4.1 视觉-文本压缩有效性研究](#4.1 视觉-文本压缩有效性研究)
- [4.2 OCR 实践性能](#4.2 OCR 实践性能)
- [4.3 定性研究：强大的深度解析能力](#4.3 定性研究：强大的深度解析能力)
第五部分：讨论与未来展望
总结

论文探讨了一个极具前瞻性的问题：能否利用视觉模态作为一种高效的媒介，来压缩和处理大语言模型（LLM）中的长文本上下文？论文中不仅提出了理论构想，还通过构建一个名为 DeepSeek-OCR 的视觉语言模型（VLM），为这一"光学压缩"范式提供了坚实的初步验证。

第一部分：摘要与核心思想------为什么需要"光学压缩"？

1.1 问题的根源：LLM 的"上下文长度瓶颈"

当前的大语言模型，如 GPT 系列，其核心是 Transformer 架构。这种架构的一个显著特点是其自注意力（Self-Attention）机制，它允许模型在处理序列中的每个元素（token）时，都能考虑到序列中所有其他元素的信息。这赋予了 LLM 强大的上下文理解能力，但也带来了巨大的计算挑战：自注意力机制的计算复杂度和内存消耗与输入序列长度的平方（ O ( n 2 ) O(n^2) O(n2)）成正比。

这意味着，当上下文窗口从 4k 扩展到 128k 甚至更长时，所需的计算资源会呈爆炸式增长。这不仅使得训练和推理成本高昂，也限制了 LLM 在处理海量文档、长对话历史或整本书籍等任务上的应用。如何经济高效地处理超长上下文，已成为 LLM 发展的核心瓶颈之一。

1.2 颠覆性构想：从"文本"到"视觉"的上下文压缩

论文作者提出了一个新颖的视角：与其在文本域内苦苦寻求更高效的注意力算法，不如转换赛道，利用视觉模态来压缩文本信息。这个想法的直觉来源非常简单：一张包含数千文字的文档图片，在视觉上可以被编码为数量少得多的视觉令牌（vision tokens），而其所承载的信息量却与原始数字文本相当。

这个过程可以被理解为一种"光学压缩"：

压缩（Encoding）：将长文本渲染（render）成一张或多张图片。一个强大的视觉编码器（Vision Encoder）将这张高分辨率图片转换成一小组紧凑的视觉表征（vision tokens）。
解压（Decoding）：一个语言解码器（LLM Decoder）接收这些视觉令牌，并根据指令（prompt）恢复出原始的文本信息。这个过程本质上就是一个高质量的**光学字符识别（OCR）**任务。

通过这种方式，原本可能是数十万文本令牌的序列，被压缩成了几百或几千个视觉令牌，从而在输入到 LLM 的注意力机制之前，极大地降低了序列长度，有望从根本上解决 O ( n 2 ) O(n^2) O(n2) 的计算瓶颈。

第二部分：相关工作------现有方法的局限性

为了实现这一构想，一个关键组件是能够高效处理高分辨率图像并产出少量视觉令牌的视觉编码器。作者首先分析了当前主流 VLM 中视觉编码器的不足之处，这为他们自研 DeepEncoder 提供了充分的理由。

如论文图 2 所示，现有视觉编码器主要有三类：

双塔结构（以 Vary 为代表）：这类模型使用一个独立的、强大的感知编码器（如 SAM）来处理高分辨率图像，再将其与一个标准的视觉编码器（如 CLIP ViT）结合。其缺点是预处理流程复杂，需要两套独立的图像处理，部署困难，且难以实现端到端的流水线并行训练。
切片拼接（Tile-based，以 InternVL 2.0 为代表）：为了处理超高分辨率图像，该方法将大图切成许多小图块（tiles），分别送入编码器，最后再拼接特征。虽然能处理极大分辨率，但其原生编码器分辨率通常较低（如 512x512），导致图像被过度碎片化，产生海量的视觉令牌，反而加重了 LLM 的负担。
自适应分辨率（以 Qwen2-VL 为代表）：采用 NaViT 等技术，允许直接处理不同分辨率和宽高比的图像。但在处理大尺寸图像时，其激活值内存（activation memory）会急剧膨胀，容易导致 GPU 显存溢出，且其序列打包（sequence packing）策略需要非常长的训练序列，效率不高。

总而言之，现有开源编码器要么产生过多视觉令牌，要么计算或内存开销过大，要么部署复杂，都无法满足"高分辨率输入、低激活内存、少视觉令牌输出"这一核心需求。这促使作者必须设计一个全新的视觉编码器。

第三部分：DeepSeek-OCR 方法论

DeepSeek-OCR 是一个标准的 Encoder-Decoder 架构，其创新主要集中在编码器（DeepEncoder）的设计和整体的训练策略上

3.1 核心组件：DeepEncoder 的精巧设计

DeepEncoder 是实现"光学压缩"的关键，它的设计目标明确：在保持高分辨率输入的同时，最大限度地压缩视觉令牌数量并控制计算开销。其结构如论文图 3 所示，由三个关键部分串联而成：

感知模块（SAM-base） ：模型的第一部分采用了基于 Segment Anything Model (SAM) 的 ViTDet-B (80M 参数)。SAM 的一个关键特性是其主要依赖窗口注意力（Window Attention），计算复杂度与图像块数量成线性关系，而非平方关系。这使得它非常适合作为处理高分辨率图像的第一道防线。例如，对于一张 1024x1024 的图像，它会被切分成 4096 个 16x16 的图像块（patches）。SAM 能以较低的计算成本处理这 4096 个 patches，提取出丰富的局部视觉特征。
16倍卷积压缩器（16x Conv Compressor） ：这是 DeepEncoder 设计中的神来之笔。在 SAM 提取的特征进入下一个昂贵的全局注意力模块之前，作者插入了一个简单的双层卷积网络。这个模块对 SAM 输出的特征图进行 16 倍的下采样，将视觉令牌的数量从 4096 个骤降至 256 个。这一步是实现高效压缩的核心，它在计算瓶颈（全局注意力）发生之前就完成了令牌的"瘦身"。
知识模块（CLIP ViT-L）：模型的最后一部分采用了 CLIP 的 ViT-Large (300M 参数)，但移除了其初始的 patch embedding 层，因为它的输入不再是原始图像，而是来自卷积压缩器的特征令牌。CLIP 模型以其强大的**全局注意力（Global Attention）**著称，能够捕捉图像的整体语义信息。由于此时输入的令牌数量已经被大幅压缩到 256 个，因此即使是计算成本高昂的全局注意力，其开销也变得完全可控。

通过**"高效的局部注意力（SAM）-> 激进的令牌压缩（Conv）-> 强大的全局注意力（CLIP）"** 这一串联设计，DeepEncoder 巧妙地平衡了性能与效率，实现了在高分辨率输入下产出少量高质量视觉令牌的目标。

3.2 灵活的多分辨率支持

为了验证不同压缩率下的模型性能，并增强模型的实用性，DeepEncoder 支持多种分辨率模式，主要分为两类：

原生分辨率（Native Resolution）：包括 Tiny (512x512, 64 tokens), Small (640x640, 100 tokens), Base (1024x1024, 256 tokens), Large (1280x1280, 400 tokens) 四种模式。对于小分辨率模式，图像被直接缩放；对于大分辨率模式，图像则通过填充（padding）来保持原始宽高比，以避免信息损失。
动态分辨率（Dynamic Resolution） ：以 Gundam 模式 为代表，它借鉴了切片拼接的思想，但进行了优化。它将超高分辨率图像（如报纸）切分成 n 个 640x640 的局部视图，并保留一个 1024x1024 的全局视图。由于其基础分辨率（640x640）远大于传统切片模型，避免了过度碎片化。Gundam 模式最终产生的令牌数为 n * 100 + 256，可以在可控范围内处理任意大的图像。

这种设计使得单个模型就能应对从普通文档到大幅面报纸等各种场景，极具灵活性。

3.3 高效的解码器：DeepSeek-3B-MoE

解码器采用了 DeepSeek-3B-MoE 模型。MoE（Mixture-of-Experts）架构的特点是包含多个"专家"网络，但在每次前向传播时，只激活其中的一小部分。这使得模型能够以较低的推理成本（论文中激活约 570M 参数）获得一个更大模型（3B 参数）的性能。选择 MoE 解码器，进一步贯彻了模型整体的高效性原则。解码器的任务就是将 DeepEncoder 输出的压缩视觉令牌"解压"为人类可读的文本。

3.4 全面的数据引擎与训练策略

一个强大的模型离不开海量、高质量的训练数据。作者构建了一个庞大而多样的数据引擎，包含：

OCR 1.0 数据 ：涵盖约 100 种语言的 3000 万页 PDF 文档，分为粗粒度标注 （直接从 PDF 提取文本，用于学习基本文本识别）和精细标注（使用先进的版面分析和 OCR 模型进行标注，学习文本块、坐标和内容的对应关系）。
OCR 2.0 数据 ：专注于更复杂的结构化信息解析，包括图表（解析为 HTML 表格）、化学分子式 （解析为 SMILES 字符串）和平面几何图形。
通用视觉数据：为了保留模型基本的图像理解能力（如图像描述、物体检测等），加入了 20% 的通用视觉任务数据。
纯文本数据：加入了 10% 的纯文本数据，以保证解码器的语言流畅性和知识水平。

训练过程分为两步：

第一阶段：独立训练 DeepEncoder。使用一个小型语言模型作为解码器，通过下一词预测任务，对 DeepEncoder 进行预训练，使其具备强大的视觉特征提取和压缩能力。
第二阶段：联合训练 DeepSeek-OCR。将训练好的 DeepEncoder 与 DeepSeek-3B-MoE 解码器结合。训练时，冻结 DeepEncoder 中计算开销大的 SAM 部分，只微调 CLIP 部分和整个解码器。整个模型采用 4 路流水线并行（Pipeline Parallelism）进行训练，在 20 个节点（每个节点 8 张 A100-40G GPU）上高效进行。

第四部分：实验评估与结果分析

实验部分旨在回答两个核心问题：1）光学压缩的有效性和边界在哪里？2）DeepSeek-OCR 在实际 OCR 任务中性能如何？

4.1 视觉-文本压缩有效性研究

作者在 Fox 基准测试集上进行了压缩率测试，结果如论文图 1(a) 和表 2 所示。关键发现如下：

近乎无损的 10 倍压缩 ：当文本令牌数是视觉令牌数的 10 倍以内时（即压缩率 < 10x），DeepSeek-OCR 的解码精度高达 97% 左右。这意味着在 10 倍压缩的范围内，光学压缩几乎是无损的。这是一个非常惊人的结果，为该技术路线的实用性提供了强有力的证据。
依然可用的 20 倍压缩 ：即使在压缩率接近 20 倍时，模型的解码精度仍能保持在 60% 左右。虽然精度有所下降，但这表明光学压缩的潜力巨大，即便在极高的压缩率下，仍能恢复大部分信息。

这些结果初步界定了光学压缩的可行边界，并证明了其作为一种新的长上下文处理方案的巨大潜力。

4.2 OCR 实践性能

为了检验模型的实用价值，作者在业界公认的综合性文档解析基准 OmniDocBench 上进行了测试，并与当前最先进的（SOTA）模型进行了对比（见论文图 1(b) 和表 3）。

以少胜多，效率惊人 ：
- 仅使用 100 个视觉令牌（Small 模式），DeepSeek-OCR 的性能就超过了使用 256 个令牌的 GOT-OCR2.0。
- 使用不到 800 个视觉令牌 （Gundam 模式），其性能就全面超越了需要近 7000 个视觉令牌的 SOTA 模型 MinerU2.0。
达到 SOTA 水平：在 Gundam-M 模式下（约 1853 个令牌），DeepSeek-OCR 在 OmniDocBench 上的综合性能（以编辑距离衡量，越低越好）达到了与 Gemini 2.5 Pro、dots.ocr 等顶级模型相媲美的水平，但其使用的视觉令牌数量远少于像 InternVL3-78B (6790 tokens) 这样的模型。

这些结果雄辩地证明，DeepSeek-OCR 不仅是一个理论模型，更是一个在实际应用中兼具顶尖性能 和极致效率的强大工具。论文还指出，该模型在生产环境中，单个 A100-40G GPU 每天就能处理超过 20 万页文档，展现了其作为大规模数据生产工具的巨大价值。

4.3 定性研究：强大的深度解析能力

除了常规的 OCR，DeepSeek-OCR 还具备"深度解析"能力，即对文档中的非文本元素进行结构化理解。如论文图 7-10 所示：

图表解析：能将金融报告中的柱状图精准地转换为结构化的数据表格。
图文理解：能解析文章中的图片，并为其生成详细的描述。
化学公式识别：能将复杂的化学分子结构图转换为 SMILES 字符串格式。
几何图形解析：能理解并复制简单的平面几何图形。

这些能力表明，DeepSeek-OCR 不仅仅是"读字"，更是在"理解"文档的深层结构和内容。

第五部分：讨论与未来展望

在论文的最后，作者对"光学压缩"这一范式进行了更深层次的思考。

模拟人类的遗忘机制：作者提出了一个引人入胜的类比（见论文图 13）。人类记忆会随着时间的推移而逐渐模糊，远期的记忆细节丢失，但核心信息保留。光学压缩可以模拟这一过程：对于多轮对话，可以将近期的对话历史渲染成高分辨率图片（保留高保真度），而将远期的历史渲染成 progressively a lower-resolution and smaller images（逐步降低分辨率和尺寸），从而用更少的视觉令牌来存储。这为构建具有"记忆衰退"能力的、理论上无限上下文的 LLM 提供了新的思路。
未来工作：作者坦诚目前的工作只是一个初步探索。未来的研究将集中在更严苛的"大海捞针"（needle-in-a-haystack）测试上，以验证模型在超长光学压缩文本中检索细微信息的能力，并探索将数字文本和光学压缩文本交错预训练，以实现真正的长上下文理解。

总结

DeepSeek-OCR: Contexts Optical Compression是一篇极具启发性和开创性的论文。它直面大语言模型最核心的上下文长度瓶颈，提出了一种全新的、基于视觉模态的"光学压缩"解决方案。通过DeepSeek-OCR 模型：

验证了可行性：首次定量证明了高达 10 倍的近无损视觉-文本压缩是可行的。
实现了 SOTA 性能：构建的 DeepSeek-OCR 模型在主流基准上以远少于竞争对手的视觉令牌数量，达到了顶尖的 OCR 性能，兼具效率与效果。
开辟了新方向：提出的光学压缩范式及其对人类记忆的模拟，为未来构建超长上下文、低成本的 LLM 和 VLM 开辟了一条全新的、充满想象力的技术路径。

论文地址：DeepSeek-OCR: Contexts Optical Compression (Wei et al., 2025)