DeepSeek-OCR: Contexts Optical Compression——光学压缩上下文

这篇文章的核心内容是关于 DeepSeek-OCR,这是一个用于高效压缩和解码长文本内容的视觉语言模型(VLM)。以下是文章的主要研究内容和贡献的总结:

1. 研究背景与动机

  • 问题:大型语言模型(LLMs)在处理长文本内容时面临显著的计算挑战,因为其计算量会随着序列长度的增加而呈二次方增长。

  • 解决方案:利用视觉模态作为文本信息的高效压缩介质。通过光学压缩,可以将文本信息以图像的形式表示,从而显著减少所需的令牌数量。

2. DeepSeek-OCR 架构

  • DeepEncoder:核心组件,负责将高分辨率图像压缩成少量的视觉令牌。它通过窗口注意力和全局注意力的结合,实现了高效的内存和令牌压缩。

  • DeepSeek3B-MoE 解码器:负责将压缩后的视觉令牌解码为文本内容,使用了混合专家(MoE)架构,能够在推理时激活部分专家,提高效率。

3. 实验与性能

  • 压缩比:在 10× 压缩比下,模型可以实现 97% 的 OCR 解码精度;即使在 20× 压缩比下,精度仍可达 60%。

  • 性能对比:在 OmniDocBench 基准测试中,DeepSeek-OCR 使用 100 个视觉令牌就超越了使用 256 个令牌的 GOT-OCR2.0,并且在使用少于 800 个视觉令牌的情况下,超越了需要近 7000 个视觉令牌的 MinerU2.0。

4. 多分辨率支持

  • 多种模式:DeepEncoder 支持多种分辨率模式,包括 Tiny、Small、Base、Large 和 Gundam 模式,以适应不同的输入分辨率和应用场景。

  • 动态分辨率:通过动态插值位置编码,模型能够处理不同分辨率的输入,进一步提高了其实用性。

5. 数据引擎

  • 多样化数据:训练数据包括 OCR 1.0 数据(传统 OCR 任务)、OCR 2.0 数据(复杂图像解析任务)、通用视觉数据和纯文本数据。

  • 多语言支持:模型支持近 100 种语言,能够处理多语言文档。

6. 定性研究

  • 深度解析:模型能够对图表、几何图形、化学公式和自然图像进行深度解析,提供结构化的输出。

  • 多语言识别:支持多种语言的 OCR,能够处理多语言文档。

  • 通用视觉理解:模型具备一定的通用图像理解能力,包括图像描述、目标检测和定位等。

7. 讨论与展望

  • 遗忘机制:通过逐步缩小渲染图像的尺寸,模拟人类记忆的遗忘机制,实现文本信息的多级压缩。

  • 未来方向:进一步探索视觉-文本压缩的潜力,研究其在长上下文处理和遗忘机制中的应用。

8. 结论

  • 主要贡献:DeepSeek-OCR 证明了光学压缩在处理长文本内容时的可行性,展示了显著的令牌压缩能力,并在实际应用中表现出色。

  • 未来工作:将继续探索数字-光学文本交错预训练、针在草垛中测试等评估方法,进一步优化模型性能。

这篇文章不仅提出了一个创新的视觉-文本压缩模型,还展示了其在实际应用中的巨大潜力,为未来的研究和应用提供了新的方向。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

项目地址在这里,如下所示:

摘要

我们提出了 DeepSeek-OCR,作为通过光学二维映射压缩长上下文可行性的初步研究。DeepSeek-OCR 包含两个组件:DeepEncoder 和 DeepSeek3B-MoE-A570M 作为解码器。具体来说,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持低激活度,同时实现高压缩比,以确保视觉令牌数量的最优和可管理性。实验表明,当文本令牌数量是视觉令牌数量的 10 倍以内(即压缩比 < 10×)时,模型可以实现 97% 的解码(OCR)精度。即使在 20× 的压缩比下,OCR 准确率仍然保持在约 60%。这在历史长上下文压缩和 LLMs 中的记忆遗忘机制等研究领域显示出相当大的潜力。此外,DeepSeek-OCR 还具有很高的实用价值。在 OmniDocBench 上,它仅使用 100 个视觉令牌就超越了 GOT-OCR2.0(每页 256 个令牌),并且在使用少于 800 个视觉令牌的情况下,超越了 MinerU2.0(平均每页 6000+ 个令牌)。在生产中,DeepSeek-OCR 每天可以为 LLMs/VLMs 生成超过 20 万页的训练数据(单个 A100-40G)。

1. 引言

当前的大型语言模型(LLMs)在处理长文本内容时面临显著的计算挑战,因为其计算量会随着序列长度的增加而呈二次方增长。我们探索了一种潜在的解决方案:利用视觉模态作为文本信息的高效压缩介质。一张包含文档文本的图像可以用比等效数字文本少得多的令牌来表示丰富信息,这表明通过视觉令牌进行光学压缩可以实现更高的压缩比。

这一洞见促使我们从 LLMs 的角度重新审视视觉语言模型(VLMs),关注视觉编码器如何增强 LLMs 在处理文本信息时的效率,而不是基本的视觉问答(VQA)。OCR 任务作为一种连接视觉和语言的中间模态,为这种视觉-文本压缩范式提供了一个理想的测试平台,因为它在视觉和文本表示之间建立了一个自然的压缩-解压缩映射,并且提供了定量评估指标。

因此,我们提出了 DeepSeek-OCR,这是一个旨在作为高效视觉-文本压缩概念验证的 VLM。我们的工作主要有三个贡献:

  1. 我们提供了视觉-文本令牌压缩比的全面定量分析。我们的方法在 9-10× 的文本压缩下实现了 96%+ 的 OCR 解码精度,在 10-12× 压缩下约为 90%,在 20× 压缩下约为 60%(在考虑输出和真实值之间的格式差异时,实际准确率甚至更高),如图 1(a) 所示。这些结果表明,紧凑的语言模型可以有效地学习解码压缩后的视觉表示,表明更大的 LLMs 可以通过适当的预训练设计轻松获得类似的能力。

  2. 我们引入了 DeepEncoder,这是一种新颖的架构,即使在高分辨率输入下,也能保持低激活内存和最少的视觉令牌。它通过一个 16× 卷积压缩器,将窗口注意力和全局注意力编码器组件串联起来。这种设计确保了窗口注意力组件处理大量的视觉令牌,而压缩器在视觉令牌进入密集的全局注意力组件之前减少了视觉令牌,实现了有效的内存和令牌压缩。

  3. 我们基于 DeepEncoder 和 DeepSeek3B-MoE 开发了 DeepSeek-OCR。如图 1(b) 所示,它在 OmniDocBench 上实现了端到端模型中的最新性能,同时使用最少的视觉令牌。此外,我们为模型配备了解析图表、化学公式、简单几何图形和自然图像的能力,以进一步增强其实用性。在生产中,DeepSeek-OCR 可以使用 20 个节点(每个节点有 8 个 A100-40G GPU)每天为 LLMs 或 VLMs 生成 3300 万页的数据。

总之,这项工作提出了使用视觉模态作为 LLMs 中文本信息处理的高效压缩介质的初步探索。通过 DeepSeek-OCR,我们证明了视觉-文本压缩可以为不同的历史上下文阶段实现显著的令牌减少(7-20×),为解决大型语言模型中的长上下文挑战提供了一个有希望的方向。我们的定量分析为 VLM 令牌分配优化提供了实证指导,而提出的 DeepEncoder 架构展示了实际可行性,并具有现实部署能力。虽然以 OCR 作为概念验证,但这种范式为重新思考视觉和语言模态如何协同结合以提高大规模文本处理和代理系统中的计算效率开辟了新的可能性。

2. 相关工作

2.1 VLMs 中的典型视觉编码器

当前开源的 VLMs 使用了三种主要类型的视觉编码器,如图 2 所示。第一种是双塔架构,以 Vary 为代表,它使用并行的 SAM 编码器来增加高分辨率图像处理的视觉词汇参数。虽然这种方法提供了可控的参数和激活内存,但它存在显著的缺点:它需要双重图像预处理,这使得部署变得复杂,并且在训练期间难以实现编码器的流水线并行。第二种是基于瓦片的方法,以 InternVL2.0 为例,它通过将图像分割成小瓦片进行并行计算来减少高分辨率设置下的激活内存。尽管这种方法能够处理极高的分辨率,但由于其通常较低的本地编码器分辨率(低于 512×512),导致大图像被过度分割,从而产生大量的视觉令牌。第三种是自适应分辨率编码,以 Qwen2-VL 为代表,它采用 NaViT 范式,通过基于瓦片的分割直接处理完整图像,而无需瓦片并行化。虽然这种编码器能够灵活处理多种分辨率,但在处理大图像时面临巨大的挑战,因为大量的激活内存消耗可能导致 GPU 内存溢出,训练期间的序列打包需要极长的序列长度。大量的视觉令牌会减慢推理的预填充和生成阶段。

2.2 端到端 OCR 模型

OCR,特别是文档解析任务,在图像到文本领域一直是一个非常活跃的话题。随着 VLMs 的发展,大量的端到端 OCR 模型应运而生,从根本上改变了传统的流水线架构(需要单独的检测和识别专家模型),简化了 OCR 系统。Nougat 首次在 arXiv 上对学术论文 OCR 采用端到端框架,展示了模型在处理密集感知任务方面的潜力。GOT-OCR2.0 扩展了 OCR2.0 的范围,包括更多的合成图像解析任务,并设计了一个在性能和效率之间进行权衡的 OCR 模型,进一步突出了端到端 OCR 研究的潜力。此外,通用视觉模型,如 Qwen-VL 系列、InternVL 系列及其许多衍生产品,不断增强了其文档 OCR 能力,以探索密集视觉感知的边界。然而,当前模型尚未解决的一个关键研究问题是:对于包含 1000 个单词的文档,解码至少需要多少视觉令牌?这个问题对于研究"一图胜千言"的原理具有重要意义。

3. 方法论

3.1 架构

如图 3 所示,DeepSeek-OCR 采用了统一的端到端 VLM 架构,包括一个编码器和一个解码器。编码器(即 DeepEncoder)负责提取图像特征并进行令牌化以及压缩视觉表示。解码器用于根据图像令牌和提示生成所需的结果。DeepEncoder 的参数量约为 3.8 亿,主要由一个 8000 万的 SAM-base 和一个 3 亿的 CLIP-large 串联而成。解码器采用了 3B MoE 架构,激活参数量为 5.7 亿。在接下来的段落中,我们将深入探讨模型组件、数据工程和训练技巧。

3.2 DeepEncoder

为了探索上下文光学压缩的可行性,我们需要一个视觉编码器,具备以下特点:1. 能够处理高分辨率;2. 在高分辨率下激活度低;3. 视觉令牌数量少;4. 支持多种分辨率输入;5. 参数量适中。然而,如第 2.1 节所述,当前开源的编码器无法完全满足所有这些条件。因此,我们设计了一种新颖的视觉编码器,名为 DeepEncoder。

3.2.1 DeepEncoder架构

DeepEncoder 主要由两个组件构成:一个以窗口注意力为主的视觉感知特征提取组件,以及一个具有密集全局注意力的视觉知识特征提取组件。为了从以往的工作中受益,我们分别使用 SAM-base(patch-size 16)和 CLIP-large 作为这两个组件的主要架构。对于 CLIP,我们移除了其第一个 patch 嵌入层,因为其输入不再是图像,而是前一阶段的输出令牌。在两个组件之间,我们借鉴了 Vary 的方法,使用一个两层的卷积模块对视觉令牌进行 16× 下采样。每个卷积层的卷积核大小为 3,步长为 2,填充为 1,通道数从 256 增加到 1024。假设我们输入一个 1024×1024 的图像,DeepEncoder 将其分割成 1024/16×1024/16=4096 个 patch 令牌。由于编码器的前半部分以窗口注意力为主且仅有 80M,激活度是可以接受的。在进入全局注意力之前,4096 个令牌经过压缩模块,令牌数量变为 4096/16=256,从而使整体激活内存得以控制。

3.2.2 多分辨率支持

假设我们有一张包含 1000 个光学字符的图像,我们想测试解码需要多少视觉令牌。这要求模型支持可变数量的视觉令牌,也就是说 DeepEncoder 需要支持多种分辨率。

我们通过动态插值位置编码来满足上述要求,并设计了几种分辨率模式,以便同时对模型进行训练,实现单个 DeepSeek-OCR 模型支持多种分辨率的能力。如图 4 所示,DeepEncoder 主要支持两种主要的输入模式:本地分辨率和动态分辨率。每种模式都包含多个子模式。

本地分辨率支持四种子模式:Tiny、Small、Base 和 Large,对应的分辨率和令牌数量分别为 512×512(64)、640×640(100)、1024×1024(256)和 1280×1280(400)。由于 Tiny 和 Small 模式的分辨率相对较小,为了避免浪费视觉令牌,图像通过直接调整原始尺寸进行处理。对于 Base 和 Large 模式,为了保留原始图像的宽高比,图像被填充到相应的尺寸。填充后,有效的视觉令牌数量少于实际的视觉令牌数量,计算公式为:

动态分辨率可以由两个本地分辨率组成。例如,Gundam 模式由 n×640×640 瓦片(局部视图)和一个 1024×1024 的全局视图组成。瓦片方法遵循 InternVL2.0。支持动态分辨率主要是出于应用考虑,特别是对于超高分辨率输入(如报纸图像)。瓦片是一种二次窗口注意力的形式,可以有效进一步减少激活内存。值得注意的是,由于我们的本地分辨率相对较大,在动态分辨率下图像不会被过度分割(瓦片数量控制在 2 到 9 的范围内)。在 Gundam 模式下,DeepEncoder 输出的视觉令牌数量为:n×100+256,其中 n 是瓦片的数量。对于宽度和高度都小于 640 的图像,n 被设置为 0,即 Gundam 模式将退化为 Base 模式。

Gundam 模式与四种本地分辨率模式一起训练,以实现一个模型支持多种分辨率的目标。注意,Gundam-master 模式(1024×1024 局部视图 + 1280×1280 全局视图)是通过对已训练的 DeepSeek-OCR 模型继续训练获得的。这主要是为了负载平衡,因为 Gundam-master 的分辨率太大,一起训练会减慢整体训练速度。

3.3 MoE 解码器

我们的解码器使用 DeepSeekMoE,具体是 DeepSeek-3B-MoE。在推理过程中,模型激活 64 个路由专家中的 6 个和 2 个共享专家,大约有 5.7 亿激活参数。3B 的 DeepSeekMoE 非常适合领域中心(对我们来说是 OCR)的 VLM 研究,因为它获得了 3B 模型的表达能力,同时享受了 500M 小模型的推理效率。

解码器从 DeepEncoder 压缩的潜在视觉令牌中重建原始文本表示:

3.4 数据引擎

我们为 DeepSeek-OCR 构建了复杂多样的训练数据,包括 OCR 1.0 数据,主要由传统的 OCR 任务组成,如场景图像 OCR 和文档 OCR;OCR 2.0 数据,主要涉及复杂人工图像的解析任务,如常见图表、化学公式和平面几何解析数据;通用视觉数据,主要用于向 DeepSeek-OCR 注入一定的通用图像理解能力,并保留通用视觉接口。

3.4.1 OCR 1.0 数据

文档数据是 DeepSeek-OCR 的首要关注点。我们从互联网上收集了 3000 万页涵盖约 100 种语言的多样化 PDF 数据,其中中文和英文分别占约 2500 万和其他语言占 500 万。对于这些数据,我们创建了两种类型的标注:粗标注和细标注。粗标注直接使用 fitz 从完整数据集中提取,旨在教导模型识别光学文本,尤其是在少数民族语言中。细标注包括 200 万页的中文和英文数据,使用先进的布局模型(如 PP-DocLayout)和 OCR 模型(如 MinuerU 和 GOT-OCR2.0)进行标注,以构建检测和识别交错数据。对于少数民族语言,在检测部分,我们发现布局模型具有一定的泛化能力。在识别部分,我们使用 fitz 创建小块数据来训练 GOT-OCR2.0,然后使用训练后的模型对布局处理后的小块进行标注,采用模型飞轮创建 60 万数据样本。在 DeepSeekOCR 的训练过程中,粗标注和细标注通过不同的提示进行区分。细标注图像-文本对的真实标注如图 5 所示。我们还收集了 300 万 Word 数据,通过直接提取内容构建没有布局的高质量图像-文本对。这些数据主要对公式和 HTML 格式的表格有益。此外,我们还选择了一些开源数据 [28, 37] 作为补充。

对于自然场景 OCR,我们的模型主要支持中文和英文。图像数据来源包括 LAION [31] 和 Wukong [13],使用 PaddleOCR [9] 进行标注,中文和英文各有 1000 万数据样本。与文档 OCR 类似,自然场景 OCR 也可以通过提示控制是否输出检测框。

3.4.2 OCR 2.0 数据

遵循 GOT-OCR2.0 [38],我们将图表、化学公式和平面几何解析数据称为 OCR 2.0 数据。对于图表数据,按照 OneChart [7] 的方法,我们使用 pyecharts 和 matplotlib 渲染 1000 万张图像,主要包括常用的折线图、柱状图、饼图和复合图。我们将图表解析定义为图像到 HTML 表格的转换任务,如图 6(a) 所示。对于化学公式,我们利用 PubChem 的 SMILES 格式作为数据源,并使用 RDKit 将其渲染成图像,构建了 500 万图像-文本对。对于平面几何图像,我们按照 Slow Perception [39] 的方法进行生成。具体来说,我们使用感知标尺大小为 4 来模拟每条线段。为了增加渲染数据的多样性,我们引入了几何平移不变的数据增强,其中相同的几何图像在原始图像中平移,对应于在坐标系中心位置绘制的相同真实标注。基于此,我们构建了总共 100 万平面几何解析数据,如图 6(b) 所示。

3.4.3 通用视觉数据

DeepEncoder 可以从 CLIP 的预训练中受益,并且有足够的参数来整合通用视觉知识。因此,我们还为 DeepSeek-OCR 准备了一些相应的数据。按照 DeepSeek-VL2 [40] 的方法,我们为诸如描述、检测和定位等任务生成相关数据。注意,DeepSeek-OCR 不是一个通用的 VLM 模型,这部分数据仅占总数据的 20%。我们引入这种类型的数据主要是为了保留通用视觉接口,以便对我们的模型和通用视觉任务感兴趣的研究人员可以在未来方便地推进他们的工作。

3.4.4 纯文本数据

为确保模型的语言能力,我们引入了 10% 的内部纯文本预训练数据,所有数据均处理为 8192 个令牌的长度,这也是 DeepSeek-OCR 的序列长度。总之,在训练 DeepSeek-OCR 时,OCR 数据占 70%,通用视觉数据占 20%,纯文本数据占 10%。

3.5 训练流程

我们的训练流程非常简单,主要包括两个阶段:a) 独立训练 DeepEncoder;b) 训练 DeepSeek-OCR。注意,Gundam-master 模式是通过在预训练的 DeepSeek-OCR 模型上继续训练获得的,使用了 600 万采样数据。由于训练协议与其他模式相同,我们在此省略了详细描述。

3.5.1 训练 DeepEncoder

按照 Vary [36] 的方法,我们使用紧凑型语言模型 [15],并采用下一个令牌预测框架来训练 DeepEncoder。在此阶段,我们使用上述所有 OCR 1.0 和 2.0 数据,以及从 LAION [31] 数据集中采样的 1 亿条通用数据。所有数据均训练 2 个周期,批量大小为 1280,使用 AdamW [23] 优化器,采用余弦退火调度器 [22],学习率为 5e-5。训练序列长度为 4096。

3.5.2 训练 DeepSeek-OCR

在 DeepEncoder 准备就绪后,我们使用第 3.4 节中提到的数据来训练 DeepSeek-OCR,整个训练过程在 HAI-LLM [14] 平台上进行。整个模型采用流水线并行(PP),分为 4 部分,DeepEncoder 占据两部分,解码器占据两部分。对于 DeepEncoder,我们将 SAM 和压缩器视为视觉标记器,将它们放置在 PP0 中并冻结其参数,而将 CLIP 部分视为输入嵌入层,放置在 PP1 中并解冻权重进行训练。对于语言模型部分,由于 DeepSeek3B-MoE 有 12 层,我们分别在 PP2 和 PP3 上放置 6 层。我们使用 20 个节点(每个节点配备 8 块 A100-40G GPU)进行训练,数据并行(DP)为 40,全局批量大小为 640。我们使用 AdamW 优化器,采用基于步骤的调度器,初始学习率为 3e-5。对于纯文本数据,训练速度为每天 900 亿个令牌,而对于多模态数据,训练速度为每天 700 亿个令牌。

4. 评估

4.1 视觉-文本压缩研究

我们选择 Fox [21] 基准测试来验证 DeepSeek-OCR 对于文本丰富文档的压缩-解压缩能力,以初步探索上下文光学压缩的可行性和边界。我们使用 DeepSeek-OCR 的分词器(词汇量约为 129k)对 Fox 的英文文档部分进行分词,并选取包含 600-1300 个令牌的文档进行测试,恰好是 100 页。由于文本令牌数量不大,我们只需要测试 Tiny 和 Small 模式下的性能,其中 Tiny 模式对应 64 个令牌,Small 模式对应 100 个令牌。我们使用提示"<image>

如表 2 所示,在 10× 压缩比内,模型的解码精度可以达到约 97%,这是一个非常有希望的结果。在未来,可能可以通过文本到图像的方法实现近 10× 的无损上下文压缩。当压缩比超过 10× 时,性能开始下降,这可能有两个原因:一是长文档的布局变得更加复杂,另一个原因可能是长文本在 512×512 或 640×640 分辨率下变得模糊。第一个问题可以通过将文本渲染到单个布局页面上解决,而我们相信第二个问题将成为遗忘机制的一个特征。当压缩令牌接近 20× 时,我们发现精度仍然可以接近 60%。这些结果表明,光学上下文压缩是一个非常有希望和值得研究的方向,并且这种方法不会带来任何额外负担,因为它可以利用 VLM 基础设施,因为多模态系统本身就需要额外的视觉编码器。

4.2 OCR 实用性能

DeepSeek-OCR 不仅是一个实验模型;它具有很强的实用性,可以为 LLM/VLM 预训练构建数据。为了量化 OCR 性能,我们在 OmniDocBench [27] 上测试了 DeepSeekOCR,结果如表 3 所示。仅需 100 个视觉令牌(640×640 分辨率),DeepSeek-OCR 就超越了使用 256 个令牌的 GOT-OCR2.0 [38];使用 400 个令牌(285 个有效令牌,1280×1280 分辨率),它在该基准测试中实现了与最新技术相当的性能。使用不到 800 个令牌(Gundam 模式),DeepSeek-OCR 超越了需要近 7000 个视觉令牌的 MinerU2.0 [34]。这些结果表明,我们的 DeepSeek-OCR 模型在实际应用中非常强大,并且由于更高的令牌压缩,它具有更高的研究上限。

如表 4 所示,某些类别的文档只需要很少的令牌就能实现令人满意的性能,例如幻灯片只需要 64 个视觉令牌。对于书籍和报告文档,DeepSeek-OCR 只需 100 个视觉令牌就能实现良好的性能。结合第 4.1 节的分析,这可能是因为这些文档类别的大多数文本令牌都在 1000 以内,意味着视觉令牌压缩比不超过 10×。对于报纸,需要 Gundam 甚至 Gundam-master 模式才能实现可接受的编辑距离,因为报纸中的文本令牌有 4-5000 个,远超其他模式的 10× 压缩。这些实验结果进一步证明了上下文光学压缩的边界,可能为 VLM 中视觉令牌优化和 LLM 中上下文压缩、遗忘机制的研究提供有效的参考。

4.3 定性研究

4.3.1 深度解析

DeepSeek-OCR 具备布局和 OCR 2.0 能力,能够通过二次模型调用进一步解析文档中的图像,我们称这一特性为"深度解析"。如图 7、8、9、10 所示,我们的模型可以对图表、几何图形、化学公式甚至自然图像进行深度解析,只需一个统一的提示。

4.3.2 多语言识别

互联网上的 PDF 数据不仅包含中文和英文,还包含大量的多语言数据,这在训练 LLMs 时也至关重要。对于 PDF 文档,DeepSeekOCR 能够处理近 100 种语言。与中文和英文文档一样,多语言数据也支持带布局和不带布局的 OCR 格式。可视化结果如图 11 所示,我们选择了阿拉伯语和僧伽罗语来展示结果。

4.3.3 通用视觉理解

我们还为 DeepSeek-OCR 提供了一定程度的通用图像理解能力。相关可视化结果如图 12 所示。

5. 讨论

我们的工作是对视觉-文本压缩边界的初步探索,研究了解码 N 个文本令牌所需的视觉令牌数量。初步结果令人鼓舞:DeepSeek-OCR 在大约 10× 的比率下实现了近乎无损的 OCR 压缩,而 20× 压缩仍然保持 60% 的准确率。这些发现为未来应用提供了有希望的方向,例如在多轮对话中实现超过 k 轮的对话历史的光学处理,以实现 10× 的压缩效率。

对于更旧的上下文,我们可以通过逐步缩小渲染图像的尺寸来进一步减少令牌消耗。这一假设受到人类记忆随时间衰减与视觉感知随空间距离退化之间的自然平行的启发------两者都表现出类似的信息逐渐丢失的模式,如图 13 所示。通过结合这些机制,上下文光学压缩方法实现了一种类似于生物遗忘曲线的记忆衰减形式,其中最近的信息保持高保真度,而遥远的记忆则通过增加压缩比率自然地褪去。

尽管我们的初步探索显示出可扩展的超长上下文处理的潜力,其中最近的上下文保持高分辨率,而更旧的上下文消耗较少的资源,但我们承认这是早期阶段的工作,需要进一步研究。这种方法为实现理论上无限制的上下文架构提供了一条路径,该架构在信息保留与计算约束之间取得了平衡,尽管这种视觉-文本压缩系统的实际影响和局限性值得在未来的研究中进行更深入的研究。

6. 结论

在这份技术报告中,我们提出了 DeepSeek-OCR,并通过该模型初步验证了上下文光学压缩的可行性,证明该模型能够有效地从少量视觉令牌中解码出超过 10 倍数量的文本令牌。我们相信这一发现将促进未来 VLMs 和 LLMs 的发展。此外,DeepSeek-OCR 是一个极具实用性的模型,能够大规模生产预训练数据,是 LLMs 不可或缺的助手。当然,仅靠 OCR 是不足以充分验证真正的上下文光学压缩的,我们将在未来进行数字-光学文本交错预训练、针在草垛中找针测试以及其他评估。从另一个角度来看,光学上下文压缩仍然有很大的研究和改进空间,代表着一个充满希望的新方向。

相关推荐
路人甲ing..5 天前
blender常用快捷键和BlenderKit使用
教程·blender·工具·快捷键·光学
m0_685535089 天前
华为光学工程师笔试真题(含答案与深度解析)
华为·光学·光学设计·光学工程·镜头设计
明知道的博客9 天前
解决WSL环境下DeepSeek-OCR运行时内存不足问题
python·ocr·deepseek·deepseek-ocr
码二哥12 天前
借助豆包将vllm推理deepseek-ocr改成web服务访问
ocr·fastapi·vllm·豆包·deepseek-ocr
大模型实验室Lab4AI16 天前
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
人工智能·ocr·deepseek-ocr
探模之翼19 天前
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩
大模型·ocr·deepseek-ocr
Lab4AI大模型实验室20 天前
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
人工智能·github·deepseek-ocr
pursue.dreams20 天前
DeepSeek-OCR全面解析:技术原理、性能优势与实战指南
ocr·deepseek-ocr
武子康25 天前
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr