DeepSeek-OCR可能成为开启新时代的钥匙

概述

前天,DeepSeek 发了一篇 DeepSeek-OCR 工作[1],并开源了模型和代码[2]。

这里的 OCR 指的是广义的 OCR,狭义的 OCR 往往是指文本检测和识别,而这里是指文档解析任务,即它能把一个完整 PDF 解析成 Markdown 格式。

我们之前仔细看过 MinerU 2.5 和 PaddleOCR-VL 之类的文档解析模型,和这些模型相比,DeepSeek-OCR 的性能如何呢?

答案是,无可奉告

因为 DeepSeek-OCR 的卖点不是性能,而是视觉Token的压缩,因此,在性能基准比较中,它没有和最新的 SOTA 模型进行比较。

什么是视觉Token压缩?

在做文档解析任务时,需要利用视觉编码器,把图像编码成视觉Token,这样才能让语言模型理解。视觉Token压缩就是指可以用更少的视觉Token来表示图像的完整信息,有效降低语言模型的上下文长度。

DeepSeek-OCR 的视觉压缩到一个什么水平?先看看摘要里的结论:

  • 压缩比<10:可实现 97% 的OCR准确率
  • 压缩比=20:可实现 60% 的OCR准确率

下面这张图能够更直观地看出 DeepSeek-OCR 的整体情况。

横轴是每张图平均视觉Token,越往右表示tokens越小,压缩程度更高;

纵轴是不同模型的编辑距离,越往上表示编辑距离越小,模型性能越好;

主流模型的平均视觉 Token 往往在 4000 这条线以上,而 DeepSeek-OCR 的全系列模型基本都在 2000 这条线以下。

更大的压缩比势必造成精度损失,从图中的结果看,Base型号的这个模型,平均视觉Token在300附近,精度损失没有特别高,在可接受的范围内,如果拿这个模型去做对比,能把视觉Token 压缩了 10 倍还不止。

了解完这项工作的意义,下面就来具体看看,它是怎么做到的。

动机

当前的大型语言模型在处理长文本内容时,基本上采用自注意力(Self-Attention)的操作,即每个 token 都要和序列中其他所有 token 计算相似度得分。

注意力计算复杂度为 O(n2⋅d)O(n^2 \cdot d)O(n2⋅d),n是指序列长度,d是指每个 token 的向量维度。

因此,随着序列长度增加,复杂度会二次方的形式上升。

作者提出的一个思路是:既然文本所占用的Token这么多,那么用视觉信息来表示文本信息(比如对一段文本截图),同样能表示相同的信息,但所需的Token可以更少。

为了验证这个理论,作者把OCR任务当作试验场景,提出了 DeepSeek-OCR。

现有视觉编码器的缺陷

主流的视觉语言模型往往采用以下三种类型:

1.以Vary为代表的双塔架构

通过并行SAM编码器增加视觉词汇参数量以处理高分辨率图像。

这种方案的缺陷是:需要双重图像预处理使部署复杂化,且在训练时难以实现编码器流水线并行。

2.以InternVL2.0为代表的基于图像分块的方法

将图像分割为小块进行并行计算,从而降低高分辨率下的激活内存。

尽管能处理极高分辨率,但由于原生编码器分辨率通常较低(低于512×512),大尺寸图像会被过度分割产生大量视觉标记,存在局限性。

3.以Qwen2-VL为代表的自适应分辨率编码

采用NaViT直接通过基于图像块的分割处理完整图像,无需分块并行,能灵活适应不同分辨率。

但大量激活内存消耗可能导致GPU内存溢出,且训练时序列打包需要极长的序列长度。过长的视觉标记会同时拖慢推理的预填充和生成阶段。

DeepSeek-OCR 架构

这些视觉编码器都有缺陷,那么 DeepSeek-OCR 是怎么做的呢?

下图展现了 DeepSeek-OCR 架构,中间是 DeepSeek 提出的图像编码器 DeepEncoder,后面加了一个 DeepSeek-3B-MoE 解码器。

DeepEncoder 的设计是有迹可循的,总体分三部分:

  • SAM-base:这个是 SAM 的编码器,SAM 做的是分割任务,它本身就具备强大结构理解能力
  • Conv:借鉴 Vary 的设计,采用 2个卷积层的模块对视觉token进行 16 倍下采样,实现信息压缩
  • CLIP:CLIP 具备强大的视觉-语言对齐能力,用 CLIP 进行二次编码,方便后面的语言模型理解

因此,总体思路是,先用 SAM 去尽可能精细提取特征信息,然后用卷积压缩,最后用 CLIP 去做翻译。

所以,DeepEncoder 并不是它本身有多强,而是它把 SAM 和 CLIP 两个"高手"串在了一块。

为了适配不同分辨率的图像输入,DeepEncoder 又推出了不同的固定分辨率型号和动态分辨率型号,具体参数如下表所示。

DeepSeek-OCR 最后的解码器 DeepSeek-3B-MoE 倒没什么特色,是一个基本语言模型的缩小版。

DeepSeek-OCR 性能评估

作者在 OmniDocBench 基准上进行了性能评估,采用编辑距离来度量性能,数值越小越好。

这里的对比结果和开头提到的可视化图是一致的,前面已经大致分析过,这里不作重复赘述。

当然,我们不要忘了 DeepSeek-OCR 的核心目标是想让视觉Token来替代文本Token,以实现压缩,下表展现了不同文本Tokens和视觉Token所对应的准确率和压缩比。

假设以90%的精度作为及格线(即认为通过压缩所造成的10%的精度损失可以忽略不计),那么:

  • 64 个视觉Tokens 可以等效 700-800 个文本Tokens
  • 100 个视觉Tokens 可以等效 1000-1100 个文本Tokens

以这个尺度进行估算,压缩率在1/10左右。

讨论

在这一节,作者进一步解释了为什么设置TinySmallGundam等不同分辨率的编码器。

遗忘机制是人类记忆最基本的特征之一,随着时间慢慢边长,越久远的记忆会越模糊。

类比于视觉,越远端的内容应该用更小的分辨率去编码(看得会模糊),越近端的内容则用更大的分辨率去编码(看清更多细节)。

AI 的起源就是对人体大脑结构的模型,这段直接用仿生学去解释这种设计的合理性,真是绝了。

如果这套范式被主流的语言模型采用,会出现的一个结果就是无限上下文

现在的很多Agent,当历史内容快要超过模型上下文窗口时,就会去进行一个历史内容压缩,生成摘要。

如果是视觉模式,整个流程就是完全动态的,每进行一轮新的对话,历史内容就会被重新压缩,越古老的压缩得越狠,直到完全看不清,这就是无限上下文的设计模式。

当然,目前这篇文章也只是提出了这个构想,实际做起来肯定还有无数问题需要验证和解决。

总结

现在再回头看这篇文章,会觉得它只是一个文档解析的工作吗?

当然不是,因为文档解析所需要输入的提示Prompt基本是固定的,所以解码器能做的比较小,DeepSeek-OCR 刚好看中了这块容易验证的领域,来对视觉Token压缩的设想进行验证。

当我和同门讨论这篇工作时,他说,他几年前刚学人工智能时,就有个疑问:"为什么要用语言来推动视觉,而不是视觉驱动语言?我们用眼睛看东西,输入的是视觉信号,文本只是图像被大脑过滤之后形成的信息。"

文本比图像更易存储和传播,因此具备先发优势,能更快地搜集并应用于大规模模型训练。

然而,这条路线是对的吗?DeepSeek-OCR 把这个问题再一次摆到了所有人面前。

文本是一维的,图像是二维的,图像比文本天然带有更多信息,比如,一张人物关系图,用文本需要描述半天,而图片用简单了连线就能表达清楚。

制约研究者用文本而不用图像的另一个重要原因是,如果把图像中每一个像素点作为一个Token,显然视觉Token会比文本Token的长度大很多。

但是现在,DeepSeek-OCR 得到一个结论:相同信息下,视觉Token可以做到比文本Token更少。

如果这点可以被推而广之,就没理由不用图像作为首选的信息输入。

所以我说,DeepSeek-OCR可能成为开启新时代的钥匙

在未来,输入的所有文本,可能会被当做图像,然后再交给模型处理。

这样不仅成本低,且高效。

参考

1\] 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf \[2\] github仓库:https://github.com/deepseek-ai/DeepSeek-OCR

相关推荐
紫小米9 分钟前
提示词(Prompt)工程与推理优化
人工智能·ai·prompt·ai agent
子非鱼92122 分钟前
1 NLP导论及环境准备
人工智能·自然语言处理
狠活科技40 分钟前
Claude Code 重大更新:支持一键原生安装,彻底别了 Node.js
人工智能·aigc·ai编程·claude·claude code
mwq301231 小时前
解密“混合专家模型” (MoE) 的全部魔法
人工智能·llm
能来帮帮蒟蒻吗2 小时前
深度学习(2)—— 神经网络与训练
人工智能·深度学习·神经网络
新加坡内哥谈技术2 小时前
从文字到世界:空间智能是人工智能的下一个前沿
人工智能
oil欧哟2 小时前
文心 5.0 来了,百度大模型的破局之战
前端·人工智能·百度·prompt
玩转AGI2 小时前
一文看懂 Agentic AI:搭建单体 vs 多智能体系统,结果出乎意料!
人工智能
ai大模型分享员2 小时前
项目实战:基于RAPTOR RAG检索技术的工业设备故障诊断系统
人工智能
MUTA️3 小时前
什么是RKNN?
人工智能