DeepSeek OCR 解读

数据:包含 OCR 1.0 数据(多语言 PDF 文档、Word 数据、自然场景 OCR 数据)、OCR 2.0 数据(图表数据、化学公式数据、平面几何数据)、通用视觉数据和 10% 文本数据的混合数据集

模型:

(1)以窗口注意力为主导的视觉感知特征提取组件(采用 80M 的 SAM-base)

(2)通过 2 层卷积模块对视觉令牌进行 16 倍下采样,减少进入全局注意力的token数量

(3)具有密集全局注意力的视觉知识特征提取组件(采用 300M 的 CLIP-large)

(4)多分辨率支持:通过位置编码的动态插值实现单模型对多分辨率输入的适配,满足不同压缩比需求

未解决问题:

(1)当压缩比达到 20 倍时,OCR 精度降至约 60%

(2)几何图形解析的准确性不足

(3)长文档处理不行

感悟:

(1)在10 倍压缩的情况下识别精度还能保持 97%,但论文中解码的精度是字符的准确率,这不代表文本信息重要性,如果100字里面把最重要的3个字传错了呢

(2)虽然视觉 token 数少了,但模型的计算复杂度其实不一定更低,Hugging Face 的版本标注在 A100 40G 上能跑 2500 tokens/s

(3)确实压缩了token,但会不会和文字一样上下文坍塌呢,比如128K上下文的模型,传入超过12.8K的视觉token会怎么样

(4)视觉压缩会比summary压缩要好吗,summary可以很大程度上维持语义信息

(5)模型预训练时学到了先验,或许视觉token的效果不好,但是模型根据部分正确的表征还原了信息,需要破坏视觉输入的文字顺序等方法测试,例如图片从"我喜欢你"->"你欢欢我"

(6)视觉encoder优于text tokenizer,这可能也是成功的原因之一,需要研究更好的tokenizer。现在的text在被tokenizer拆成离散信息后,text encoder需要重新学习句法和语义关系

相关推荐
数据皮皮侠AI2 天前
中国城市可再生能源数据集(2005-2021)|顶刊 Sci Data 11 种能源面板
大数据·人工智能·笔记·能源·1024程序员节
计算机毕业论文辅导4 天前
物联网实战:基于MQTT协议的智能家居数据传输系统设计与实现
1024程序员节
开开心心就好5 天前
支持批量处理的视频分割工具推荐
安全·智能手机·rust·pdf·电脑·1024程序员节·lavarel
liuyao_xianhui7 天前
Linux开发工具结尾 _make
linux·运维·服务器·数据结构·哈希算法·宽度优先·1024程序员节
学传打活9 天前
【边打字.边学昆仑正义文化】_21_爱的结晶(1)
微信公众平台·1024程序员节·汉字·昆仑正义文化
数据皮皮侠AI16 天前
顶刊同款!中国地级市风灾风险与损失数据集(2000-2022)|灾害 / 环境 / 经济研究必备
大数据·人工智能·笔记·能源·1024程序员节
Fab1an17 天前
Busqueda——Hack The Box 靶机
linux·服务器·学习·1024程序员节
技术专家17 天前
Stable Diffusion系列的详细讨论 / Detailed Discussion of the Stable Diffusion Series
人工智能·python·算法·推荐算法·1024程序员节
学传打活20 天前
古代汉语是源,现代汉语是流,源与流一脉相承。
微信公众平台·1024程序员节·汉字·中华文化
学传打活25 天前
【边打字.边学昆仑正义文化】_19_星际生命的生存状况(1)
微信公众平台·1024程序员节·汉字·昆仑正义文化