OCR两篇革命之作

DocOwl2

参考 阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

mPLUG-DocOwl 2聚焦多页文档理解,兼顾效果和效率,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果。

仅用324个token表示文档图片也能还原出图片的文字信息和布局信息,验证了当下多模态大模型几千的文档图片视觉表征存在较大的token冗余和资源的浪费。

mPLUG团队会持续优化DocOwl并进行开源,同时希望DocOwl 2能抛砖引玉,让更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码问题,欢迎大家持续关注和友好讨论!

论文:
https://arxiv.org/abs/2409.03420

代码:
https://github.com/X-PLUG/mPLUG-DocOwl

在 OCR-free文档理解领域,例如mPLUG-DocOwl2模型所使用的方式,旨在通过直接使用多模态大型语言模型(MLLMs)来理解文档图像,从而绕过传统的OCR步骤。这种方法与先应用OCR提取文本,然后执行问答形成对比。

以下是为什么无OCR文档理解可以优于两步骤OCR然后QA过程的原因:

效率:OCR引入了额外的步骤,例如文本提取和格式化,这可能会减慢过程。像DocOwl2这样的模型直接使用文档的原始视觉特征,将其压缩为同时保留布局和文本的标记,从而降低单独OCR过程的开销。

上下文保留:OCR可能在保持文档布局和结构方面遇到困难,特别是在具有表格、图表或多列等混合内容的复杂文档中。无OCR方法处理整个文档图像,保持视觉和布局上下文,这对理解内容的语义含义至关重要。

标记效率:在像DocOwl2这样的无OCR方法中,视觉标记用于表示文档特征,这些模型经过优化以处理更少的标记同时保留重要的文档信息。这降低了内存使用量并加快了推理时间,使多页文档处理更加可行。

更适合复杂文档:OCR在处理手写文本、质量不佳的扫描或包含许多图表等视觉元素的文档时可能失败。OCR-free方法通过视觉语言建模处理文档,绕过这些挑战,从而在此类文档上提高了问答准确性。

通过直接关注多页和多图像理解而不是通过OCR,像DocOwl2这样的模型在减少计算需求并提高处理视觉复杂文档的能力的同时,实现了最先进的性能。

GOT OCR

参考 一个端到端的 OCR 模型,炸裂开源!

项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

模型下载: https://huggingface.co/ucaslcl/GOT-OCR2_0

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。

🚀 项目特点

① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。

② 多样化输入输出:支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。

③ 长文本处理能力: 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。

④ 高级功能: 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。

OCR 识别效果

公式:

大段文字:

提取文字:

提取某一坐标的文字:

论文:

相关推荐
郭庆汝1 天前
本地服务器端部署基于大模型的通用OCR项目——dots.ocr
ocr
EkihzniY3 天前
OCR 精准识别验讫章:让登记与校验更智能
ocr
CodeCraft Studio3 天前
使用 Aspose.OCR 将图像文本转换为可编辑文本
java·人工智能·python·ocr·.net·aspose·ocr工具
TextIn智能文档云平台3 天前
当文档包含图文混排表格时,如何结合大模型(如DeepSeek-VL)和OCR提取数据
人工智能·ocr·大模型文档应用
DisonTangor4 天前
小红书开源dots.ocr:单一视觉语言模型中的多语言文档布局解析
语言模型·开源·ocr
NullPointerExpection4 天前
dify + mcp 实现图片 ocr 识别
spring boot·llm·ocr·springai·deepseek·mcp
EkihzniY8 天前
OCR 赋能自动阅卷:让评分更高效精准
ocr
Stara05118 天前
基于Coze平台的自动化情报采集与处理引擎—实现小红书图文到飞书的端到端同步
人工智能·大模型·ocr·飞书·工作流·ai agent·coze
悠哉悠哉愿意9 天前
【电赛学习笔记】MaixCAM 的OCR图片文字识别
笔记·python·嵌入式硬件·学习·视觉检测·ocr
pingzhuyan10 天前
python入门篇12-虚拟环境conda的安装与使用
python·ai·llm·ocr·conda