OCR两篇革命之作

DocOwl2

参考 阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

mPLUG-DocOwl 2聚焦多页文档理解,兼顾效果和效率,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果。

仅用324个token表示文档图片也能还原出图片的文字信息和布局信息,验证了当下多模态大模型几千的文档图片视觉表征存在较大的token冗余和资源的浪费。

mPLUG团队会持续优化DocOwl并进行开源,同时希望DocOwl 2能抛砖引玉,让更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码问题,欢迎大家持续关注和友好讨论!

论文:
https://arxiv.org/abs/2409.03420

代码:
https://github.com/X-PLUG/mPLUG-DocOwl

在 OCR-free文档理解领域,例如mPLUG-DocOwl2模型所使用的方式,旨在通过直接使用多模态大型语言模型(MLLMs)来理解文档图像,从而绕过传统的OCR步骤。这种方法与先应用OCR提取文本,然后执行问答形成对比。

以下是为什么无OCR文档理解可以优于两步骤OCR然后QA过程的原因:

效率:OCR引入了额外的步骤,例如文本提取和格式化,这可能会减慢过程。像DocOwl2这样的模型直接使用文档的原始视觉特征,将其压缩为同时保留布局和文本的标记,从而降低单独OCR过程的开销。

上下文保留:OCR可能在保持文档布局和结构方面遇到困难,特别是在具有表格、图表或多列等混合内容的复杂文档中。无OCR方法处理整个文档图像,保持视觉和布局上下文,这对理解内容的语义含义至关重要。

标记效率:在像DocOwl2这样的无OCR方法中,视觉标记用于表示文档特征,这些模型经过优化以处理更少的标记同时保留重要的文档信息。这降低了内存使用量并加快了推理时间,使多页文档处理更加可行。

更适合复杂文档:OCR在处理手写文本、质量不佳的扫描或包含许多图表等视觉元素的文档时可能失败。OCR-free方法通过视觉语言建模处理文档,绕过这些挑战,从而在此类文档上提高了问答准确性。

通过直接关注多页和多图像理解而不是通过OCR,像DocOwl2这样的模型在减少计算需求并提高处理视觉复杂文档的能力的同时,实现了最先进的性能。

GOT OCR

参考 一个端到端的 OCR 模型,炸裂开源!

项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

模型下载: https://huggingface.co/ucaslcl/GOT-OCR2_0

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。

🚀 项目特点

① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。

② 多样化输入输出:支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。

③ 长文本处理能力: 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。

④ 高级功能: 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。

OCR 识别效果

公式:

大段文字:

提取文字:

提取某一坐标的文字:

论文:

相关推荐
余俊晖18 分钟前
多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1
人工智能·ocr·多模态
余俊晖3 小时前
多模态文档解析模型新进展:腾讯开源HunyuanOCR-0.9B模型架构、训练配方
人工智能·ocr·多模态
2的n次方_5 小时前
面向openEuler操作系统:OCR软件应用部署流程、性能评测
ocr
robinspada1 天前
常见开源ocr评测
开源·ocr
液态不合群1 天前
用开源模型强化你的 OCR 工作流
开源·ocr
AI人工智能+2 天前
文档抽取技术通过融合CV、NLP与深度学习,实现了复杂文献的结构化转化
nlp·ocr·文档抽取
点云-激光雷达-Slam-三维牙齿2 天前
任意PDF与图片的批量信息提取软件 OCR 识别加大模型
pdf·ocr
翔云 OCR API3 天前
护照NFC识读鉴伪接口集成-让身份核验更加智能与高效
开发语言·人工智能·python·计算机视觉·ocr
wxl7812273 天前
从图片PDF到结构化文本:基于Python+Dify的批量OCR自动化解决方案
python·pdf·ocr
Blossom.1183 天前
基于Qwen2-VL+LayoutLMv3的智能文档理解系统:从OCR到结构化知识图谱的落地实践
开发语言·人工智能·python·深度学习·机器学习·ocr·知识图谱