OCR两篇革命之作

DocOwl2

参考 阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

mPLUG-DocOwl 2聚焦多页文档理解,兼顾效果和效率,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果。

仅用324个token表示文档图片也能还原出图片的文字信息和布局信息,验证了当下多模态大模型几千的文档图片视觉表征存在较大的token冗余和资源的浪费。

mPLUG团队会持续优化DocOwl并进行开源,同时希望DocOwl 2能抛砖引玉,让更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码问题,欢迎大家持续关注和友好讨论!

论文:
https://arxiv.org/abs/2409.03420

代码:
https://github.com/X-PLUG/mPLUG-DocOwl

在 OCR-free文档理解领域,例如mPLUG-DocOwl2模型所使用的方式,旨在通过直接使用多模态大型语言模型(MLLMs)来理解文档图像,从而绕过传统的OCR步骤。这种方法与先应用OCR提取文本,然后执行问答形成对比。

以下是为什么无OCR文档理解可以优于两步骤OCR然后QA过程的原因:

效率:OCR引入了额外的步骤,例如文本提取和格式化,这可能会减慢过程。像DocOwl2这样的模型直接使用文档的原始视觉特征,将其压缩为同时保留布局和文本的标记,从而降低单独OCR过程的开销。

上下文保留:OCR可能在保持文档布局和结构方面遇到困难,特别是在具有表格、图表或多列等混合内容的复杂文档中。无OCR方法处理整个文档图像,保持视觉和布局上下文,这对理解内容的语义含义至关重要。

标记效率:在像DocOwl2这样的无OCR方法中,视觉标记用于表示文档特征,这些模型经过优化以处理更少的标记同时保留重要的文档信息。这降低了内存使用量并加快了推理时间,使多页文档处理更加可行。

更适合复杂文档:OCR在处理手写文本、质量不佳的扫描或包含许多图表等视觉元素的文档时可能失败。OCR-free方法通过视觉语言建模处理文档,绕过这些挑战,从而在此类文档上提高了问答准确性。

通过直接关注多页和多图像理解而不是通过OCR,像DocOwl2这样的模型在减少计算需求并提高处理视觉复杂文档的能力的同时,实现了最先进的性能。

GOT OCR

参考 一个端到端的 OCR 模型,炸裂开源!

项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

模型下载: https://huggingface.co/ucaslcl/GOT-OCR2_0

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。

🚀 项目特点

① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。

② 多样化输入输出:支持照片、文档、切片等多种输入格式,输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等,满足不同场景的需求。

③ 长文本处理能力: 解码器支持 8K 最大长度的 token,能够处理长文本场景,适用于学术论文、法律文件等长文本资料。

④ 高级功能: 包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持,提供更加灵活和高效的 OCR 解决方案。

OCR 识别效果

公式:

大段文字:

提取文字:

提取某一坐标的文字:

论文:

相关推荐
秋氘渔1 天前
使用Ollama部署DeepSeek-OCR模型:从零开始的完整指南
ocr·ollama·deepseek-ocr
weixin_462446231 天前
DeepSeek-OCR:下一代智能文档识别与转换技术详解(复杂表格精准解析)
ocr·deepseek-ocr
山顶夕景2 天前
【VLM】Format Decoupled Reinforcement Learning for Document OCR
大模型·llm·ocr·多模态·文档智能·vlm
熊明才3 天前
modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)
ai·ocr
张3蜂3 天前
PaddleOCR:全面解析百度开源的OCR王者
百度·开源·ocr
AI人工智能+3 天前
表格识别技术:实现复杂表格内容的精准解析与表格结构的版面还原,推动档案管理从数字化存储向智能化服务转型
深度学习·ocr·表格识别
天聚数行4 天前
OCR+翻译二合一!天聚数行图片翻译API实测体验
ocr·api接口·天聚数行
旗讯数字4 天前
角标识别 + 系统对接一体化 旗讯 OCR 纸质报告数字化解决方案
ocr
wxl7812274 天前
基于Cognee实现PDF图文并茂解析与检索的实践方案
pdf·ocr·图文并茂·cognee
hanzengyi4 天前
Mayan EDMS v4.10 设置支持中文(Web汉化+中文OCR)
ocr·mayan-edms