3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!

在文档解析领域,传统方法要么依赖复杂多工具流水线,要么受限于大型多模态模型的低效性。

近日,Yuliang-Liu团队在GitHub上开源了一款轻量级基于LLM的文档解析模型:MonkeyOCR

它以创新的"结构-识别-关系"(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。

在对多页文档解析场景下,处理速度达每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。

亮点功能

  • SRR三元组范式:结构检测(YOLO布局分析)、内容识别(Qwen-VL文本提取)、关系预测(逻辑排序)。

  • 轻量高效:3B参数在英文文档解析上超Gemini 2.5 Pro和Qwen2.5-VL-72B。

  • 超快速度:多页解析0.84页/秒,超MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。

  • 中英文支持:适配MonkeyDoc数据集,覆盖10+文档类型(如论文、发票、报表)。

  • 结构化输出:生成markdown或json结构化数据,便于下游处理。

安装与部署

MonkeyOCR的安装和使用简单,只需按照以下步骤进行即可。

① 项目下载及环境部署,安装依赖

bash 复制代码
conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 
pip install .

② 从 Huggingface 或 ModelScope 下载权重模型

arduino 复制代码
pip install huggingface_hub
python download_model.py
# or
pip install modelscope
python download_model.py -t modelscope

③ 推理

bash 复制代码
# 确保在 MonkeyOCR 目录中
python parse.py path/to/your.pdf
# 指定输出路径和模型配置路径
python parse.py path/to/your.pdf -o ./output -c config.yaml

④ 启动在线Gradio Demo

ini 复制代码
# Prepare your env for gradio
pip install gradio==5.23.3
pip install pdf2image==1.17.0

# Start demo
python demo/demo_gradio.py

适用场景

MonkeyOCR 的轻量设计和SRR范式让它适用于多种场景,直击文档处理痛点:

  • 企业文档处理:解析发票、报表、合同,提取表格和文本,自动化数据录入。

  • 学术研究:处理论文PDF,提取公式和图表,加速文献分析。

  • 数据提取:从多页PDF中提取结构化信息,生成JSON,适配数据库。

  • 教育培训:解析教材PDF,提取题目和答案,生成学习资料。

  • 多语言支持:中英文文档无缝处理,适合跨国企业

写在最后

MonkeyOCR 以其轻量级设计和SRR三元组范式,为文档解析领域带来了新的"血液"。

其3B参数模型更是在英文文档解析中超越Gemini 2.5 Pro和Qwen2.5-VL-72B,多页文档处理速度达0.84页/秒,公式和表格识别分别提升15.0%和8.6%。

虽说支持各种类型中英文文档,但暂不支持照片类型输入。

希望未来能在照片文档支持、多语言扩展、实时处理、模型压缩等方面有持续优化。

GitHub 项目地址:github.com/Yuliang-Liu...

相关推荐
飞翔的猪猪2 小时前
GitHub Recovery Codes - 用于 GitHub Two-factor authentication (2FA) 凭据丢失时登录账号
前端·git·github
OpenTiny社区3 小时前
HDC2025即将拉开序幕!OpenTiny重新定义前端智能化解决方案~
前端·vue.js·github
顾三殇4 小时前
【编译工具】(版本控制)Git + GitHub Actions:自动化工作流如何让我的开发效率提升200%?
git·自动化·github
waterHBO4 小时前
( github actions + workflow 01 ) 实现爬虫自动化,每2小时爬取一次澎湃新闻
爬虫·自动化·github
不念霉运7 小时前
开源生态新势能: 驱动国产 DevSecOps 与 AI 工程新进展
人工智能·开源·github·devops
ConardLi8 小时前
一种对大模型训练数据集进行增强的新思路!
前端·后端·github
油泼辣子多加9 小时前
2025年06月10日Github流行趋势
github
jackeyfive10 小时前
最快速搭建博客并部署到 GitHub Pages
前端·github
南城旧梦10 小时前
Tdesign-vue-next Chat 源码阅读(1) 本地启动
github
gavin carter10 小时前
gitHub hexo 个人博客升级版
python·github·hexo