3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!

在文档解析领域,传统方法要么依赖复杂多工具流水线,要么受限于大型多模态模型的低效性。

近日,Yuliang-Liu团队在GitHub上开源了一款轻量级基于LLM的文档解析模型:MonkeyOCR

它以创新的"结构-识别-关系"(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。

在对多页文档解析场景下,处理速度达每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。

亮点功能

  • SRR三元组范式:结构检测(YOLO布局分析)、内容识别(Qwen-VL文本提取)、关系预测(逻辑排序)。

  • 轻量高效:3B参数在英文文档解析上超Gemini 2.5 Pro和Qwen2.5-VL-72B。

  • 超快速度:多页解析0.84页/秒,超MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。

  • 中英文支持:适配MonkeyDoc数据集,覆盖10+文档类型(如论文、发票、报表)。

  • 结构化输出:生成markdown或json结构化数据,便于下游处理。

安装与部署

MonkeyOCR的安装和使用简单,只需按照以下步骤进行即可。

① 项目下载及环境部署,安装依赖

bash 复制代码
conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 
pip install .

② 从 Huggingface 或 ModelScope 下载权重模型

arduino 复制代码
pip install huggingface_hub
python download_model.py
# or
pip install modelscope
python download_model.py -t modelscope

③ 推理

bash 复制代码
# 确保在 MonkeyOCR 目录中
python parse.py path/to/your.pdf
# 指定输出路径和模型配置路径
python parse.py path/to/your.pdf -o ./output -c config.yaml

④ 启动在线Gradio Demo

ini 复制代码
# Prepare your env for gradio
pip install gradio==5.23.3
pip install pdf2image==1.17.0

# Start demo
python demo/demo_gradio.py

适用场景

MonkeyOCR 的轻量设计和SRR范式让它适用于多种场景,直击文档处理痛点:

  • 企业文档处理:解析发票、报表、合同,提取表格和文本,自动化数据录入。

  • 学术研究:处理论文PDF,提取公式和图表,加速文献分析。

  • 数据提取:从多页PDF中提取结构化信息,生成JSON,适配数据库。

  • 教育培训:解析教材PDF,提取题目和答案,生成学习资料。

  • 多语言支持:中英文文档无缝处理,适合跨国企业

写在最后

MonkeyOCR 以其轻量级设计和SRR三元组范式,为文档解析领域带来了新的"血液"。

其3B参数模型更是在英文文档解析中超越Gemini 2.5 Pro和Qwen2.5-VL-72B,多页文档处理速度达0.84页/秒,公式和表格识别分别提升15.0%和8.6%。

虽说支持各种类型中英文文档,但暂不支持照片类型输入。

希望未来能在照片文档支持、多语言扩展、实时处理、模型压缩等方面有持续优化。

GitHub 项目地址:github.com/Yuliang-Liu...

相关推荐
草梅友仁9 小时前
草梅 Auth 1.1.0 发布与最新动态 | 2025 年第 30 周草梅周报
开源·github·ai编程
mortimer10 小时前
安装NVIDIA Parakeet时,我遇到的两个Pip“小插曲”
python·github
心之语歌13 小时前
Spring AI MCP 客户端
人工智能·spring·github
yeshan33315 小时前
使用 Claude Code 的自定义 Sub Agent 完善博文写作体验
ai·github·agent·claudecode
程序视点16 小时前
望言OCR 2025终极评测:免费版VS专业版全方位对比(含免费下载)
前端·后端·github
玩个冰球17 小时前
Stata 18下载安装教程(非常详细),看完这一篇就够了(附安装包)
github
Xi_Xu17 小时前
Xget:下一代开源资源获取加速引擎,让你的文件下载、储存库克隆和镜像拉取快如闪电
开源·github
用户40993225021219 小时前
FastAPI的查询白名单和安全沙箱机制如何确保你的API坚不可摧?
前端·后端·github
计算机毕设定制辅导-无忧学长1 天前
InfluxDB Flux 查询协议实战应用(二)
github
黄团团1 天前
SpringBoot连接Sftp服务器实现文件上传/下载(亲测可用)
服务器·spring boot·github