告别复杂文档解析噩梦！MonkeyOCR 本地部署教程：支持公式/表格多元素结构化

一、介绍

MonkeyOCR 是华中科技大学联合金山办公(Kingsoft Office)推出的文档解析模型，模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内容识别和逻辑排序，显著提升文档解析的准确性和效率。

与传统方法相比，MonkeyOCR在处理复杂文档(如包含公式和表格的文档)时表现出色，平为性能提升5.1%，在公式和表格解析上分别提升15.0%和8.6%。模型在多页文档处理速度上表现出色，达到每秒0.84页，远超其他同类工具。 MonkeyOCR支持多种文档类型，包括学术论文、教科书和报纸等，适用多种语言，为文档数字化和自动化处理提供强大的支持。

二、部署流程

环境推荐配置

系统：Ubuntu22.04，

显卡：4090，

显存：24G，cuda12.4.1

1. 基础环境

查看系统是否有Miniconda3的虚拟环境

复制代码

conda -V

如果输入命令没有显示Conda版本号，则需要安装。

2.更新系统命令

输入下列命令将系统更新及系统下载

sql 复制代码

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

3.创建虚拟环境

创建名称为"MonkeyOCR "的虚拟环境

ini 复制代码

conda create -n MonkeyOCR python=3.10 -y

激活虚拟环境

复制代码

conda activate MonkeyOCR

4.下载模型

输入下列命令下载MonkeyOCR 模型同时进入项目中

bash 复制代码

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

5.下载Pytorch

输入下列命令：

ini 复制代码

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

直到"Successfully"出现，下载才结束

6.下载依赖包

erlang 复制代码

pip install -e .

直到"Successfully"出现，下载才结束

7.下载模型权重文件

bash 复制代码

python tools/download_model.py

三、Gradio演示

下载其他缺失依赖包

ini 复制代码

# Prepare your env for gradio
pip install gradio==5.23.3
pip install pdf2image==1.17.0

访问界面

bash 复制代码

python demo/demo_gradio.py

界面效果

四、其他（可选）

修复 RTX 3090 / 4090 / ...GPU

我们的 3B 模型在 NVIDIA RTX 3090 上高效运行。但是，当使用 LMDeploy 作为推理后端时，您可能会遇到 RTX 3090 / 4090 GPU 的兼容性问题，尤其是以下错误：

csharp 复制代码

triton.runtime.errors.OutOfResources: out of resource: shared memory

要解决此问题，您可以应用以下补丁：

bash 复制代码

python tools/lmdeploy_patcher.py patch

⚠️ 注意：此命令将在您的环境中修改 LMDeploy 的源代码。要还原更改，只需运行：

bash 复制代码

python tools/lmdeploy_patcher.py restore