Windows 安装 MinerU 3.x 实现本地批量解析 PDF

去年记录过《Windows 本地部署 MinerU PDF 文档提取神器》,当时安装使用还是 MinerU 还是 1.x 的版本,当时用的是 AMD 卡,所以只能用 CPU 进行推理解析,所需时间较久,时隔半年,由于业务需要,今天重新安装了最新版本:3.1.14-released,安装要求和过程出现了较大的变化,同时这次已经更换了 RTX 4090,所以可以使用 GPU 进行加速推理了。

这次是基于 uv 虚拟环境进行安装,如果没安装,建议先查看《Windows 安装 uv 并指定安装目录》。

安装方式有多种,我自己为了方便后续开发调整,这里选择的是通过源码安装。

环境信息

  • 操作系统: Windows 11

  • 显卡: RTX 4090

安装步骤

一、拉取源码

bash 复制代码
git clone https://github.com/opendatalab/MinerU.git
cd MinerU

二、创建激活环境

bash 复制代码
uv venv --python 3.12
.venv\Scripts\activate

三、执行安装命令

bash 复制代码
uv pip install -e .[all] -i https://mirrors.aliyun.com/pypi/simple

四、安装 PyTorch

为了在 Windows 上能使用 CUDA 加速,通过 GPU 加快识别,否则默认使用 CPU,速度很慢。

PyTorch 的版本是需要根据你显卡型号来确定的,我这里是 RTX 4090,所以安装 CUDA 12.8 版本,具体安装命令可以访问 PyTorch 官方获取。

**请注意!!!**如果你本地同时存在 Anaconda 和 uv 多虚拟环境,安装命令前一定要加上 uv,不要直接使用 pip,否则可能会对虚拟环境造成污染!还有这步一定要等 MinerU 安装命令执行成功后在执行!

bash 复制代码
uv pip install torch==2.11.0 torchvision==0.26.0 torchaudio==2.11.0 --index-url https://download.pytorch.org/whl/cu128

安装成功后会升级 MinerU 默认安装时的 Torch,可以看出默认安装的是不带 CUDA 版本的 Torch,所以一定要等 MinerU 安装命令执行成功后在执行才能使用 CUDA 加速。

bash 复制代码
(mineru) D:\Projects\ai\mineru>uv pip install torch==2.11.0 torchvision==0.26.0 torchaudio==2.11.0 --index-url https://download.pytorch.org/whl/cu128
Resolved 14 packages in 4.39s
Uninstalled 2 packages in 1.07s
Installed 2 packages in 4.40s
 - torch==2.8.0
 + torch==2.11.0+cu128
 - torchvision==0.23.0
 + torchvision==0.26.0+cu128

五、启动并解析

首先将模型下载设置为国内的魔塔社区 ModelScope,否则默认是通过 HuggingFace,然后将需要识别的 PDF 放到 E:\pdf\input,这里根据自身情况调整即可,E:\pdf\output 为解析后输出的目录。

第一次运行会自动下载所需模型,这也是要设置下载源为国内可以正常访问魔塔社区的原因。

bash 复制代码
SET MINERU_MODEL_SOURCE=modelscope
mineru -p E:\pdf\input -o E:\pdf\output

**请注意!!!**SET 命令设置的环境变量只在单次命令终端里有效,和 Linux 下的 export 命令一个效果,如果关闭或重新打开新终端需要重新执行才有效,嫌麻烦的需要调整源码,这里不过多阐述了。

解析是会自动对 E:\pdf\input 里所有文件进行解析,直到全部完成。

六、问题记录

如果出现报错:

bash 复制代码
ValueError: CUDA is not available.

是因为 PyTorch 版本不带 CUDA ,详见"步骤四"。

如果出现报错:

bash 复制代码
AssertionError: Can not find $env:CUDA_PATH

是因为本机电脑没有安装 CUDA Toolkit,需要下载并安装,然后重新打开命令终端,重新执行"步骤五"命令即可。

相关推荐
枫叶林FYL1 小时前
【强化学习】长上下文可验证奖励强化学习:原理推导与系统架构
人工智能·系统架构
Teable任意门互动1 小时前
深度解析:AI 赋能开源多维表格,实现企业全场景数据整合与高效应用
数据库·人工智能·低代码·信息可视化·开源·数据库开发
沪漂阿龙1 小时前
Hermes Agent 安全边界全解析:让 AI Agent 敢执行、可控制、能回滚
人工智能·安全
天天进步20151 小时前
从零打造 Python 全栈项目:智能教学辅助系统
开发语言·人工智能·python
南屹川1 小时前
【分布式系统】分布式事务与一致性协议:从理论到实践
人工智能
2601_957786771 小时前
多平台矩阵系统的反脆弱架构:如何用技术解耦对抗平台规则的不确定性
人工智能·矩阵·架构·平台解耦
馒头吃馒头1 小时前
AI 伦理安全指引 1.0 发布:严控违规智能应用,划定行业伦理安全红线
人工智能·人工智能应用伦理安全指引1.0·人工智能应用伦理
jkyy20141 小时前
顺应IoT与健康产业融合趋势,补齐中小企业健康数字化短板
大数据·人工智能·信息可视化·健康医疗
WHS-_-20221 小时前
Millimeter Wave ISAC-SLAM: Framework and RFSoC Prototype
人工智能·算法·原型模式