MinerU环境部署——PDF转Markdown

在虚拟环境下部署MinerU:好处就是起一个隔离作用,包的版本还有python版本看可以在一个独立的空间内执行,这样可以避免包版本不同带来的冲突与报错。

参考文章:(1)Mineru本地部署(截止2025.7.21)-CSDN博客

(2)MinerU教程第二弹丨MinerU 本地部署保姆级"喂饭"教程_mineru本地部署-CSDN博客

一、创建Conda环境

之前已经安装过,可参考教程:Anaconda的安装与Pycharm配置(完整版)_pycharm配置anaconda-CSDN博客

版本查看(不是安装必须步骤,只是展示,方便后续版本对应)

python版本 :3.10

二、创建虚拟环境部署MinerU

(1)输入以下命令:

复制代码
conda create -n mineru python=3.10 

创建好之后结果显示:

(2)进入mineru虚拟环境,并下载magic-pdf[full]:

复制代码
conda activate mineru
pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple 

运行结果:

版本验证(不是必须步骤):

复制代码
magic-pdf --version

结果:

三、下载模型文件

(1)参考文章(2)中给了两种下载方式,一个是国际用户一个是国内用户,这里选择适合国内用户的------从ModelScope下载模型(使用文档(2)方法不行,所以这一步可能不是必要的,直接先运行下一步就行,后续需要这个ModelScope再重新下载也可以):

复制代码
pip install modelscope 

运行结果:

(2)获取 MinerU 项目官方提供的模型下载脚本,这一步会出现网络问题下不好,多试几次

复制代码
git clone https://github.com/opendatalab/MinerU.git

如果实在不行或者速度比较慢,可以在url前添加一个镜像,github上的项目都通用(我没试):

复制代码
git clone https://ghfast.top/https://github.com/opendatalab/MinerU.git

运行结果:

(3)进入Mineru安装相关依赖(如果没有uv包,直接pip install uv), 再安装相关依赖,以上miner的环境就配置好了

复制代码
cd MinerU
pip install uv
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple

运行结果:

(4)环境测试

版本查看:mineru --version;查看所有可用选项:mineru --help

到这里就完成啦!!

注:可能有些包下载比较慢,处理方法 多下载几次,或者FQ,或者手动在相应路径下载安装包(可能稍微麻烦,但是也能解决)。

四、文件测试

完成上述步骤后,去文件夹中查看,发现已经下载好了,其中有demo测试文件:

怎么用这个MinerU,其实主要就是这个原理:

这里我直接进入demo文件,在所处理文件的目录下执行命令:

复制代码
cd demo
cd pdfs
mineru -p demo1.pdf -o ./output -f true -t true

tips: ./ 是指是一个相对路径,它表示当前工作目录(也就是你在终端中运行命令时所在的目录);执行完上述命令后,检查 output 文件夹,有输出文件说明部署成功。

如果不行,要运行这个,换成国内人镜像(我的需要):

复制代码
set HF_ENDPOINT=https://hf-mirror.com

运行过程:

本地文件夹中就有了处理好的文档,结果显示:

成功!!

如果还有其他别的文档处理需求,北大哥给出了示例命令,可参考运行如下:

完结撒花~~

相关推荐
郝学胜-神的一滴1 分钟前
谨慎地迭代函数所收到的参数 (Effective Python 第31条)
开发语言·python·程序人生·软件工程
charieli-fh18 分钟前
指令微调数据评估与影响:构建高质量大语言模型的关键
人工智能·深度学习·语言模型
Coovally AI模型快速验证18 分钟前
从避障到实时建图:机器学习如何让无人机更智能、更安全、更实用(附微型机载演示示例)
人工智能·深度学习·神经网络·学习·安全·机器学习·无人机
大虾别跑42 分钟前
vc无法启动
java·开发语言
郭老二1 小时前
【JAVA】从入门到放弃-01-HelloWorld
java·开发语言
北城以北88881 小时前
JavaScript--基础ES(一)
开发语言·javascript·intellij-idea
没有梦想的咸鱼185-1037-16631 小时前
【遥感技术】从CNN到Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类
pytorch·python·深度学习·机器学习·数据分析·cnn·transformer
say_fall1 小时前
C语言底层学习(2.指针与数组的关系与应用)(超详细)
c语言·开发语言·学习
钟爱蛋炒饭1 小时前
基于深度学习神经网络协同过滤模型(NCF)的视频推荐系统
python·神经网络·机器学习
eqwaak01 小时前
Python Pillow库详解:图像处理的瑞士军刀
开发语言·图像处理·python·语言模型·pillow