MinerU将PDF转成md文件,并分拣图片

首先自行安装python3,必须大于3.10以上的版本

博主是已经有了python3,这里就不演示了

1.Magic-PDF 安装方法

复制代码
conda create -n mineru python=3.12.8

如果之前安装 MinerU 时已创建过虚拟环境,可直接激活 是虚拟环境名mineru

复制代码
conda activate mineru

然后使用pip安装 Magic-PDF 完整版功能包

复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2.下载模型文件

从 ModelScope 下载(官方推荐这里下载)

首先安装modelscope

复制代码
pip install modelscope

然后下载脚本文件

复制代码
https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py

安装模型

复制代码
python download_models.py

从 Hugging Face 下载(可选)

安装huggingface_hub

复制代码
pip install huggingface_hub

接着下载下载脚本

复制代码
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py

安装模型

复制代码
python download_models_hf.py
相关推荐
久违 °10 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
AI360labs_atyun11 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.11 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary11 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_11 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记11 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_4684668511 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_4684668511 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理
回眸&啤酒鸭11 小时前
【回眸】CSDN新增功能测评——AI数字营销之内容创作
人工智能
小糖学代码11 小时前
LLM系列:环境搭建:5.Python-dotenv 环境变量管理
人工智能·python·深度学习·神经网络