MinerU将PDF转成md文件,并分拣图片

首先自行安装python3,必须大于3.10以上的版本

博主是已经有了python3,这里就不演示了

1.Magic-PDF 安装方法

复制代码
conda create -n mineru python=3.12.8

如果之前安装 MinerU 时已创建过虚拟环境,可直接激活 是虚拟环境名mineru

复制代码
conda activate mineru

然后使用pip安装 Magic-PDF 完整版功能包

复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2.下载模型文件

从 ModelScope 下载(官方推荐这里下载)

首先安装modelscope

复制代码
pip install modelscope

然后下载脚本文件

复制代码
https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py

安装模型

复制代码
python download_models.py

从 Hugging Face 下载(可选)

安装huggingface_hub

复制代码
pip install huggingface_hub

接着下载下载脚本

复制代码
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py

安装模型

复制代码
python download_models_hf.py
相关推荐
Vadaski2 小时前
为什么每个团队都需要一套私有 Context 工程
人工智能
人工智能训练2 小时前
Docker中容器的备份方法和步骤
linux·运维·人工智能·ubuntu·docker·容器·nvidia
渡我白衣3 小时前
深入 Linux 内核启动:从按下电源到用户登录的全景解剖
java·linux·运维·服务器·开发语言·c++·人工智能
甄心爱学习3 小时前
数据挖掘11-分类的高级方法
人工智能·算法·分类·数据挖掘
李昊哲小课3 小时前
wsl ubuntu24.04 cuda13 cudnn9 pytorch 显卡加速
人工智能·pytorch·python·cuda·cudnn
小程故事多_803 小时前
LangChain1.0系列:中间件深度解析,让 AI智能体上下文控制不失控
人工智能·中间件·langchain
中国国际健康产业博览会3 小时前
2026第35届中国国际健康产业博览会探索健康与科技的完美结合!
大数据·人工智能
数字化脑洞实验室3 小时前
选择AI决策解决方案需要注意哪些安全和数据隐私问题?
人工智能·安全
Guheyunyi3 小时前
安全风险监测系统核心技术
运维·网络·人工智能·安全
golang学习记4 小时前
再见了,claude code
人工智能