MinerU将PDF转成md文件,并分拣图片

首先自行安装python3,必须大于3.10以上的版本

博主是已经有了python3,这里就不演示了

1.Magic-PDF 安装方法

复制代码
conda create -n mineru python=3.12.8

如果之前安装 MinerU 时已创建过虚拟环境,可直接激活 是虚拟环境名mineru

复制代码
conda activate mineru

然后使用pip安装 Magic-PDF 完整版功能包

复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2.下载模型文件

从 ModelScope 下载(官方推荐这里下载)

首先安装modelscope

复制代码
pip install modelscope

然后下载脚本文件

复制代码
https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py

安装模型

复制代码
python download_models.py

从 Hugging Face 下载(可选)

安装huggingface_hub

复制代码
pip install huggingface_hub

接着下载下载脚本

复制代码
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py

安装模型

复制代码
python download_models_hf.py
相关推荐
美狐美颜SDK开放平台2 分钟前
多终端适配下的人脸美型方案:美颜SDK工程开发实践分享
人工智能·音视频·美颜sdk·直播美颜sdk·视频美颜sdk
哈__5 分钟前
CANN加速Image Captioning图像描述生成:视觉特征提取与文本生成优化
人工智能
禁默9 分钟前
Ops-Transformer深入:CANN生态Transformer专用算子库赋能多模态生成效率跃迁
人工智能·深度学习·transformer·cann
杜子不疼.11 分钟前
基于CANN GE图引擎的深度学习模型编译与优化技术
人工智能·深度学习
L、21815 分钟前
深入理解CANN:面向AI加速的异构计算架构详解
人工智能·架构
chaser&upper21 分钟前
预见未来:在 AtomGit 解码 CANN ops-nn 的投机采样加速
人工智能·深度学习·神经网络
松☆24 分钟前
CANN与大模型推理:在边缘端高效运行7B参数语言模型的实践指南
人工智能·算法·语言模型
结局无敌31 分钟前
深度探究cann仓库下的infra:AI计算的底层基础设施底座
人工智能
m0_4665252931 分钟前
绿盟科技风云卫AI安全能力平台成果重磅发布
大数据·数据库·人工智能·安全
慢半拍iii32 分钟前
从零搭建CNN:如何高效调用ops-nn算子库
人工智能·神经网络·ai·cnn·cann