MinerU:PDF文档提取工具

目录

bash 复制代码
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .

docker一键启动

有点问题,晚点更新

本地配置

就是在Python环境中配置依赖和安装包

根据需求中下载

可以pip install requirements-docker.txt

其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上

版本不够还需要先升级CUDA版本

可以通过下面命令安装

bash 复制代码
python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'

所有依赖安装好之后,安装应用

bash 复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

最后查看一下版本号

bash 复制代码
magic-pdf --version

下载模型权重文件

bash 复制代码
pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

根目录中已经安装了magic-pdf.json

demo.py

然后试了一下demo.py,解析一个13页的论文

大概每一页平均需要50s

demo解析得到了markdown格式的,但是没有图片,


使用命令行启动

bash 复制代码
magic-pdf -p demo1.pdf -o ./output

以及横着的表

layout.pdf,将不同的元素用不同颜色框


第二种格式:spans.pdf

GPU使用情况

还未使用GPU加速

相关推荐
haiyangyiba16 小时前
Qoppa Software提供的15款PDF产品组件科学学习
pdf·qoppa·jofficeconvert·jpdfprocess·jpdfeditor
williamdsy18 小时前
【Vue PDF】Vue PDF 组件初始不加载 pdfUrl 问题分析与修复
前端·javascript·vue.js·pdf
来自外太空的鱼-张小张18 小时前
java将pdf文件转换为图片工具类
java·python·pdf
zjsx13820 小时前
2025国家卫健委减肥食谱PDF完整版(免费下载打印)
pdf·减肥·国家版减肥
SEO-狼术21 小时前
Create and Manage Content Crack
pdf
拓端研究室1 天前
专题:2025中国游戏科技发展白皮书报告汇总解读|附130+份报告PDF汇总下载
科技·游戏·pdf
沉到海底去吧Go2 天前
【工具教程】批量PDF识别提取区域的内容重命名,将PDF指定区域位置的内容提取出来改名的具体操作步骤
pdf·pdf识别改名·pdf区域内容改名·批量pdf识别区域内容重命名
开开心心就好2 天前
高效账号信息管理工具,可安全随机生成密码
javascript·安全·docker·智能手机·pdf·word·excel
CodeCraft Studio2 天前
PDF处理控件Aspose.PDF教程: 在 Java 中编辑 PDF 页面大小
java·pdf·aspose·aspose.pdf
課代表2 天前
Acrobat 首选项配置:从注册表到锁定机制
pdf·注册表·路径·preference·acrobat·首选项·administrator