MinerU:PDF文档提取工具

目录

bash 复制代码
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .

docker一键启动

有点问题,晚点更新

本地配置

就是在Python环境中配置依赖和安装包

根据需求中下载

可以pip install requirements-docker.txt

其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上

版本不够还需要先升级CUDA版本

可以通过下面命令安装

bash 复制代码
python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'

所有依赖安装好之后,安装应用

bash 复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

最后查看一下版本号

bash 复制代码
magic-pdf --version

下载模型权重文件

bash 复制代码
pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

根目录中已经安装了magic-pdf.json

demo.py

然后试了一下demo.py,解析一个13页的论文

大概每一页平均需要50s

demo解析得到了markdown格式的,但是没有图片,


使用命令行启动

bash 复制代码
magic-pdf -p demo1.pdf -o ./output

以及横着的表

layout.pdf,将不同的元素用不同颜色框


第二种格式:spans.pdf

GPU使用情况

还未使用GPU加速

相关推荐
jiswordsman11 小时前
《量子计算实战》PDF下载
pdf·量子计算
丿BAIKAL巛13 小时前
如何使用Java生成pdf报告
java·pdf
百锦再17 小时前
微信小程序学习基础:从入门到精通
前端·vue.js·python·学习·微信小程序·小程序·pdf
开开心心就好1 天前
便捷的电脑自动关机辅助工具
前端·python·pdf·ocr·电脑·音视频·散列表
百锦再1 天前
Vue环境下数据导出PDF的全面指南
前端·javascript·vue.js·python·django·pdf·pygame
IDRSolutions_CN1 天前
如何在Java中处理PDF文档(教程)
java·经验分享·pdf·软件工程·团队开发
拓端研究室1 天前
2025年度消费新潜力白皮书470+份汇总解读|附PDF下载
大数据·人工智能·pdf
CodeCraft Studio1 天前
PDF处理控件Aspose.PDF教程:以编程方式将PDF转换为Word
pdf·c#·word
CodeCraft Studio1 天前
PDF处理控件Aspose.PDF教程:以编程方式将 PDF 导出为 JPG
java·python·pdf·.net
diygwcom2 天前
turn.js与 PHP 结合使用来实现 PDF 文件的页面切换效果
开发语言·pdf·php