MinerU:PDF文档提取工具

目录

bash 复制代码
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .

docker一键启动

有点问题,晚点更新

本地配置

就是在Python环境中配置依赖和安装包

根据需求中下载

可以pip install requirements-docker.txt

其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上

版本不够还需要先升级CUDA版本

可以通过下面命令安装

bash 复制代码
python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'

所有依赖安装好之后,安装应用

bash 复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

最后查看一下版本号

bash 复制代码
magic-pdf --version

下载模型权重文件

bash 复制代码
pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

根目录中已经安装了magic-pdf.json

demo.py

然后试了一下demo.py,解析一个13页的论文

大概每一页平均需要50s

demo解析得到了markdown格式的,但是没有图片,


使用命令行启动

bash 复制代码
magic-pdf -p demo1.pdf -o ./output

以及横着的表

layout.pdf,将不同的元素用不同颜色框


第二种格式:spans.pdf

GPU使用情况

还未使用GPU加速

相关推荐
qq_546937278 小时前
PDF工具的天花板!PDF补丁丁:开源免费+无广告,支持Win7~Win11,批量OCR秒完成
pdf·ocr
小真zzz9 小时前
ChatPPT免费功能之【导出PDF】:PPT内容安全+便捷分享
人工智能·ai·pdf·powerpoint·ppt·aippt
Rover Ramble1 天前
提取大型非扫描pdf文件的表格数据
pdf
2501_907136821 天前
电子礼簿系统-红白喜事记账工具,PDF/Execl导出
pdf·软件需求
王五周八1 天前
html转化为base64编码的pdf文件
前端·pdf·html
ComPDFKit2 天前
ComPDF 与 Aspose:转换 SDK 的全面比较
pdf
优选资源分享2 天前
PDF 电子签章工具 v5.0:全能处理PDF电子签章
pdf
Arvin_Zhang20162 天前
使用python实现从PDF格式的control mapping获取gross die数量
python·pdf
徐同保2 天前
上传文件,在前端用 pdf.js 提取 上传的pdf文件中的图片
前端·javascript·pdf
CodeCraft Studio2 天前
国产化PDF处理控件Spire.PDF教程:使用Python批量自动化将PDF转换为黑白(灰度)
python·pdf·自动化·spire.pdf·文档自动化·pdf开发组件·国产化文档组件