MinerU:PDF文档提取工具

目录

bash 复制代码
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .

docker一键启动

有点问题,晚点更新

本地配置

就是在Python环境中配置依赖和安装包

根据需求中下载

可以pip install requirements-docker.txt

其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上

版本不够还需要先升级CUDA版本

可以通过下面命令安装

bash 复制代码
python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'

所有依赖安装好之后,安装应用

bash 复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

最后查看一下版本号

bash 复制代码
magic-pdf --version

下载模型权重文件

bash 复制代码
pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

根目录中已经安装了magic-pdf.json

demo.py

然后试了一下demo.py,解析一个13页的论文

大概每一页平均需要50s

demo解析得到了markdown格式的,但是没有图片,


使用命令行启动

bash 复制代码
magic-pdf -p demo1.pdf -o ./output

以及横着的表

layout.pdf,将不同的元素用不同颜色框


第二种格式:spans.pdf

GPU使用情况

还未使用GPU加速

相关推荐
ZeroNews内网穿透2 天前
公网访问开源 Stirling-PDF 工具,提升办公效率
linux·运维·服务器·网络·pdf·ssh
千天夜2 天前
Python合并多个PDF文件:完整指南与实践
windows·python·算法·pdf
Redundantº2 天前
Uniapp 适配安卓与 iOS 的 PDF、DOC 文件上传
android·ios·pdf·uni-app·webview
旺旺的碎冰冰~2 天前
Adobe如何给PDF添加页码
adobe·pdf
YANshangqian2 天前
PDF工具箱 PDF24
pdf
优选资源分享2 天前
PDF 补丁丁 v1.1.3.4663绿色版:PDF编辑软件
pdf·实用工具
南风微微吹2 天前
英语四级作文历年真题及范文模版汇总PDF电子版(2015-2025年6月)
pdf·英语四级
TextIn智能文档云平台3 天前
如何快速提取PDF文档内容
pdf
小马爱打代码3 天前
Spring AI:DeepSeek 整合 RAG 增强检索: 实现与 PDF 对话
人工智能·spring·pdf
南风微微吹3 天前
英语六级作文历年真题及范文模版汇总PDF电子版(2015-2025年6月)
pdf·英语六级