MinerU:PDF文档提取工具

目录

bash 复制代码
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .

docker一键启动

有点问题,晚点更新

本地配置

就是在Python环境中配置依赖和安装包

根据需求中下载

可以pip install requirements-docker.txt

其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上

版本不够还需要先升级CUDA版本

可以通过下面命令安装

bash 复制代码
python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'

所有依赖安装好之后,安装应用

bash 复制代码
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

最后查看一下版本号

bash 复制代码
magic-pdf --version

下载模型权重文件

bash 复制代码
pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

根目录中已经安装了magic-pdf.json

demo.py

然后试了一下demo.py,解析一个13页的论文

大概每一页平均需要50s

demo解析得到了markdown格式的,但是没有图片,


使用命令行启动

bash 复制代码
magic-pdf -p demo1.pdf -o ./output

以及横着的表

layout.pdf,将不同的元素用不同颜色框


第二种格式:spans.pdf

GPU使用情况

还未使用GPU加速

相关推荐
2501_920955576 小时前
PDF文件损坏打不开怎么修复?2025年最新修复工具测评与对比
pdf
季春二九6 小时前
PDF-XChange Editor丨加拿大PDF编辑转换工具
pdf
开开心心就好11 小时前
微软官方出品:免费数据恢复工具推荐
网络·笔记·microsoft·pdf·word·音视频·symfony
Dontla12 小时前
如何在PDF文档中打钩?(福昕阅读器)打√
pdf·福昕阅读器
拓端研究室12 小时前
2025全球生成式人工智能AIGC产业全景与行业应用研究报告|附900+份报告PDF、数据、可视化模板汇总下载
pdf·aigc
拓端研究室12 小时前
专题:2025中国制造业出海与出海品牌社媒影响力洞察报告|附300+份报告PDF、数据、绘图模板汇总下载
pdf
烽火连城诀12 小时前
PDF 全文翻译开发实现思路:挑战、细节与工程化解决方案
pdf·pdf全文翻译·pdf保持格式翻译·全文翻译·pdf版式保持
袁煦丞 cpolar内网穿透实验室12 小时前
Stirling-PDF合并拆分加密样样行:cpolar内网穿透实验室第563个成功挑战
pdf·远程工作·内网穿透·cpolar·pdf工具
小嘟嚷ovo12 小时前
h5单页预览PDF文件模糊问题解决
pdf
星光一影15 小时前
PDF工具箱/合并拆分pdf/提取图片
pdf·c#