MinerU学习

1、概述

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或

JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。

主要功能包括:

• PDF 转 Markdown

支持多模态 PDF(含图片、表格、公式等)的结构化转换。

自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。

公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。

• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。

• 电子书转换:支持 epub、mobi、docx、pptx、chm、azw 等格式批量转 Markdown。

• 多语言 OCR:自动检测扫描版 PDF 和乱码,支持 84 种语言 的 OCR 识别

2、使用

• 在线使用

https://mineru.net/OpenSourceTools/Extractor

• 客户端

https://mineru.net/client

• API

https://mineru.net/apiManage

• 本地化部署

2.1、在线使用

MinerU会把文档解析成markdown、json格式,如果文档中包含图片,默认用ocr解析文本

2.2、本地部署使用

mineru 1.0 minerU3.0变化很大,这里我弄了很长时间,一开始安装的1.3.x,手动下载模型,最后处理pdf时,总是报缺少模型,后来使用的3.x(当前最新)。具体区别如下(豆包查的):

|--------|---------------------------|--------------------------------|
| 对比维度 | MinerU 1.0 | MinerU 3.0 |
| 包名与命令行 | 包名:magic-pdf;命令:magic-pdf | 包名:mineru;命令:mineru,与1.0不兼容 |
| 架构模式 | 单一进程,单机小工具,无多卡/异步支持 | 三层微服务,支持分布式、多GPU负载均衡、异步任务 |
| 解析能力 | 仅支持PDF解析(文字、表格、公式) | 原生支持DOCX/PPTX/XLSX全格式,增强复杂版面解析 |
| 安装与依赖 | 依赖复杂,模型需手动下载 | 无闭源依赖,模型一键下载,pip一键安装 |
| 核心定位 | PDF解析小工具 | 企业级全格式文档解析引擎 |

1、安装minerU

pip install -U "mineru[all]" -i https://mirrors.aliyun.com/pypi/simple

2、下载需要的模型(pipeline可以理解为cpu可以跑的模型)

mineru-models-download -s modelscope -m pipeline

3、设置环境变量(默认走的huggingface),设置如下,会走国内镜像源

set MINERU_MODEL_SOURCE=modelscope

4、处理pdf(这个过程要几分钟时间)

mineru -p "三国演义.pdf" -o ouput -b pipeline

5、处理完成,minerU会生成对应的json、md文件

文件名 核心作用 适用场景
三国演义.md 最终结构化输出,Markdown 格式,包含文本、标题层级、表格 / 图片引用 直接阅读、后续 NLP / 大模型训练的文本素材
三国演义_content_list.json 按阅读顺序平铺的结构化内容列表,含类型(文本 / 表格 / 图片等)、页码、文本层级、位置信息 快速提取文本内容、做结构化二次开发
三国演义_content_list_v2.json content_list.json 的升级版本,补充了更完善的坐标与类型字段 新版 API 兼容、需要更精准位置信息的场景
三国演义_layout.pdf 布局分析可视化文件,用方框标注了识别到的内容块 检查布局识别是否准确、调试解析效果
三国演义_span.pdf 文本 Span 级别的可视化文件,标注了每个文本片段的识别结果 排查文本漏识别、字符级 OCR 问题
三国演义_middle.json 完整中间数据文件,包含所有模型推理结果、布局、坐标、文本等全部信息 深度二次开发、自定义后处理流程
三国演义_model.json 模型推理的原始结果,记录了每个内容块的模型识别信息 调试模型、分析识别错误、做质量评估
三国演义_origin.pdf 原始输入文件的副本 对比解析前后差异、溯源原始内容
三国演义_span.pdf 同上面的 Span 可视化文件(已说明) 文本级调试

如果担心把本地环境弄坏了,可以用conda搭建一个隔离环境,测试验证!!!!

相关推荐
前端小超人rui1 小时前
Deepseek 的创新及计算速度快和成本低的原因
ai·语言模型·大模型·ai编程·deepseek
KKei16381 小时前
Flutter for OpenHarmony学习小组组队与打卡APP技术文章
学习·flutter·华为·harmonyos
charlie1145141911 小时前
通用GUI编程技术——图形渲染实战(四十三)——D3D12设计哲学:显式控制与性能解锁
学习·3d·c·图形渲染·win32
Huangjin007_1 小时前
【C++ STL篇(八)】set容器——零基础入门与核心用法精讲
开发语言·c++·学习
七夜zippoe1 小时前
OpenClaw Browser 快照:页面分析与操作
ai·快照·playwright·browser·openclaw
wujian83111 小时前
千问 文心 元宝 Kimi导出pdf方法
人工智能·ai·pdf·豆包·deepseek
青衫码上行1 小时前
如何接入AI大模型
java·人工智能·ai·langchain·ai编程
吃好睡好便好2 小时前
在Matlab中绘制圆锥三维曲面图
开发语言·人工智能·学习·算法·matlab·信息可视化
z200509302 小时前
【linux学习】linux基本指令02
学习