MinerU学习

1、概述

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或

JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。

主要功能包括:

• PDF 转 Markdown

支持多模态 PDF(含图片、表格、公式等)的结构化转换。

自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。

公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。

• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。

• 电子书转换:支持 epub、mobi、docx、pptx、chm、azw 等格式批量转 Markdown。

• 多语言 OCR:自动检测扫描版 PDF 和乱码,支持 84 种语言 的 OCR 识别

2、使用

• 在线使用

https://mineru.net/OpenSourceTools/Extractor

• 客户端

https://mineru.net/client

• API

https://mineru.net/apiManage

• 本地化部署

2.1、在线使用

MinerU会把文档解析成markdown、json格式,如果文档中包含图片,默认用ocr解析文本

2.2、本地部署使用

mineru 1.0 minerU3.0变化很大,这里我弄了很长时间,一开始安装的1.3.x,手动下载模型,最后处理pdf时,总是报缺少模型,后来使用的3.x(当前最新)。具体区别如下(豆包查的):

|--------|---------------------------|--------------------------------|
| 对比维度 | MinerU 1.0 | MinerU 3.0 |
| 包名与命令行 | 包名:magic-pdf;命令:magic-pdf | 包名:mineru;命令:mineru,与1.0不兼容 |
| 架构模式 | 单一进程,单机小工具,无多卡/异步支持 | 三层微服务,支持分布式、多GPU负载均衡、异步任务 |
| 解析能力 | 仅支持PDF解析(文字、表格、公式) | 原生支持DOCX/PPTX/XLSX全格式,增强复杂版面解析 |
| 安装与依赖 | 依赖复杂,模型需手动下载 | 无闭源依赖,模型一键下载,pip一键安装 |
| 核心定位 | PDF解析小工具 | 企业级全格式文档解析引擎 |

1、安装minerU

pip install -U "mineruall" -i https://mirrors.aliyun.com/pypi/simple

2、下载需要的模型(pipeline可以理解为cpu可以跑的模型)

mineru-models-download -s modelscope -m pipeline

3、设置环境变量(默认走的huggingface),设置如下,会走国内镜像源

set MINERU_MODEL_SOURCE=modelscope

4、处理pdf(这个过程要几分钟时间)

mineru -p "三国演义.pdf" -o ouput -b pipeline

5、处理完成,minerU会生成对应的json、md文件

文件名 核心作用 适用场景
三国演义.md 最终结构化输出,Markdown 格式,包含文本、标题层级、表格 / 图片引用 直接阅读、后续 NLP / 大模型训练的文本素材
三国演义_content_list.json 按阅读顺序平铺的结构化内容列表,含类型(文本 / 表格 / 图片等)、页码、文本层级、位置信息 快速提取文本内容、做结构化二次开发
三国演义_content_list_v2.json content_list.json 的升级版本,补充了更完善的坐标与类型字段 新版 API 兼容、需要更精准位置信息的场景
三国演义_layout.pdf 布局分析可视化文件,用方框标注了识别到的内容块 检查布局识别是否准确、调试解析效果
三国演义_span.pdf 文本 Span 级别的可视化文件,标注了每个文本片段的识别结果 排查文本漏识别、字符级 OCR 问题
三国演义_middle.json 完整中间数据文件,包含所有模型推理结果、布局、坐标、文本等全部信息 深度二次开发、自定义后处理流程
三国演义_model.json 模型推理的原始结果,记录了每个内容块的模型识别信息 调试模型、分析识别错误、做质量评估
三国演义_origin.pdf 原始输入文件的副本 对比解析前后差异、溯源原始内容
三国演义_span.pdf 同上面的 Span 可视化文件(已说明) 文本级调试

如果担心把本地环境弄坏了,可以用conda搭建一个隔离环境,测试验证!!!!

相关推荐
_李小白24 分钟前
【android opencv学习笔记】Day 31:提取轮廓之Canny算法
android·opencv·学习
阿演28 分钟前
DataDjinn 新版本更新:国产数据库支持、连接树体验、AI 查询和表格编辑继续增强
数据库·人工智能·ai·ai编程
零陵上将军_xdr32 分钟前
后端转全栈学习-Day6-JavaScript 基础-4
前端·javascript·学习
数智工坊35 分钟前
周志华《Machine Learning》学习笔记--第十四章--概率图模型
笔记·学习·机器学习
装不满的克莱因瓶39 分钟前
深入PyTorch模型的训练与可视化 —— 掌握迁移学习等模型训练效果提升的办法
人工智能·pytorch·python·深度学习·神经网络·ai·迁移学习
段一凡-华北理工大学39 分钟前
工业领域的Hadoop架构学习~系列文章20:故障诊断与根因分析 - 从表象到本质的智能推理
大数据·人工智能·hadoop·学习·架构·高炉炼铁·工业智能体
The moon forgets1 小时前
ABot-M0:基于动作流形学习的机器人操作VLA基础模型深度解析
人工智能·pytorch·python·学习·具身智能·vla·点云分割
ANnianStriver1 小时前
PetLumina 08 — 通知系统与搜索功能修复(广播机制 + 已读状态 + 参数对齐)
java·ai·ai编程·广播机制
05候补工程师1 小时前
【马原核心复习】唯物辩证法与认识论全景架构图解与精要笔记
经验分享·笔记·学习·考研
断眉的派大星1 小时前
YOLO26 完整学习笔记:从 Anchor-Free、TAL、STAL 到端到端无 NMS 部署
人工智能·笔记·学习·yolo·目标检测·计算机视觉·目标跟踪