MinerU学习

1、概述

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书,并将其转换为易于分析的 Markdown 或

JSON 格式。由 上海人工智能实验室OpenDataLab 团队 开发。

主要功能包括:

• PDF 转 Markdown

支持多模态 PDF(含图片、表格、公式等)的结构化转换。

自动去除页眉、页脚、脚注等干扰信息,保留标题、段落、列表等结构。

公式识别并转换为 LaTeX 格式,表格转换为 HTML 或 Markdown。

• 网页内容提取:从网页中剔除广告等干扰信息,精准提取正文、评论、视频文字等内容。

• 电子书转换:支持 epub、mobi、docx、pptx、chm、azw 等格式批量转 Markdown。

• 多语言 OCR:自动检测扫描版 PDF 和乱码,支持 84 种语言 的 OCR 识别

2、使用

• 在线使用

https://mineru.net/OpenSourceTools/Extractor

• 客户端

https://mineru.net/client

• API

https://mineru.net/apiManage

• 本地化部署

2.1、在线使用

MinerU会把文档解析成markdown、json格式,如果文档中包含图片,默认用ocr解析文本

2.2、本地部署使用

mineru 1.0 minerU3.0变化很大,这里我弄了很长时间,一开始安装的1.3.x,手动下载模型,最后处理pdf时,总是报缺少模型,后来使用的3.x(当前最新)。具体区别如下(豆包查的):

|--------|---------------------------|--------------------------------|
| 对比维度 | MinerU 1.0 | MinerU 3.0 |
| 包名与命令行 | 包名:magic-pdf;命令:magic-pdf | 包名:mineru;命令:mineru,与1.0不兼容 |
| 架构模式 | 单一进程,单机小工具,无多卡/异步支持 | 三层微服务,支持分布式、多GPU负载均衡、异步任务 |
| 解析能力 | 仅支持PDF解析(文字、表格、公式) | 原生支持DOCX/PPTX/XLSX全格式,增强复杂版面解析 |
| 安装与依赖 | 依赖复杂,模型需手动下载 | 无闭源依赖,模型一键下载,pip一键安装 |
| 核心定位 | PDF解析小工具 | 企业级全格式文档解析引擎 |

1、安装minerU

pip install -U "mineruall" -i https://mirrors.aliyun.com/pypi/simple

2、下载需要的模型(pipeline可以理解为cpu可以跑的模型)

mineru-models-download -s modelscope -m pipeline

3、设置环境变量(默认走的huggingface),设置如下,会走国内镜像源

set MINERU_MODEL_SOURCE=modelscope

4、处理pdf(这个过程要几分钟时间)

mineru -p "三国演义.pdf" -o ouput -b pipeline

5、处理完成,minerU会生成对应的json、md文件

文件名 核心作用 适用场景
三国演义.md 最终结构化输出,Markdown 格式,包含文本、标题层级、表格 / 图片引用 直接阅读、后续 NLP / 大模型训练的文本素材
三国演义_content_list.json 按阅读顺序平铺的结构化内容列表,含类型(文本 / 表格 / 图片等)、页码、文本层级、位置信息 快速提取文本内容、做结构化二次开发
三国演义_content_list_v2.json content_list.json 的升级版本,补充了更完善的坐标与类型字段 新版 API 兼容、需要更精准位置信息的场景
三国演义_layout.pdf 布局分析可视化文件,用方框标注了识别到的内容块 检查布局识别是否准确、调试解析效果
三国演义_span.pdf 文本 Span 级别的可视化文件,标注了每个文本片段的识别结果 排查文本漏识别、字符级 OCR 问题
三国演义_middle.json 完整中间数据文件,包含所有模型推理结果、布局、坐标、文本等全部信息 深度二次开发、自定义后处理流程
三国演义_model.json 模型推理的原始结果,记录了每个内容块的模型识别信息 调试模型、分析识别错误、做质量评估
三国演义_origin.pdf 原始输入文件的副本 对比解析前后差异、溯源原始内容
三国演义_span.pdf 同上面的 Span 可视化文件(已说明) 文本级调试

如果担心把本地环境弄坏了,可以用conda搭建一个隔离环境,测试验证!!!!

相关推荐
doiito21 小时前
【Agent Harness】Gliding Horse 的 L2 作战地图:让多 Agent 协作从“摸黑”变成“透明”
ai·rust·架构设计·系统设计·ai agent
xiezhr21 小时前
逛GitHub发现一款免费带有AI功能的数据库管理工具DBX
ai·开源软件·自然语言·数据库管理工具
垚森3 天前
我用 GLM-5.2 造了个炸裂主题后台:16 套主题随心切,可在线体验
ai·react
doiito3 天前
【Agent Harness】Gliding Horse 工具结果压缩体系:如何用“指针”驯服上下文膨胀
ai·rust·架构设计·系统设计·ai agent
doiito4 天前
【Agent Harness】Gliding Horse 上下文动态感知与智能压缩:让 Agent 真正“听得进”每一句话
ai·rust·架构设计·系统设计·ai agent
探索云原生5 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes
Zy宇5 天前
从养 OpenClaw 到养社区 AI:一套 Multi-Agent 社区的设计思路
人工智能·ai
doiito5 天前
【Agent Harness】Gliding Horse 记忆系统深度剖析:像 CPU 一样思考的 AI 记忆架构
ai·rust·架构设计·系统设计·ai agent
mobility5 天前
免费AI视频生成器:我如何用零成本做出带旁白字幕的多场景AI视频
ai·vibe coding
doiito6 天前
【Agent Harness】Gliding Horse 给 Agent OS 装上双曲空间引擎与默克尔树边云同步
ai·rust·架构设计·系统设计·ai agent