杂记：文档解析器之MinerU

方安乐2026-01-27 17:41

MinerU 解析器 是由阿里巴巴通义实验室推出的一款专注于高质量文档结构化提取 的工具，主要用于将 PDF、扫描件等非结构化或半结构化文档（尤其是科研论文、技术报告、书籍等）智能解析为结构化的 Markdown 或 JSON 格式，保留原始文档的语义层级（如标题、段落、公式、表格、图片、参考文献等）。

主要特点：

高精度布局分析
能准确识别文档中的多栏排版、图文混排、页眉页脚、浮动图表等复杂布局。
语义结构还原
不仅提取文字，还能理解并还原文档的逻辑结构，例如：
- 章节标题层级（H1, H2, H3...）
- 段落与列表
- 数学公式（支持 LaTeX 输出）
- 表格（转为 Markdown 表格或 HTML）
- 图片及其题注（caption）
支持多种输入格式
- PDF（包括扫描版 PDF，需配合 OCR）
- 图像（如 JPG、PNG，通过 OCR 识别）
开源与本地部署
MinerU 是开源项目（GitHub 上可获取），支持在本地运行，保障数据隐私，适用于企业或研究场景。
面向大模型预训练/微调的数据准备
特别适合用于构建高质量的文本-结构对齐数据集，为训练或微调大语言模型（LLM）、多模态模型提供干净、结构化的语料。

典型应用场景：

学术论文自动解析（如 arXiv 文档结构化）
技术文档知识库构建
教材/书籍数字化
RAG（检索增强生成）系统中的文档预处理
构建高质量预训练语料（如用于训练 Qwen 等大模型）

项目信息：

GitHub 地址 ：https://github.com/opendatalab/MinerU
开源协议：Apache 2.0
依赖技术：结合了 OCR（如 PaddleOCR）、版面分析、公式识别（LaTeX）、表格识别等模块

示例输出（简化）：

输入一篇 PDF 论文 → 输出如下 Markdown：

复制代码

# Introduction

Recent advances in large language models (LLMs) have shown...

## Related Work

Prior research includes...

### Table 1: Model Comparison

| Model | Params | Accuracy |
|-------|--------|----------|
| A     | 7B     | 85%      |

$$
\mathcal{L} = \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$