
摘要
MinerU是一款开源的高精度文档内容提取工具,专为应对大语言模型时代对高质量文档数据的迫切需求而设计。该系统基于PDF-Extract-Kit模型库,通过精细化的预处理和后处理规则,实现了对学术论文、教科书、试卷、研究报告等多种文档类型的高质量内容提取。实验结果表明,MinerU在处理复杂布局和公式识别方面表现卓越,为RAG应用和大模型训练提供了可靠的数据基础。
阅读原文或https://t.zsxq.com/5w2qU获取原文pdf
一、研究背景:大模型时代的数据困境
1.1 数据质量成为大模型发展的核心瓶颈
2022年底ChatGPT的发布引发了大语言模型研究与应用的热潮。然而,随着大模型技术的快速演进,一个严峻的问题逐渐浮现:互联网网页数据已经不足以支撑模型训练的进一步提升。文档数据,作为蕴含丰富知识的重要资源,成为增强大模型能力的关键突破口。
2023年检索增强生成技术(RAG)的引入和发展,进一步加剧了产业界和学术界对高质量文档提取的需求。企业级应用场景中,如何从海量文档中准确提取知识,成为制约RAG系统性能的核心问题。
1.2 现有文档提取方案的四大技术路线及其局限

目前,文档内容提取主要存在四种技术路线,但都面临着不同程度的挑战:
第一,基于OCR的文本提取。这种方法直接使用OCR模型从文档中提取文本。虽然对纯文本文档可行,但当文档包含图像、表格、公式等元素时,会引入大量噪声,难以满足高质量数据提取的需求。
第二,基于库的文本解析。对于非扫描文档,开源Python库如PyMuPDF可以直接读取内容而无需调用OCR,提供更快速、更准确的文本结果。然而,这种方法在处理包含公式、表格等元素的文档时会失效。
第三,多模块文档解析。这种方法采用多种文档解析模型分阶段处理文档图像。首先,布局检测算法识别不同类型的区域,如图像、图像标题、表格、表格标题、标题和文本。随后,针对特定区域应用不同的识别器。尽管这种方法理论上能够产生高质量的文档结果,但现有开源模型往往仅专注于学术论文,在处理教科书、试卷、研究报告和报纸等多样化文档类型时表现不佳。
第四,端到端的多模态大模型文档解析。随着多模态大语言模型的进步,出现了许多文档内容提取模型,如Donut、Nougat、Kosmos-2.5、Vary、mPLUG-DocOwl等。这些模型受益于不断优化的编码器和解码器以及数据工程,逐步提高了提取性能。然而,它们仍面临数据多样性不足和推理成本高昂的挑战。
二、MinerU系统架构:四阶段处理流程
2.1 系统设计理念
为了更好地提取多样化文档,同时确保低推理成本和高推理质量,研究团队提出了MinerU------一个一体化的文档提取工具。MinerU的核心技术路线基于多模块文档解析策略,但与现有算法不同的是,MinerU利用PDF-Extract-Kit中的各种开源模型,这些模型在多样化的真实世界文档上进行训练,能够在涉及复杂布局和复杂公式的任务中实现高质量结果。
图1位置提示:系统架构总览图,展示了MinerU从PDF输入到最终输出的完整处理流程,包括文档预处理、内容解析、内容后处理和格式转换四个核心阶段。
2.2 第一阶段:文档预处理
文档预处理阶段使用PyMuPDF读取PDF文件,过滤掉无法处理的文件(如加密文件),并提取PDF元数据。这一阶段有两个主要目标:首先,过滤掉无法处理的PDF,如非PDF文件、加密文档和密码保护文档;其次,获取PDF元数据供后续使用。
PDF元数据的获取包括以下几个关键方面:
语言识别。目前,MinerU仅识别和处理中文和英文文档。执行OCR时需要将语言类型指定为参数,且不保证其他语言的处理质量。
内容乱码检测。某些基于文本的PDF在复制时会出现乱码。需要提前识别此类PDF,以便在下一步中使用OCR进行文本识别。
扫描PDF识别。对于文本型PDF(相对于扫描PDF),MinerU直接使用PyMuPDF进行文本提取。然而,对于扫描PDF,需要启用OCR。系统根据图像区域大于文本区域、有时覆盖整个PDF页面以及每页平均文本长度接近零等特征来识别扫描PDF。
页面元数据提取。提取文档元数据,如总页数、页面尺寸(宽度和高度)以及其他相关属性。
2.3 第二阶段:文档内容解析
在文档解析阶段,MinerU使用PDF-Extract-Kit模型库来检测不同类型的区域并识别相应的区域内容(OCR、公式识别、表格识别等)。PDF-Extract-Kit是一个用于PDF解析的算法库,包含各种最先进的开源PDF文档解析算法。
与其他开源算法库不同,PDF-Extract-Kit旨在构建一个在处理真实场景中的多样化数据时能够确保准确性和速度的模型库。当特定领域的最先进开源算法无法满足实际需求时,PDF-Extract-Kit采用数据工程来构建高质量、多样化的数据集,用于进一步的模型微调,从而显著增强模型对多样化数据的鲁棒性。
当前版本的MinerU使用五个模型:布局检测、公式检测、表格识别、公式识别和OCR。这些模型协同工作,确保各类文档元素都能被准确识别和提取。
2.4 第三阶段:文档内容后处理
基于第二阶段的输出,这一阶段移除无效区域,根据区域定位信息拼接内容,最终获得不同文档区域的定位、内容和排序信息。这一环节对于保证最终提取结果的准确性至关重要。
后处理流程包括多个精细化步骤:
处理重叠边界框。当多个检测模型的输出存在重叠时,系统需要根据优先级规则进行处理,确保同一内容不会被重复提取。
裁剪图像和表格。根据检测结果精确裁剪出文档中的图像和表格区域,便于后续独立处理和展示。
删除页眉页脚等干扰元素。系统支持内容过滤功能,可以过滤掉页眉、页脚、脚注和旁注等无关区域,增强文档可读性。
确定阅读顺序。结合基于模型和基于规则的后处理方法进行段落识别,实现跨栏和跨页的段落合并,确保文档逻辑结构的完整性。

2.5 第四阶段:格式转换
为了适应用户对输出格式的不同需求,MinerU将处理后的PDF数据存储在中间结构中。中间结构是一个大型JSON文件,包含了文档解析后的所有关键信息。
表1位置提示:中间结构的重要字段说明表,详细列出了JSON文件中各字段的含义和作用。
MinerU的命令行支持输出Markdown和自定义JSON格式,两者都从上述中间结构转换而来。在格式转换过程中,可以根据需要裁剪图像、表格和其他元素。这种灵活的输出方式使得MinerU能够适应不同的下游应用场景。
三、MinerU的核心技术优势

3.1 适应多样化文档布局
MinerU支持广泛的文档类型,包括但不限于学术论文、教科书、试卷和研究报告。这种广泛的适应性源于其底层模型在多样化真实文档上的充分训练。
表2位置提示:文档类别及其描述表,展示了MinerU支持的各类文档类型及其特点。
3.2 精准的内容过滤能力
系统允许过滤无关区域,如页眉、页脚、脚注和旁注,显著提高了文档可读性。这对于需要提取核心内容的应用场景尤为重要,如知识库构建和问答系统。
3.3 准确的内容分割
MinerU结合基于模型和基于规则的后处理方法进行段落识别,能够实现跨栏和跨页的段落合并。这确保了文档逻辑结构的完整性,对于理解文档语义至关重要。

3.4 鲁棒的页面元素识别
系统能够准确区分公式、表格、图像、文本块及其各自的标题。这种细粒度的元素识别能力,使得MinerU能够为不同类型的内容应用最合适的处理策略。
四、质量评估与性能验证
4.1 评估方法论
为了评估MinerU从PDF中提取内容的质量,研究团队从两个维度进行探索。首先,对负责文档内容解析的核心模块进行独立评估,以确保模型推理结果的准确性。模型结果的质量对最终内容质量至关重要。在这一阶段,团队专门评估了三个模块:布局检测、公式检测和公式识别。
4.2 多样化评估数据集
研究团队构建了一个多样化的评估数据集,并将MinerU的核心算法组件的性能与现有开源方案进行了比较。这种基于真实场景数据的评估,确保了系统在实际应用中的可靠性。

4.3 核心模块性能表现
布局检测模块。该模块能够准确识别文档中的不同区域类型,包括文本、标题、图像、表格等,为后续的专用识别器提供准确的输入。
公式检测与识别。MinerU在处理复杂数学公式方面表现优异,能够准确定位和识别各类公式,这对于科技文档的提取尤为关键。
表格识别。系统能够准确识别各种格式的表格,包括复杂的多行多列表格,并保持表格结构的完整性。
五、应用场景与产业价值
5.1 大模型训练数据准备
对于AI企业和研究机构,MinerU可以高效地从海量文档中提取高质量训练数据。无论是学术论文、技术文档还是专业书籍,系统都能保持内容的准确性和结构的完整性,为大模型训练提供优质数据源。
5.2 企业知识库构建
企业可以利用MinerU将内部文档转换为结构化知识库。系统准确的内容分割和元素识别能力,确保了知识库的高质量,为后续的知识检索和问答系统奠定基础。
5.3 RAG系统数据处理
对于构建RAG系统的开发者,MinerU提供了可靠的文档预处理解决方案。系统输出的结构化数据可以直接用于向量化和索引构建,显著提升RAG系统的检索准确率。
5.4 学术研究支持
研究机构可以使用MinerU批量处理文献资料,提取论文中的文本、公式、表格和图像,构建学术知识图谱或进行文献计量分析。
5.5 金融文档分析
投资机构可以利用该工具提取财务报告、研究报告中的关键信息,包括财务数据表格和趋势图表,支持投资决策和风险评估。
六、技术展望与未来发展
6.1 多语言支持扩展
当前版本的MinerU主要支持中英文文档。未来,系统可以扩展对更多语言的支持,满足全球化应用需求。这需要在数据工程和模型训练方面进行针对性优化。
6.2 端到端模型集成
虽然当前基于多模块的方案已经取得良好效果,但未来可以探索将端到端的多模态大模型作为补充方案,在特定场景下提供更灵活的处理能力。
6.3 实时处理能力
针对在线应用场景,可以优化系统的推理速度,实现文档的实时解析和提取,满足即时查询和动态内容更新的需求。
6.4 领域定制化
针对特定行业(如医疗、法律、金融)的文档特点,可以开发定制化的处理模块和规则,进一步提升专业领域文档的提取质量。
七、总结
MinerU作为一款开源的高精度文档内容提取解决方案,在大模型时代具有重要的战略意义。通过精心设计的四阶段处理流程和基于PDF-Extract-Kit的强大模型库,系统实现了对多样化文档的高质量提取,为大模型训练、RAG应用和企业知识管理提供了坚实的数据基础。
对于企业决策者、技术专家和投资人而言,MinerU不仅是一个技术工具,更代表着文档智能化处理的新方向。其开源特性降低了应用门槛,而其卓越的性能则确保了实际应用中的可靠性。随着开源社区的持续贡献和技术的不断演进,MinerU有望成为文档内容提取领域的标准解决方案。
在数据成为核心生产要素的今天,高质量文档提取能力的重要性不言而喻。MinerU的出现,为构建大模型时代的数据基础设施提供了有力支撑,值得产业界和学术界的持续关注与深入应用。