【LLM基础研究】工具02：MinerU

Ada's2026-06-03 16:10

MinerU 的功能模块可以从多个维度来理解：从服务形态上，它有 CLI 工具、API、桌面端等多种使用方式；从技术架构上，其核心是一个"视觉编码-多模态融合-任务解码"三部分构成的端到端多模态模型。

下面是 MinerU 功能模块的详细介绍。

🧩 MinerU核心能力模块

功能模块	核心能力	技术实现与特点
📄 版面分析与阅读排序	智能识别文档中的标题、段落、图片、表格、页眉、页脚、脚注、目录等元素，并按人类阅读习惯（而非物理位置）排序输出。	集成自研的 `doclayout_yolo` 布局检测模型和 `layoutreader` 阅读顺序排序模块，处理单栏、多栏、跨页等复杂布局能力强、速度快。
📐 表格解析	精准识别复杂表格结构（包括无边框表格、合并单元格、旋转表格），并能解析表格内的文本和数字。	支持 `StructTable-InternVL2-1B` 和 `TableMaster` 等多个表格模型，可输出 `HTML` 格式，方便程序直接读取。
📐 公式识别	自动识别文档中的行内和行间公式，并将其精准转换为 `LaTeX` 格式代码。	采用 `UniMERNet` 公式解析引擎，能处理复杂数学符号、化学分子式等科学数据，准确率领先。
🔍 光学字符识别（OCR）	针对扫描版PDF、图片型文档或乱码PDF，自动开启OCR功能，将图像中的文字识别为可编辑文本。	基于 `PaddleOCR` 引擎，支持 84-109种语言的检测与识别，包括中、英、日、韩等。
🖼️ 图像与图表提取	将文档中的内嵌图片、图表、图示等元素无损提取并单独保存为文件，同时会提取图表的标题和描述文字。	优化了图、表与描述文本的匹配逻辑，能准确将标题（如"图1"）和脚注与对应的图表关联起来。
⚙️ 多模态融合与解析	核心的"大脑"模块，将视觉特征（布局）与文本特征（语义）进行协同处理，实现端到端的文档理解，避免传统OCR流水线式的误差累积。	采用 "视觉编码-多模态融合-任务解码" 的三明治架构。通过交叉注意力机制，让模型"看懂"文档的布局，而不仅仅是识别文字。

🚀 技术架构与先进特性

混合后端 (hybrid backend) ：自 v2.7.0 版本起引入，融合了传统 Pipeline 与 VLM 的优势。文本型PDF直接抽取原生文本，扫描版则自动调用OCR，兼顾精度与效率。
原生高分辨率技术 (Native-Res ViT)：MinerU 2.0版本采用的新技术，可直接处理原始高清图像而无需压缩或裁剪，确保公式中的角标、密集表格等关键细节被完整捕捉。
硬件高效与多平台支持 ：模型参数极小（如 0.9B），在消费级GPU（如NVIDIA 4090）上即可流畅运行。同时支持纯CPU环境，以及GPU (CUDA)、NPU (CANN) 和 MPS 加速。
自动模型管理：从2.0版本开始，MinerU 提供了模型自动下载与更新机制，无需用户手动配置和干预，极大地降低了使用门槛。
统一中间格式 ：采用标准化的 middle_json 格式作为内部数据结构，方便开发者进行二次开发和集成，也确保了生态业务的平滑迁移。

🛠️ 服务与部署形态

MinerU 提供了多种使用方式，以适应不同用户和场景的需求：

服务形态	适用场景	特点
命令行工具 (CLI)	开发者、脚本自动化	本地运行，灵活集成到工作流，支持GPU/CPU加速。
开源库 (SDK)	Python开发者、RAG应用	通过 `import mineru` 直接调用，可深度集成到LangChain等框架。
API服务	企业应用、云端集成	内测中，提供标准的RESTful API，便于与业务系统对接。
桌面客户端	个人用户、科研工作者	提供图形化界面，开箱即用，无需配置环境。
Docker容器	生产环境、私有化部署	环境一致，易于编排和弹性伸缩。支持vLLM加速和Gradio WebUI界面。

📂 输入与输出

支持输入格式：PDF, DOC, DOCX, PPT, PPTX, PNG, JPG, JPEG，以及在线PDF文件的URL。
支持输出格式 ：
- 默认输出：Markdown (md) 和 JSON。
- 可选输出：HTML, DOCX, LaTeX (tex)，以及提取出的所有图片文件。

另外一个工具：PaddleOCR、MMOCR

上一篇：定时器电路深度解析：从经典555到STM32定时器，从ZLinear采集卡的工程化设计实战

下一篇：3D卡通与写实数字人制作，AI数字人公司厂商重塑品牌形象升级

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 052026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？06GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 大模型 & AI 编程工具实战全总结 09几个好用的ip纯净度检测网站 10国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）