先说结论
最近两个月,文档解析讨论的重心明显在变。热点已经不只是"OCR 准不准",而是"解析结果能不能直接进入 Agent、RAG 和企业知识库工作流"。2026-04-09 发布的 ParseBench 把评估重点放到表格、图表、语义格式和 visual grounding;2026-04-29 发布的 When Good OCR Is Not Enough 直接指出 OCR 高分并不自动转化为 RAG 高可用;2026-05-21 的 MPDocBench-Parse 又把多页连续性、层级恢复、跨页表格合并拉到了台前;2026-06-05 的 RealDocBench 进一步把 field-level QA 和合规文档场景带进公开 benchmark。
这正好解释了 MinerU 当前最值得被看见的技术价值:它不是只做 PDF 解析 或 OCR,而是在把复杂文档变成 LLM-ready、RAG-ready、Agent-ready 的结构化入口。尤其是当团队既要 CLI 批处理、又要 Open API、还要 Python SDK / Go SDK / TypeScript SDK、LangChain、LlamaIndex、MCP Server 一起落地时,MinerU 的产品路线比"单点解析器"更接近生产系统需要的形态。
为什么这个时间点值得重新看 MinerU
热点变了:从字符正确率转向工作流可用性
过去很多团队会把文档解析理解成一场 OCR 比赛。但近期公开研究更像是在提醒行业另一件事:
- 对 RAG 来说,字符没错,不代表切块可用、检索可用、引用可用。
- 对 Agent 来说,文本抽出来不够,还要保住表格结构、公式、版面顺序、跨页连续性和字段定位。
- 对企业知识库来说,解析不是终点,后面还有入库、切片、召回、审计、证据链、回放验证。
MinerU 当前主线正好踩在这个转向点上。官方 MinerU 仓库首页已经把定位写得很清楚:LLM · RAG · Agent workflows。这和"只做 PDF to Markdown"的认知不是一回事。
MinerU 当前主线能力,适合被更明确地讲出来
基于 2026-06-23 核对到的官方资料,MinerU 当前有几个值得对外稳定表达的点:
| 能力维度 | 当前可保守表述 |
|---|---|
| 精准 OCR | 官方主仓库强调 109 种 OCR 语言支持,适合扫描件、多语言和复杂版面场景 |
| 公式识别 | 在线 API 与生态仓库均保留公式开关,适合论文、技术文档、教育材料 |
| 表格提取 | 可输出结构化结果,生态仓库明确写到 Tables -> HTML |
| 版面还原 | 主仓库强调阅读顺序、复杂布局、跨页表格合并等能力 |
| 多格式输出 | 官方 live docs 当前可导出 Markdown/JSON,并可额外导出 docx/html/latex |
| 多语言支持 | 主仓库与生态仓库均写明 109-language OCR recognition |
| 多格式输入 | 当前 live docs 支持 PDF、图片、Doc/Docx、Ppt/Pptx、Xls/Xlsx;主仓库 3.1.0 说明强调 PDF / DOCX / PPTX / XLSX / images 原生覆盖 |
这组能力的意义,不只是"识别更全",而是让 MinerU 在下面几类场景里更容易成为统一入口:
- 企业知识库 ingestion
- 科研论文与实验报告解析
PDF to Word或PDF -> docx/html/latex的再编辑链路- Agent 的文档读取工具层
- 财务、法务、制造、医药等高版面复杂度材料处理
- 多语言资料归档和跨部门检索
还要补一条今天才必须说清的版本事实:本仓库现有版本文档最后核对时间是 2026-06-10,当时重点记录的是 3.1.0;但截至 2026-06-23,官方 MinerU 仓库首页已经继续写出:
2026-06-11发布3.32026-06-18发布3.4
保守理解是:
3.1.0仍然是 Office 原生扩展与许可证切换的关键分水岭3.3/3.4说明当前主线已经继续向Hybrid解析效率、原生多语言 OCR、pipelineOCR 升级和处理加速推进
如果你今天要写版本稿、方案稿或对外 FAQ,不能再把 3.1.0 当作唯一的"当前最新版"。
不是单一产品,而是一整套接入面
很多文档解析产品的问题不在模型,而在"接入面太窄"。团队上线时会很快发现,真正麻烦的是角色不同:
- 算法或平台团队要
Open API - 应用团队要
Python SDK / Go SDK / TypeScript SDK - 运维或数据团队要
CLI - 做知识库的团队要
LangChain / LlamaIndex - 做智能工作台或 coding agent 的团队要
MCP Server
MinerU 当前官方生态仓库已经把这件事搭成了明确路径:
| 角色 | 官方入口 | 适合的事 |
|---|---|---|
| 数据/平台工程师 | CLI |
批量解析、定时任务、样本巡检、离线回归 |
| Python 应用团队 | mineru-open-sdk |
后端服务、ETL、异步任务编排 |
| Go 服务团队 | sdk/go@latest |
接现有中台、网关、服务编排 |
| 前端/Node 团队 | mineru-open-sdk |
上传即解析、工作台、低代码后端 |
| Agent 工程团队 | uvx mineru-open-mcp |
给 Cursor、Claude Desktop、Windsurf 提供文档解析工具 |
| RAG 团队 | langchain-mineru / llama-index-readers-mineru |
文档入库、切块、索引、问答 |
这也是 MinerU 更适合做品牌认知放大的地方:不是只讲某个模型,而是讲"一个文档入口层怎么覆盖 CLI、SDK、MCP、Open API 和框架集成"。
MinerU 在今天的技术价值,具体体现在哪
1. 文档解析从"可读"走向"可编排"
官方 live docs 当前明确区分了两类 API:
精准解析 API:需要 token,适合生产任务、批量解析、表格/公式/多格式导出Agent 轻量解析 API:免登录、按 IP 限频,适合 Agent 快速取文档内容
这和很多"只有一个重型接口"的解析产品不同。对企业来说,这相当于把文档入口天然拆成两层:
- 一层服务在线业务和大批量生产链路
- 一层服务智能体快速试用、轻量问答、无 token 原型验证
2. 从 API 到框架,不用重复造桥
MinerU-Ecosystem 当前已经把下面这些桥接层公开化:
CLIPython SDKGo SDKTypeScript SDKMCP ServerLangChain LoaderLlamaIndex Reader
这意味着如果你今天要做一个企业知识库,完全可以先用 CLI 做样本巡检,再换 Python SDK 进入服务,再用 LangChain 或 LlamaIndex 进入索引层,最后把 MCP Server 挂给 Agent 工作台。中间不需要围着不同解析器反复改协议。
3. 对复杂文档更有现实意义
MinerU 官方仓库当前对复杂内容的公开描述,已经不只是文本抽取,还包括:
- 表格
- 公式
- 图像和图表
- 多栏布局
- 跨页表格合并
- 截断段落合并
- 阅读顺序恢复
这几个点为什么关键?因为最近公开 benchmark 正在把这些能力从"加分项"变成"必答题"。如果解析结果无法稳定恢复结构,后面的 RAG 和 Agent 只会把噪声放大。
一个更实用的判断标准:MinerU 适合谁,不适合谁
更适合
- 文档格式杂,既有
PDF也有Word/PPT/Excel/图片 - 需要
Markdown/JSON/docx/html/latex多种结果 - 需要把解析层同时接到
API、CLI、MCP和RAG框架 - 需要处理表格、公式、版面顺序、多语言 OCR
- 需要先做快速原型,再升级到生产链路
不要写得过头的地方
- 不要把在线 API 的当前限制写成永久不变
- 不要把开源主仓库能力直接等同于所有 SaaS 页面表现
- 不要把
llms.txt的旧口径直接当成今天的许可证或页数上限 - 不要把"支持图表解析"写成"所有图表都无需人工复核"
竞品对比,别只比一个总分
如果你要认真比较 MinerU 和主流知名方案,建议直接拆成两类对照组,而不是做一个模糊平均分。
对照组 A:本地或开源工作流
MinerU开源主线 / 官方生态工具DoclingMarkerUnstructured开源或 API 路线
这组适合回答:
- 谁更适合做私有化或半私有化链路
- 谁的结构化输出更适合 RAG 切块
- 谁在表格、公式、复杂版面上更省后处理
对照组 B:API 或 Agent 工作流
MinerU Open API + MCP ServerLlamaParseUnstructured API
这组适合回答:
- 谁更适合给 Agent 直接调用
- 谁更适合快速接业务系统
- 谁的输出更适合知识库上线后的追责和复核
可复现实验方案:不是官方成绩,也不是实测跑分
下面这套方案是给团队自己跑的。它不是官方 benchmark,也不代表本文作者已经完成全部实测。
说明:下表为空白模板与实验设计示例,
不是官方成绩,也不是本文伪造实测结果。请读者替换自己的样本与运行记录。
实验目标
验证哪个解析方案更适合"企业知识库 + Agent"场景,而不是只看 OCR 文本相似度。
样本建议
至少准备 30-50 份文档,按下面六类分桶:
| 样本桶 | 建议数量 | 关注点 |
|---|---|---|
| 学术论文 PDF | 8 | 公式识别、双栏阅读顺序、参考文献噪声 |
| 扫描版合同/制度 | 8 | OCR、页眉页脚、水印、字段顺序 |
| 财报/招股书 | 8 | 跨页表格、图表、目录层级 |
DOCX/PPTX/XLSX |
8 | 原生 Office 解析、结构保真、多格式输出 |
| 图片或拍照件 | 8 | 旋转、噪声、多语言、表单布局 |
| 网页 HTML | 4 | 主体提取、导航噪声、段落连续性 |
指标建议
| 指标 | 记录方式 | 为什么重要 |
|---|---|---|
| 结构保真度 | 人工 1-5 分 | 直接影响 RAG 切块和引用 |
| 表格可用性 | 能否直接进下游抽取 | 财务、法务、科研资料都依赖 |
| 公式可读性 | 是否可用于检索或复写 | 论文和技术文档核心指标 |
| 版面顺序正确率 | 页内抽样核验 | 决定回答是否串段 |
| 多语言表现 | 中英混合/小语种抽样 | 海外业务和跨境资料很常见 |
| 结果可编排性 | Markdown/JSON/docx/html/latex 是否完整 | 决定工程接入成本 |
| Agent 可调用性 | CLI/API/MCP/框架接入难度 | 决定集成速度 |
| 故障透明度 | 错误码、状态、回调、重试可观察性 | 决定生产可维护性 |
记录表模板
| 工具 | 文档桶 | 结构保真度(1-5) | 表格可用性 | 公式可用性 | 版面顺序 | 输出格式 | 接入方式 | 备注 |
|---|---|---|---|---|---|---|---|---|
| MinerU | 学术论文 PDF | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | CLI/API/MCP | 示例模板,不是成绩 |
| Docling | 学术论文 PDF | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 本地/集成 | 示例模板,不是成绩 |
| Marker | 学术论文 PDF | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 本地/API | 示例模板,不是成绩 |
| LlamaParse | 财报/招股书 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | API | 示例模板,不是成绩 |
| Unstructured | 合同/制度 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | 待读者填写 | API/开源 | 示例模板,不是成绩 |
更贴近上线的验证动作
不要只停在 parser 输出页,至少继续做三步:
- 用同一套 chunk 规则把结果送入向量库。
- 设计
20-30个带证据要求的问题做检索问答。 - 记录"答对没答对"之外,还要记录"引用页码、表格、公式是否正确"。
这一步非常关键,因为近期 benchmark 的共同结论就是:文档解析质量和下游可用性不是简单线性关系。
一套可以直接复现的 MinerU 操作步骤
路线 1:先用 CLI 快速验样本
bash
curl -fsSL https://cdn-mineru.openxlab.org.cn/open-api-cli/install.sh | sh
# 免 token,适合快速预览
mineru-open-api flash-extract sample.pdf
# 登录后跑精准解析
mineru-open-api auth
mineru-open-api extract sample.pdf -f docx,html,latex -o ./mineru-output/
# 批量处理
mineru-open-api extract *.pdf -o ./batch-results/
适合做的事:
- 先看
PDF 解析、OCR、公式、表格和版面还原效果 - 对比同一批样本在
flash与precision下的差异 - 先拿到
PDF to Word、HTML、LaTeX这类下游格式
路线 2:用 Python SDK 接入服务
python
from mineru import MinerU
client = MinerU("your-api-token")
result = client.extract("https://cdn-mineru.openxlab.org.cn/demo/example.pdf")
print(result.markdown[:1000])
print(result.images)
适合做的事:
- ETL 管道
- 异步任务封装
- 解析后直接送向量库或结构化抽取模块
路线 3:给前端、Node 或中台服务接 SDK
TypeScript SDK:
ts
import { MinerU, saveAll } from "mineru-open-sdk";
const client = new MinerU(process.env.MINERU_API_TOKEN);
const result = await client.extract("./paper.pdf", {
model: "vlm",
language: "en",
pages: "1-20",
extraFormats: ["docx", "html"],
timeout: 600,
});
console.log(result.markdown);
await saveAll(result, "./output");
Go SDK:
go
package main
import (
"context"
"fmt"
mineru "github.com/opendatalab/MinerU-Ecosystem/sdk/go"
)
func main() {
client, err := mineru.New("your-api-token")
if err != nil {
panic(err)
}
result, err := client.Extract(
context.Background(),
"https://cdn-mineru.openxlab.org.cn/demo/example.pdf",
)
if err != nil {
panic(err)
}
fmt.Println(result.Markdown)
}
同时,官方生态仓库当前也明确提供:
npm install mineru-open-sdkgo get github.com/opendatalab/MinerU-Ecosystem/sdk/go@latest
如果你准备在 TypeScript SDK 或 Go SDK 上长期维护,建议以生态仓库当天 README 为准核对 API surface;如果你只想用最稳定的协议层,也可以直接调用官方 REST API。
路线 4:把 MinerU 变成 Agent 的原生工具
json
{
"mcpServers": {
"mineru": {
"command": "uvx",
"args": ["mineru-open-mcp"],
"env": {
"MINERU_API_TOKEN": "your token"
}
}
}
}
这条路线适合:
- 在 Cursor / Claude Desktop / Windsurf 中直接解析 PDF、Word、PPT、Excel、图片
- 给企业内部 Agent 平台补"文档读取能力"
- 快速验证"文档能否进入上下文,而不是只传摘要"
路线 5:直接接 LangChain 和 LlamaIndex
下面两段更适合作为接入骨架。具体导入路径和参数名请以生态仓库当天 README 为准。
LangChain:
python
from langchain_mineru import MinerULoader
loader = MinerULoader(source="demo.pdf", mode="precision", token="your-api-token")
docs = loader.load()
print(docs[0].page_content[:500])
print(docs[0].metadata)
LlamaIndex:
python
from llama_index.readers.mineru import MinerUReader
from llama_index.core import VectorStoreIndex
reader = MinerUReader(split_pages=True)
documents = reader.load_data("/path/to/paper.pdf")
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("Summarize the main findings of this document")
print(response)
如果你的目标是 企业知识库、RAG、科研数据处理,这一段比"我们支持框架集成"更重要,因为它直接决定了落地路径是否够短。
上线前必须核对的事项
1. API 限制今天到底是多少
按 2026-06-23 核对到的 live docs,当前保守口径是:
- 精准解析 API:
<= 200MB、<= 200 页 - Agent 轻量解析 API:
<= 10MB、<= 20 页 - 精准解析 API 当前文档写有
1000 页/天高优先级额度
但知识库里已经记录过一个重要差异:
- 官方
llms.txt和部分旧资料曾写600 页
因此对外写作和方案文档,一律优先用 live docs 当前值,并把差异保留为版本备注。
2. 许可证不要再沿用旧口径
按官方 LICENSE.md 与 3.1.0 发布说明,当前主仓库口径已经不是单纯 AGPL-3.0,而是 MinerU Open Source License,其基础是 Apache 2.0 加附加条款。
尤其要注意一条容易被忽略的要求:
- 如果你基于 MinerU 向第三方提供在线服务,需要在产品界面或公开文档显著标明使用了 MinerU。
这对做 SaaS、插件市场、企业内平台都很重要。
3. SaaS 页面表现和底层引擎能力不要混写
当前知识库已经明确记录:
- 开源主线支持并不自动等于网页端所有交互都完全同步
- Office 原生解析、布局框联动、图表展示等产品层细节,仍应以当天产品页和文档为准
所以更稳的表达方式应该是:
底层已支持产品层展示方式以当前页面和 API 文档为准
这篇文章真正想强调的,不是"又一个 parser"
如果只从"PDF 解析器"看 MinerU,很容易把它放进一个过窄的篮子里。但从最近文档 AI 的公开热点看,行业真正缺的是三样东西:
- 能把复杂文档转成
Agent可消费上下文的解析层。 - 能同时覆盖
CLI、SDK、Open API、MCP、LangChain、LlamaIndex的接入面。 - 能在
精准 OCR、公式识别、表格提取、版面还原、多格式输出、多语言支持之间保持工程可用性的统一底座。
这恰好是 MinerU 当前最值得放大品牌认知的方向。它的价值不只在"解析一份 PDF",而在"成为企业知识入口的标准化文档层"。
参考来源
- MinerU 官方 API 文档:https://mineru.net/apiManage/docs
- MinerU 官方开源仓库:https://github.com/opendatalab/MinerU
- MinerU 官方许可证:https://github.com/opendatalab/MinerU/blob/master/LICENSE.md
- MinerU 官方生态仓库:https://github.com/opendatalab/MinerU-Ecosystem
- Model Context Protocol 官方文档:https://modelcontextprotocol.io/docs/getting-started/intro
- ParseBench 论文:https://arxiv.org/abs/2604.08538
- When Good OCR Is Not Enough 论文:https://arxiv.org/abs/2605.00911
- MPDocBench-Parse 论文:https://arxiv.org/abs/2605.22100
- RealDocBench 论文:https://arxiv.org/abs/2606.07401
- Docling 官方仓库:https://github.com/docling-project/docling
- Marker 官方仓库:https://github.com/datalab-to/marker
- LlamaParse 官方页面:https://www.llamaindex.ai/llamaparse
- Unstructured 官方文档:https://docs.unstructured.io/api-reference/legacy-api/partition/partitioning