【MLLM】文档多模态MinerU2.5-Pro模型

note

创新点：1）留 MinerU2.5 的 1.2B 参数架构，主要改动点是训练数据从不足 1000 万页扩至 6550 万；2）对齐ppocr-vl，加了流程图解析；3）表格带图片、表格合并、段落合并功能。

文章目录

note
一、MinerU2.5-Pro模型

一、MinerU2.5-Pro模型

【文档多模态模型进展】MinerU2.5-Pro更新，主要特点是保留 MinerU2.5 的 1.2B 参数架构，主要改动点是训练数据从不足 1000 万页扩至 6550 万，工作报告在：MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale，https://arxiv.org/pdf/2604.04771，

代码在: https://github.com/opendatalab/MinerU，

模型权重在: https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B，

核心点：

1）看数据。

Step1.多样性与难度感知采样（DDAS）【先对全部PDF页面做ViT-Base嵌入+K-Means聚类，再做页面级与元素级双粒度采样；简单簇下采样、困难/小簇上采样，纠正长尾分布偏移，最终把训练数据从不足1000万页扩充到6550万页，覆盖复杂嵌套表格、稠密公式、非常规版式等高难度场景】

->Step2.跨模型一致性验证（CMCV）【用MinerU2.5、PaddleOCR-VL、Qwen3-VL-30B多个异构模型交叉验证，按文本编辑距离、表格TEDS、公式CDM计算一致性，自动划分三级难度：简单60%、中等25%、困难15%；简单/中等样本直接用多模型共识做可靠自动标注，不用人工】

->Step3.判别-精炼标注流水线【针对困难样本，采用"渲染→视觉对比→迭代修正"机制：把模型输出的LaTeX公式/HTML表格重新渲染成图像，和原图对比让模型直观识别错误，多轮迭代修正标注，提升难样本标注准确率】

->Step4.目标专家标注【对自动修正仍无法解决的极难样本，优先分配标注资源；用Gemini3Pro预标注+专业人员精修，最终产出19.2万条人工标注数据，只聚焦模型最薄弱、提升最大的场景】

->Step5.分层数据打包与供给【按数据质量与难度分层输出：6550万页易/中等样本用于大规模预训练；390万混合样本（含19.2万人工标注）用于难样本微调；19.2万高质量样本用于GRPO强化学习对齐】；

2）训练方式：

Step1.大规模预训练（Stage1）【使用数据引擎产出的6550万页简单+中等难度自动标注样本，覆盖文本、公式、表格、版面、图像分析全任务；全参数可训练，构建全面、均衡的文档解析基础能力，】

->Step2.高质量难样本微调（Stage2）【使用390万混合样本，其中包含19.2万条专家标注难样本，搭配不同比例的回放数据防止遗忘,重点强化复杂表格、稠密公式等困难场景】

->Step3.GRPO强化学习对齐（Stage3）【使用19.2万高质量专家标注样本，以文本编辑距离、公式CDM、表格TEDS、布局IoU为直接奖励】。