【MLLM】文档多模态MinerU2.5-Pro模型

note

  • 创新点:1)留 MinerU2.5 的 1.2B 参数架构,主要改动点是训练数据从不足 1000 万页扩至 6550 万;2)对齐ppocr-vl,加了流程图解析;3)表格带图片、表格合并、段落合并功能。

文章目录

一、MinerU2.5-Pro模型

【文档多模态模型进展】MinerU2.5-Pro更新,主要特点是保留 MinerU2.5 的 1.2B 参数架构,主要改动点是训练数据从不足 1000 万页扩至 6550 万,工作报告在:MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale,https://arxiv.org/pdf/2604.04771,

代码在: https://github.com/opendatalab/MinerU,

模型权重在: https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B,

核心点:

1)看数据。

Step1.多样性与难度感知采样(DDAS)【先对全部PDF页面做ViT-Base嵌入+K-Means聚类,再做页面级与元素级双粒度采样;简单簇下采样、困难/小簇上采样,纠正长尾分布偏移,最终把训练数据从不足1000万页扩充到6550万页,覆盖复杂嵌套表格、稠密公式、非常规版式等高难度场景】

->Step2.跨模型一致性验证(CMCV)【用MinerU2.5、PaddleOCR-VL、Qwen3-VL-30B多个异构模型交叉验证,按文本编辑距离、表格TEDS、公式CDM计算一致性,自动划分三级难度:简单60%、中等25%、困难15%;简单/中等样本直接用多模型共识做可靠自动标注,不用人工】

->Step3.判别-精炼标注流水线【针对困难样本,采用"渲染→视觉对比→迭代修正"机制:把模型输出的LaTeX公式/HTML表格重新渲染成图像,和原图对比让模型直观识别错误,多轮迭代修正标注,提升难样本标注准确率】

->Step4.目标专家标注【对自动修正仍无法解决的极难样本,优先分配标注资源;用Gemini3Pro预标注+专业人员精修,最终产出19.2万条人工标注数据,只聚焦模型最薄弱、提升最大的场景】

->Step5.分层数据打包与供给【按数据质量与难度分层输出:6550万页易/中等样本用于大规模预训练;390万混合样本(含19.2万人工标注)用于难样本微调;19.2万高质量样本用于GRPO强化学习对齐】;

2)训练方式:

Step1.大规模预训练(Stage1)【使用数据引擎产出的6550万页简单+中等难度自动标注样本,覆盖文本、公式、表格、版面、图像分析全任务;全参数可训练,构建全面、均衡的文档解析基础能力,】

->Step2.高质量难样本微调(Stage2)【使用390万混合样本,其中包含19.2万条专家标注难样本,搭配不同比例的回放数据防止遗忘,重点强化复杂表格、稠密公式等困难场景】

->Step3.GRPO强化学习对齐(Stage3)【使用19.2万高质量专家标注样本,以文本编辑距离、公式CDM、表格TEDS、布局IoU为直接奖励】。

相关推荐
大鱼>14 天前
大语言模型+物联网:LLM理解物理世界
物联网·struts·语言模型·多模态·aiot
虎妞050017 天前
多模态大模型应用指南:从 GPT-4V 到开源方案
ai·多模态·视觉·gpt-4v·llava
汤姆yu17 天前
云知声 U2 原生智能体大模型深度解析
大数据·人工智能·算法·ai·大模型·多模态·智能体
kishu_iOS&AI18 天前
LLM —— 多模态(文本、图片、音频、视频)
人工智能·语音识别·多模态
troubles maker19 天前
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
llm·nlp·llama·多模态
君为先-bey21 天前
UniVidX——基于扩散先验的统一多模态视频生成框架
计算机视觉·多模态·扩散模型·视频生成
CV-deeplearning21 天前
阿里 mPLUG-Owl 三代进化史:从模块化多模态到长视频理解,CVPR Highlight + ICLR 收录,7B 模型吊打 12B 竞品
多模态大模型·阿里·视频理解·mllm·mplug-owl
HyperAI超神经22 天前
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模
人工智能·3d·大模型·多模态·空间推理·3d感知·3d理解
余俊晖23 天前
多模态文档解析后处理开源模型:MinerU-Popo方案思路提升RAG性能
人工智能·ocr·多模态
汤姆yu1 个月前
原生一体化多模态大模型技术研究
ai·大模型·多模态·智能体