多模态文档解析后处理开源模型:MinerU-Popo方案思路提升RAG性能

目前各类的文档解析方案(VLM-OCR)都是基于【单页】文档进行解析,输出每页文字、表格、图片+坐标框,但存在4类跨页缺点:

  1. 段落跨页被分页切割、文本断裂;
  2. 大表格分页拆分,上下表身割裂;
  3. 多级标题(一级/二级/三级标题)层级混乱、从属关系丢失;
  4. 插图和对应正文分离,图文无法绑定。

在RAG场景,需要全书/文档连贯的文档级结构化数据

MinerU-Popo是一个后处理方案,在不改动原有VLM-OCR模型后对文档级结构进行重构。

方法架构

整体方案针对4类跨页缺点基于Qwen3-VL-4B构造4个任务各自独立数据集进行微调。对于【跨页文本截断、表格截断】,定义成二分类任务;

对于【标题层级重构】,定义成开放层级(1、2、3...n)预测;

图文关联匹配(图片和图注 / 正文描述分散在不同页面,绑定图文)】,预测文字与其关联的图像或表格。

最终四项任务全部跑完后,所有零散页面元素被组装为文档树结构

全书(H0)→一级标题H1→二级H2→(段落/完整表格/绑定图片),直接适配RAG知识库入库。

实验评测

参考文献

MinerU-Popo: Universal Post-Processing Model for Structured Document Parsing,https://arxiv.org/abs/2605.24973

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

...

相关推荐
Deepoch1 小时前
Deepoc VLA开发板:实现采摘机器人动态生物适应与精准作业
大数据·人工智能·机器人·采摘机器人·deepoc
じ☆冷颜〃1 小时前
Picard–Lindelöf定理在CS中的应用:理论框架与算法基础
人工智能·经验分享·笔记·算法·机器学习
云烟成雨TD1 小时前
Spring AI 1.x 系列【40】MCP 客户端 Spring Boot 启动器
人工智能·spring boot·spring
糖果店的幽灵1 小时前
Spring AI 从入门到精通-Spring AI 是什么
java·人工智能·spring
不知名的老吴1 小时前
机器学习评价之基础指标
人工智能·算法·机器学习
申通之声1 小时前
3年稳定率90%+:申通五星管理经
大数据·人工智能·交通物流
陕西企来客1 小时前
西安豆包获客技巧深度解析:核心问题与原因分析
人工智能
超人也会哭️呀1 小时前
视觉模型中的坐标漂移
人工智能·ai·llm·ocr·vlm·视觉模型·dots.ocr