多模态文档解析新思路:MinerU-Diffusion通过扩散解码进行文档OCR

继续跟进【文档智能】解析进展。在前期介绍了非常多的多模态视觉语言模型在OCR场景的方法思路,在模型架构上,基本都是vit+MLP+LLM的框架,以自回归(AR)【即文本以从左到右、逐个词元的方式生成。】的方式进行OCR解码,存在顺序延迟问题,其延迟与文档长度呈线性关系。AR的因果生成导致错误传播,即初始错误会在输出中逐级放大。

如上图,MinerU-Diffusion引入了一种不同的范式,将文档OCR重构为一个逆向渲染问题。该框架不一次预测一个序列,而是使用一个并行的基于扩散的解码器。通过将文档视为一个空间耦合的离散随机场,MinerU-Diffusion旨在直接从视觉特征重建结构化文本,从而确保高效率并以视觉输入为基础。

建模

把文档OCR建模为从2D文档图像到1D结构化token序列的逆渲染过程

y = ( y ( 1 ) , . . . , y ( L ) ) ∈ V L y=\left( y^{(1)},... ,y^{(L)}\right) \in \mathcal {V}^{L} y=(y(1),...,y(L))∈VL

  • y y y:统一结构化token,包含文本、布局标记、表格分隔符、数学符号;
  • 核心逻辑:token间的依赖来自文档空间布局/格式,而非固定的生成因果顺序;
  • OCR本质:基于视觉证据的后验推断 p ( y ∣ x ) p(y|x) p(y∣x),而非语言驱动的序列生成。

模型结构

这一块直接从代码看,整体架构分为三大核心组件:视觉编码器、视觉 - 语言投影器、SDAR 语言模型:

SDAR 语言模型基于扩散(Diffusion)机制生成文本,这个区别传统的多模态视觉语言模型自回归的方式,重点看一下。

复制代码
SDARModel
├── Token嵌入层 (Embedding):将文本token转为向量
├── N × SDARDecoderLayer:解码器层(核心计算单元)
├── SDARRMSNorm:归一化层(稳定训练)
└── SDARRotaryEmbedding:旋转位置编码(RoPE,支持长文本)

SDARForCausalLM:基座模型 + 语言模型头(LM Head)

核心创新:generate_with_embeds 方法 → 块级去噪扩散生成

  • 用掩码 token(MASK)占位待生成的文本
  • 分块、分步去噪,逐步把掩码 token 替换为生成 token
  • 比传统自回归生成速度更快、长文本效果更稳

实验

参考文献

MinerU-Diffusion: Rethinking Document OCR as Inverse

Rendering via Diffusion Decoding,https://arxiv.org/pdf/2603.22458

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

...

相关推荐
wuxinyan12313 小时前
工业级大模型学习之路011:RAG 零基础入门教程(第七篇):查询优化技术
人工智能·学习·rag
caijing36513 小时前
全方位解析建筑设备系统解决方案:提升建筑效率与安全的关键
大数据·人工智能·安全
code bean13 小时前
【LangChain】 输出解析器(Output Parsers)完全指南
大数据·人工智能·langchain
薛定猫AI13 小时前
Codex 与 Claude Code 安装配置完整教程(Windows/Mac/Linux)
人工智能
TDengine (老段)13 小时前
TDengine 集群拓扑深度解析 — 节点发现、EP 机制与负载均衡
大数据·数据库·人工智能·重构·负载均衡·时序数据库·tdengine
Kiyra13 小时前
异步任务不用 Kafka 也行:用 Redis Stream 搭一套轻量级 Producer/Consumer 框架
数据库·人工智能·redis·分布式·后端·缓存·kafka
城事漫游Molly13 小时前
定量研究设计清单:问卷、实验与变量操作化怎么做?
大数据·人工智能·算法·ai写作·论文笔记
涤生大数据13 小时前
大数据凉了?速看4月的就业数据新鲜出炉!AI时代岗位不会原地消失,而是岗位的标准会被逐步抬高
大数据·人工智能
七夜zippoe13 小时前
基于 JiuwenClaw AgentTeam 集群模式的年会策划实战:从源码部署到多智能体协作落地
人工智能·agent·openjiuwen·jiuwenclaw·agentteam
Soari13 小时前
科研绘图新纪元:深度拆解 3DCellForge,AI 驱动的交互式 3D 细胞建模神器
人工智能·3d·科研绘图·3dcellforg