多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。