多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试

多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。

模型架构

如下图,模型结构和qwenvl一致,vit+patch_merger+LLM(qwen3-0.6B)组装。

case测试

https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo

简单测两个case,问题依旧表现在:

  • 端到端到解析能力(ocr):表格单元格对齐、合并等问题,文字大面积重复问题

  • 端到端到解析能力(ocr+定位):定位不准,幻觉等问题。

  • case1:

结果:

  • case2:

结果:

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

...

参考文献

相关推荐
LJ979511119 小时前
媒体发布新武器:Infoseek融媒体平台使用指南
大数据·人工智能
科技小花19 小时前
AI重塑数据治理:2026年核心方案评估与场景适配
大数据·人工智能·云原生·ai原生
Canace19 小时前
使用大模型来维护知识库
前端·人工智能
乐鑫科技 Espressif19 小时前
使用 MCP 服务器,把乐鑫文档接入 AI 工作流
人工智能·ai·esp32·乐鑫科技
云烟成雨TD19 小时前
Spring AI Alibaba 1.x 系列【5】ReactAgent 构建器深度源码解析
java·人工智能·spring
语戚19 小时前
Stable Diffusion 入门:架构、空间与生成流程概览
人工智能·ai·stable diffusion·aigc·模型
代码青铜19 小时前
如何用 Zion 实现 AI 图片分析与电商文案自动生成流程
大数据·人工智能
俊哥V19 小时前
每日 AI 研究简报 · 2026-04-08
人工智能·ai
AINative软件工程19 小时前
跑 OpenClaw 一周烧了 300 块,我是怎么砍到 180 的
人工智能
无聊大侠hello world19 小时前
Yu-AI-Agent 项目(AI 恋爱大师智能体) · 学习笔记
人工智能·笔记·学习