多模态文档解析开源进展：端到端OCR模型LightOnOCR-2-1B架构、效果测试

余俊晖2026-01-25 15:15

多模态OCR赛道依旧卷，继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列，按照之前的划分（文档智能解析方案总结进展更新（含ocr-pipline、layout+VLM+纯多模态端到端解析）），这是一个端到端的模型，这个模型开源了其两个用于训练的开放标注数据集：lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面，另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注，包括图形和图像的边界框。

模型架构

如下图，模型结构和qwenvl一致，vit+patch_merger+LLM（qwen3-0.6B）组装。

case测试

https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo

简单测两个case，问题依旧表现在：

端到端到解析能力（ocr）：表格单元格对齐、合并等问题，文字大面积重复问题
端到端到解析能力（ocr+定位）：定位不准，幻觉等问题。
case1：

结果：

case2：

结果：

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》，如：

...

参考文献

上一篇：友昊天创推出8K ，4K 120Hz 100米延长器方案

下一篇：战略洞察：AI 赋能三医领域的平台架构分析报告

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026 年 AI 大模型 & AI 编程工具实战全总结 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……