多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试

多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。

模型架构

如下图,模型结构和qwenvl一致,vit+patch_merger+LLM(qwen3-0.6B)组装。

case测试

https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo

简单测两个case,问题依旧表现在:

  • 端到端到解析能力(ocr):表格单元格对齐、合并等问题,文字大面积重复问题

  • 端到端到解析能力(ocr+定位):定位不准,幻觉等问题。

  • case1:

结果:

  • case2:

结果:

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

...

参考文献

相关推荐
JoySSLLian3 小时前
手把手教你安装免费SSL证书(附宝塔/Nginx/Apache配置教程)
网络·人工智能·网络协议·tcp/ip·nginx·apache·ssl
BestSongC3 小时前
行人摔倒检测系统 - 前端文档(1)
前端·人工智能·目标检测
模型时代3 小时前
Anthropic明确拒绝在Claude中加入广告功能
人工智能·microsoft
夕小瑶3 小时前
OpenClaw、Moltbook爆火,算力如何48小时内扩到1900张卡
人工智能
一枕眠秋雨>o<3 小时前
透视算力:cann-tools如何让AI性能调优从玄学走向科学
人工智能
那个村的李富贵3 小时前
昇腾CANN跨行业实战:五大新领域AI落地案例深度解析
人工智能·aigc·cann
集简云-软件连接神器3 小时前
技术实战:集简云语聚AI实现小红书私信接入AI大模型全流程解析
人工智能·小红书·ai客服
松☆3 小时前
深入理解CANN:面向AI加速的异构计算架构
人工智能·架构
rainbow7242443 小时前
无基础学AI的入门核心,从基础工具和理论开始学
人工智能
子榆.3 小时前
CANN 与主流 AI 框架集成:从 PyTorch/TensorFlow 到高效推理的无缝迁移指南
人工智能·pytorch·tensorflow