多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试

多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。

模型架构

如下图,模型结构和qwenvl一致,vit+patch_merger+LLM(qwen3-0.6B)组装。

case测试

https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo

简单测两个case,问题依旧表现在:

  • 端到端到解析能力(ocr):表格单元格对齐、合并等问题,文字大面积重复问题

  • 端到端到解析能力(ocr+定位):定位不准,幻觉等问题。

  • case1:

结果:

  • case2:

结果:

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

...

参考文献

相关推荐
小饕1 分钟前
从 Word2Vec 到多模态:词嵌入技术的演进全景
人工智能·算法·机器学习
上海云盾第一敬业销售1 分钟前
生成式AI催生深度伪造攻击,WAF如何识别“假流量“?
人工智能
ykjhr_3d3 分钟前
数字工具AI智能学伴,助力教育数字化转型
大数据·人工智能·ai·ai人工智能·华锐视点·华锐云空间
LIUAWEIO5 分钟前
鸽鸽工具网:免费在线工具大全,打开网页即用
人工智能·安全·ai·json
动恰客流管家8 分钟前
动恰3DV3丨客流统计系统:旺季人手不够淡季闲人太多?客流统计帮你科学优化人力成本
大数据·运维·人工智能·3d
吻等离子12 分钟前
机器学习基本概念篇(含思维导图)
人工智能·机器学习
乐维_lwops12 分钟前
智变2026:中国IT运维管理软件行业全景洞察——从AI重塑到信创深水区
运维·人工智能
Hui_AI72014 分钟前
基于RAG的农产品GEO溯源智能问答系统实现
开发语言·网络·人工智能·python·算法·创业创新
Java后端的Ai之路19 分钟前
什么是“多模态微调”?
人工智能·lora·微调
沫儿笙20 分钟前
机器人焊接混合气智能节气装置
人工智能·机器人