多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试

多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。

模型架构

如下图,模型结构和qwenvl一致,vit+patch_merger+LLM(qwen3-0.6B)组装。

case测试

https://huggingface.co/spaces/lightonai/LightOnOCR-2-1B-Demo

简单测两个case,问题依旧表现在:

  • 端到端到解析能力(ocr):表格单元格对齐、合并等问题,文字大面积重复问题

  • 端到端到解析能力(ocr+定位):定位不准,幻觉等问题。

  • case1:

结果:

  • case2:

结果:

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》,如:

...

参考文献

相关推荐
SmartBrain2 小时前
战略洞察:AI 赋能三医领域的平台架构分析报告
人工智能·语言模型·架构
weilaikeqi11112 小时前
骏丰科技主动健康达人秀登上北京卫视,大健康行业迎需求重构
人工智能·科技·重构
larance2 小时前
方差和标准差
人工智能·算法·机器学习
努力毕业的小土博^_^2 小时前
【AI课程领学】第十二课 · 超参数设定与网络训练(课时1) 网络超参数设定:从“要调什么”到“怎么系统地调”(含 PyTorch 可复用模板)
人工智能·pytorch·python·深度学习·神经网络·机器学习
gongfuyd2 小时前
赵世钰《强化学习的数学原理》第十章重点总结
人工智能
水如烟2 小时前
孤能子视角:“宋“
人工智能
陈天伟教授2 小时前
人工智能应用-机器视觉:AI 鉴伪 08.虚假图片鉴别
人工智能·神经网络·数码相机·生成对抗网络·dnn
dixiuapp2 小时前
校园后勤管理平台,如何选择与规划
大数据·人工智能·工单管理系统·院校工单管理系统·物业报修系统
DS随心转APP3 小时前
ChatGPT和Gemini做表格
人工智能·ai·chatgpt·deepseek·ds随心转