开源的7B参数OCR视觉大模型:RolmOCR

1. 背景介绍

早些时候,Allen Institute for AI 发布了 olmOCR ,这是一个基于 Qwen2-VL-7B 视觉语言模型(VLM)的开源工具,用于处理 PDF 和其他复杂文档的 OCR(光学字符识别)。开发团队对该工具的高质量和开源特性感到兴奋,并探索了如何利用更新的基础模型和一些轻量级优化来进一步改进它。

2. RolmOCR 的发布

开发团队开发了 RolmOCR ,作为 olmOCR 的替代方案。它具有以下特点:

  • 更快:处理速度更快。
  • 内存占用更低:减少了显存和内存的使用。
  • 兼容性广:在多种文档类型上表现良好。

RolmOCR 基于 Qwen/Qwen2.5-VL-7B-Instruct 模型,并在 allenai/olmOCR-mix-0225 数据集上进行了微调。开发团队将其开源,采用 Apache 2.0 许可证,供任何人试用、探索或进一步开发。

3. 关键改进

开发团队在 olmOCR 的基础上进行了以下三项关键改进:

3.1 新基础模型

开发团队使用了更近期的 Qwen2.5-VL-7B 模型作为基础,替换了原来的模型。

3.2 不使用元数据输入

olmOCR 不同,开发团队不再使用从 PDF 中提取的元数据。这一改进显著减少了提示(prompt)的长度,从而降低了处理时间和显存占用,同时在大多数情况下保持了准确性。

3.3 数据集旋转

开发团队对训练数据进行了约 15% 的旋转处理,以增强模型对倾斜文档的鲁棒性。其他训练数据保持不变。

4. 使用方法

4.1 部署模型

开发团队建议使用 vLLM 部署 RolmOCR

python 复制代码
export VLLM_USE_V1=1
vllm serve reducto/RolmOCR

5. 局限性

尽管 RolmOCR 在 OCR 方面表现出色,但它仍存在以下局限性:

  • 幻觉或内容丢失 :与其他基于 VLM 的 OCR 解决方案类似,RolmOCR 可能会出现幻觉(生成不存在的内容)或遗漏部分内容。

  • 无布局边界框输出 :与 Reducto Parsing API 不同,RolmOCR 无法输出文档的布局边界框。

  • 未评估量化版本 :开发团队尚未对 RolmOCR 的量化版本进行性能评估。

相关推荐
struggle20253 分钟前
Sim Studio 是一个开源的代理工作流程构建器。Sim Studio 的界面是一种轻量级、直观的方式,可快速构建和部署LLMs与您最喜欢的工具连接
人工智能·开源·deepseek
武子康12 分钟前
大语言模型 06 - 从0开始训练GPT 0.25B参数量 - MiniMind 实机配置 GPT训练基本流程概念
人工智能·gpt·ai·语言模型·自然语言处理
CodeJourney.14 分钟前
基于DeepSeek与HTML的可视化图表创新研究
数据库·人工智能·信息可视化·excel
IT古董1 小时前
【漫话机器学习系列】234.阈值类特征的方差分析(Thresholding Categorical Feature Variance)
人工智能·python·机器学习
多巴胺与内啡肽.1 小时前
OpenCV进阶操作:图像直方图、直方图均衡化
人工智能·opencv·计算机视觉
白熊1881 小时前
【计算机视觉】3d人脸重建:3DDFA_V2:实时高精度3D人脸重建与密集对齐技术指南
人工智能·计算机视觉·3d
phoenix@Capricornus1 小时前
神经网络发展的时间线——积跬步至千里
人工智能·深度学习·神经网络
VI8664956I263 小时前
海外社交软件技术深潜:实时互动系统与边缘计算的极限优化
人工智能·实时互动·边缘计算
每天都要写算法(努力版)3 小时前
【神经网络与深度学习】生成模型-单位高斯分布 Generating Models-unit Gaussian distribution
人工智能·深度学习·神经网络·生成模型
何似在人间5753 小时前
LangChain4j +DeepSeek大模型应用开发——7 项目实战 创建硅谷小鹿
java·人工智能·ai·大模型开发