5款视觉OCR开源模型

一、号称「世界上最好的 OCR 模型」Mistral OCR

Mistral OCR 擅长理解复杂的文档元素，包括交错图像、数学表达式、表格和高级布局（如 LaTeX 格式）。该模型可以更深入地理解丰富的文档，尤其是包含图表、图形、公式和数字的科学论文。

支持英语、中文、日语等 100 多种语言，满足全球用户的需求。并且提供结构化的 JSON 输出，可轻松与你的系统集成。更多内容请查阅法国大模型独角兽Mistral发布全新OCR文档解析模型，复杂表格识别超96%！

Code：Mistral OCR - Intelligent Text Recognition & Extraction

二、号称「最好用最易用的OCR工具」Umi-OCR

Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网，解压即用，支持截图、批量图片、PDF 扫描件的文字识别，能识别数学公式、二维码，可生成双层可搜索 PDF。

免费：本项目所有代码开源，完全免费。
方便：解压即用，离线运行，无需网络，适用于 Windows、Linux。
高效：自带高效率的离线OCR引擎，内置多种语言识别库。
灵活：支持命令行、HTTP接口等外部调用方式。

功能：截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别**。**

Umi-OCR 可以将纸质文档、书籍、合同等转换为可编辑的电子文本，提高文档存储和检索的效率。也可用于自动提取发票、报表、证件等文档中的数据，减少人工输入错误提高工作效率。

Code：GitHub - hiroi-sora/Umi-OCR: OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

三、号称「专注于复杂布局PDF文档解析」olmOCR

olmOCR 通过 Qwen2-VL-7B-Instruct 进行训练，专门针对 PDF 和文档图像提取干净、结构化的纯文本，并以 Markdown 格式输出，极大地提升了文本解析的精准度、可读性和可用性。模型在 100,000 多个 PDF 中的 260,000 页样本上进行训练，训练样本包括图形、手写文本和质量较差的扫描文件。

本地部署要求配置是RTX 4090及以上显卡，显存要大于20GB。更多内容请查阅手写笔记、复杂表格、学术公式不再识别错误？数据、模型及代码均开源

Code：GitHub - allenai/olmocr: Toolkit for linearizing PDFs for LLM datasets/training

四、号称「全能多模态解析王」GOT-OCR 2.0

来自清华和旷视的研究团队提出了一个通用的OCR-2.0模型，模型能够处理各种OCR任务中的上述所有类型的"字符"，是一个统一且优雅的端到端模型，包含高压缩编码器和长上下文解码器。能处理数学公式、分子式、图表、乐谱、几何图形等多种内容，并且模型大小仅1.43GB适合本地轻量化部署。

Code：GitHub - Ucas-HaoranWei/GOT-OCR2.0: Official code implementation of General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

五、号称「擅长表格识别」Surya OCR

Surya：多语言文档OCR工具包，可进行准确的文本行检测，即将推出文本识别功能，以及表格和图表检测功能，可以处理各种类型的文档和多种语言。其中主要针对表格识别进行优化：能精准识别表格的行、列、单元格结构，包括旋转或复杂布局的表格，性能优于当前主流开源模型。

Code：GitHub - VikParuchuri/surya: OCR, layout analysis, reading order, table recognition in 90+ languages

参考链接：

视觉领域OCR难题不再？5款开源模型精准解析数字、文本、表格及公式等内容！教育/金融/医疗场景全覆盖！