全新开源 OCR 模型：精准识别复杂内容，迈向 2.0 时代！

资源大全免费分享2025-03-02 22:42

在如今信息爆炸的时代，如何高效处理大量扫描文档成了每个大家日常生活工作中必备技能。

最近，一款端到端的开源 OCR 模型GOT-OCR2.0，号称将跨向 OCR 2.0 时代！

从正式发布官方 Demo 开始，凭借其出色的识别效果，短短两天时间在 GitHub 上斩获 2.5k Star。

接下来，跟大家详细介绍下它。

GOT 是一个统一的、优雅的端到端模型，包含高压缩编码器和长上下文解码器。

作为一个 OCR-2.0 模型，GOT 能够处理各种 OCR 任务，包括 普通文本、数学/分子公式、表格、图表、乐谱，甚至几何形状等内容识别。

在输入端，模型支持常见的场景和文档风格的图像，包括切片和整页风格。在输出端，GOT 可以通过简单的提示生成纯文本或格式化文档。

复制代码

git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.gitcd 'the GOT folder'

复制代码

conda create -n got python=3.10 -yconda activate gotpip install -e .

复制代码

pip install ninjapip install flash-attn --no-build-isolation

在线体验

官方提供在线演示 Demo，可以直接在 HuggingFace 上体验，地址在末尾。

此外，值得一说，该模型拿到了 BLEU 高达 0.972 高分，碾压众多 OCR 工具。再看下识别的效果。

以上便是 GOT 工具的详细介绍。

总的来说，该模型识别精确度非常高，能支持非常多复杂场景，如音符、数学公式等。

而且模型大小仅 1.43 GB，本地运行起来相信要求的配置不是特别高，感兴趣的可以试试。