全新开源 OCR 模型:精准识别复杂内容,迈向 2.0 时代!

在如今信息爆炸的时代,如何高效处理大量扫描文档成了每个大家日常生活工作中必备技能。

最近,一款端到端的开源 OCR 模型GOT-OCR2.0,号称将跨向 OCR 2.0 时代!

从正式发布官方 Demo 开始,凭借其出色的识别效果,短短两天时间在 GitHub 上斩获 2.5k Star。

接下来,跟大家详细介绍下它。

项目介绍

GOT 是一个统一的、优雅的端到端模型,包含高压缩编码器和长上下文解码器。

作为一个 OCR-2.0 模型,GOT 能够处理各种 OCR 任务,包括 普通文本、数学/分子公式、表格、图表、乐谱,甚至几何形状等内容识别。

在输入端,模型支持常见的场景和文档风格的图像,包括切片和整页风格。在输出端,GOT 可以通过简单的提示生成纯文本或格式化文档。

安装指南

  1. 克隆代码到本地,并进入文件夹:
复制代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.gitcd 'the GOT folder'
  1. 安装依赖包:
复制代码
conda create -n got python=3.10 -yconda activate gotpip install -e .
  1. 安装 Flash-Attention:
复制代码
pip install ninjapip install flash-attn --no-build-isolation

在线体验

官方提供在线演示 Demo,可以直接在 HuggingFace 上体验,地址在末尾。

写在最后

此外,值得一说,该模型拿到了 BLEU 高达 0.972 高分,碾压众多 OCR 工具。再看下识别的效果。

以上便是 GOT 工具的详细介绍。

总的来说,该模型识别精确度非常高,能支持非常多复杂场景,如音符、数学公式等。

而且模型大小仅 1.43 GB,本地运行起来相信要求的配置不是特别高,感兴趣的可以试试。

相关推荐
1nv1s1ble6 天前
paddle ocr
ocr·paddle
Sinokap7 天前
Let’s Encrypt 宣布推出短期证书与 IP 地址支持,推动 Web 安全迈向新高度
前端·tcp/ip·安全·ocr
赛卡7 天前
Gerbv 与 Python 协同:实现 Gerber 文件智能分析与制造数据自动化
图像处理·人工智能·python·算法·计算机视觉·自动化·ocr
余子桃7 天前
Python实现图片文字识别-OCR
ocr
猫头虎8 天前
合合信息TextIn大模型加速器 2.0来了:智能文档解析和图表解析能力全面升级
开发语言·人工智能·python·计算机视觉·信息可视化·aigc·ocr
code_talking8 天前
【OCR】技术
ocr
冲上云霄的Jayden8 天前
PaddleNLP UIE 通过OCR识别银行回执信息
nlp·ocr·paddle·paddlenlp·信息提取·uie·银行回执
shuxunAPI10 天前
驾驶证 OCR 识别 API 接口如何对接?
ocr·api
old_power10 天前
OCR 识别案例
人工智能·计算机视觉·ocr
watersink10 天前
5款视觉OCR开源模型
ocr