全新开源 OCR 模型:精准识别复杂内容,迈向 2.0 时代!

在如今信息爆炸的时代,如何高效处理大量扫描文档成了每个大家日常生活工作中必备技能。

最近,一款端到端的开源 OCR 模型GOT-OCR2.0,号称将跨向 OCR 2.0 时代!

从正式发布官方 Demo 开始,凭借其出色的识别效果,短短两天时间在 GitHub 上斩获 2.5k Star。

接下来,跟大家详细介绍下它。

项目介绍

GOT 是一个统一的、优雅的端到端模型,包含高压缩编码器和长上下文解码器。

作为一个 OCR-2.0 模型,GOT 能够处理各种 OCR 任务,包括 普通文本、数学/分子公式、表格、图表、乐谱,甚至几何形状等内容识别。

在输入端,模型支持常见的场景和文档风格的图像,包括切片和整页风格。在输出端,GOT 可以通过简单的提示生成纯文本或格式化文档。

安装指南

  1. 克隆代码到本地,并进入文件夹:
复制代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.gitcd 'the GOT folder'
  1. 安装依赖包:
复制代码
conda create -n got python=3.10 -yconda activate gotpip install -e .
  1. 安装 Flash-Attention:
复制代码
pip install ninjapip install flash-attn --no-build-isolation

在线体验

官方提供在线演示 Demo,可以直接在 HuggingFace 上体验,地址在末尾。

写在最后

此外,值得一说,该模型拿到了 BLEU 高达 0.972 高分,碾压众多 OCR 工具。再看下识别的效果。

以上便是 GOT 工具的详细介绍。

总的来说,该模型识别精确度非常高,能支持非常多复杂场景,如音符、数学公式等。

而且模型大小仅 1.43 GB,本地运行起来相信要求的配置不是特别高,感兴趣的可以试试。

相关推荐
开开心心就好15 小时前
高效Excel合并拆分软件
开发语言·javascript·c#·ocr·排序算法·excel·最小二乘法
沉到海底去吧Go1 天前
【行驶证识别成表格】批量OCR行驶证识别与Excel自动化处理系统,行驶证扫描件和照片图片识别后保存为Excel表格,基于QT和华为ocr识别的实现教程
自动化·ocr·excel·行驶证识别·行驶证识别表格·批量行驶证读取表格
撞南墙者2 天前
如何让AI自己检查全文?使用OCR和LLM实现自动“全文校订”(可DIY校订规则)
人工智能·ocr
沉到海底去吧Go3 天前
【图片识别改名】如何批量将图片按图片上文字重命名?自动批量识别图片文字并命名,基于图片文字内容改名,WPF和京东ocr识别的解决方案
ocr·wpf·图片识别改名·图片识别重命名·图片内容改名
TextIn智能文档云平台4 天前
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
人工智能·自然语言处理·ocr·pdf解析·textin·复杂文档解析
mulannanlu4 天前
免费开源Umi-OCR,离线使用,批量精准!
ocr
凌康ACG5 天前
易语言使用OCR
c++·yolo·c#·ocr·易语言
开开心心就好5 天前
小巧实用,Windows文件夹着色软件推荐
java·开发语言·前端·决策树·c#·ocr·动态规划
郑知鱼6 天前
【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字
华为·ocr·harmonyos·鸿蒙·移动端·鸿蒙next·ohos
rick_grace8 天前
使用 pytesseract 构建一个简单 OCR demo
ocr