全新开源 OCR 模型:精准识别复杂内容,迈向 2.0 时代!

在如今信息爆炸的时代,如何高效处理大量扫描文档成了每个大家日常生活工作中必备技能。

最近,一款端到端的开源 OCR 模型GOT-OCR2.0,号称将跨向 OCR 2.0 时代!

从正式发布官方 Demo 开始,凭借其出色的识别效果,短短两天时间在 GitHub 上斩获 2.5k Star。

接下来,跟大家详细介绍下它。

项目介绍

GOT 是一个统一的、优雅的端到端模型,包含高压缩编码器和长上下文解码器。

作为一个 OCR-2.0 模型,GOT 能够处理各种 OCR 任务,包括 普通文本、数学/分子公式、表格、图表、乐谱,甚至几何形状等内容识别。

在输入端,模型支持常见的场景和文档风格的图像,包括切片和整页风格。在输出端,GOT 可以通过简单的提示生成纯文本或格式化文档。

安装指南

  1. 克隆代码到本地,并进入文件夹:
复制代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.gitcd 'the GOT folder'
  1. 安装依赖包:
复制代码
conda create -n got python=3.10 -yconda activate gotpip install -e .
  1. 安装 Flash-Attention:
复制代码
pip install ninjapip install flash-attn --no-build-isolation

在线体验

官方提供在线演示 Demo,可以直接在 HuggingFace 上体验,地址在末尾。

写在最后

此外,值得一说,该模型拿到了 BLEU 高达 0.972 高分,碾压众多 OCR 工具。再看下识别的效果。

以上便是 GOT 工具的详细介绍。

总的来说,该模型识别精确度非常高,能支持非常多复杂场景,如音符、数学公式等。

而且模型大小仅 1.43 GB,本地运行起来相信要求的配置不是特别高,感兴趣的可以试试。

相关推荐
EkihzniY3 天前
OCR 赋能自动阅卷:让评分更高效精准
ocr
Stara05113 天前
基于Coze平台的自动化情报采集与处理引擎—实现小红书图文到飞书的端到端同步
人工智能·大模型·ocr·飞书·工作流·ai agent·coze
悠哉悠哉愿意3 天前
【电赛学习笔记】MaixCAM 的OCR图片文字识别
笔记·python·嵌入式硬件·学习·视觉检测·ocr
pingzhuyan5 天前
python入门篇12-虚拟环境conda的安装与使用
python·ai·llm·ocr·conda
DogDaoDao5 天前
GitHub开源项目Zerox:AI驱动的OCR革命
人工智能·深度学习·开源·github·ocr·图像识别·zerox
程序视点5 天前
望言OCR视频字幕提取2025终极评测:免费版VS专业版提全方位对比(含免费下载)
ocr·视频字幕提取软件·望言ocr·硬字幕识别工具·开源ocr工具·字幕提取方法·视频转文字软件
开开心心_Every6 天前
多线程语音识别工具
javascript·人工智能·ocr·excel·语音识别·symfony
Hi202402176 天前
支持OCR和AI解释的Web PDF阅读器:解决大文档阅读难题
pdf·flask·llm·ocr·阅读器
kevin 16 天前
如何识别发票特殊版式?OCR大模型如何颠覆传统并保证准确率?
ocr
愿你天黑有灯下雨有伞6 天前
告别复杂配置!Spring Boot优雅集成百度OCR的终极方案
spring boot·百度·ocr