基于pytesseract的OCR图片识别

简介

pytesseract是基于谷歌的tesseract的OCR包,支持识别一些简单的数字、字母、中文。

安装

安装引擎

下载地址:https://digi.bib.uni-mannheim.de/tesseract/

一般是Windows 64位系统最新版:

如果要识别中文,注意选中中文模块。

把tesseract.exe目录加入Path,如D:\Program Files\Tesseract-OCR

安装pytesseract包

bash 复制代码
pip install Pillow
pip install pytesseract

测试代码

python 复制代码
from PIL import Image
import pytesseract

res = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(res)

相关链接

https://github.com/tesseract-ocr/tesseract

相关推荐
AI人工智能+9 小时前
表格识别技术,通过目标检测、结构分析和文字识别三步骤,实现对纸质档案表格的智能解析
nlp·ocr·表格识别
PieroPc10 小时前
用python Streamlit 做个RapidOCR 文本识别系统
开发语言·python·ocr
红尘炼丹客21 小时前
《DeepSeek-OCR: Contexts Optical Compression》速览
人工智能·python·自然语言处理·ocr
paopao_wu1 天前
DeepSeek-OCR实战(01):基础运行环境搭建-Ubuntu
linux·人工智能·ubuntu·ai·ocr
武子康2 天前
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI人工智能+2 天前
告别手动录入:文档抽取技术如何让RPA处理非结构化数据?
nlp·ocr·rpa·文档抽取
翔云 OCR API3 天前
VIN码识别接口技术解析:智能OCR解决方案
ocr
OpenBayes3 天前
OCR 新范式!DeepSeek 以「视觉压缩」替代传统字符识别;Bald Classification数据集助力高精度人像分类
人工智能·深度学习·分类·数据挖掘·ocr·数据集·deepseek
AI人工智能+3 天前
文档抽取技术:通过OCR、关键信息抽取和数据标准化三大环节,实现了对银行流水的高效解析
nlp·ocr·文档抽取
亚林瓜子4 天前
在amazon linux 2023上面源码手动安装tesseract5.5.1
linux·运维·服务器·ocr·aws·ec2