基于pytesseract的OCR图片识别

简介

pytesseract是基于谷歌的tesseract的OCR包,支持识别一些简单的数字、字母、中文。

安装

安装引擎

下载地址:https://digi.bib.uni-mannheim.de/tesseract/

一般是Windows 64位系统最新版:

如果要识别中文,注意选中中文模块。

把tesseract.exe目录加入Path,如D:\Program Files\Tesseract-OCR

安装pytesseract包

bash 复制代码
pip install Pillow
pip install pytesseract

测试代码

python 复制代码
from PIL import Image
import pytesseract

res = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(res)

相关链接

https://github.com/tesseract-ocr/tesseract

相关推荐
中科逸视OCR1 天前
当OCR遇见NLP:解析深度学习发票识别中的语义理解与关系抽取模块
nlp·ocr·发票识别
EkihzniY3 天前
OCR 识别技术:各行业信息化转型的 “加速器”
ocr
虚行3 天前
一个海康相机OCR的程序
ocr
kevin 14 天前
智能文档处理业务,应该选择大模型还是OCR专用小模型?
ocr
空影星4 天前
Pot Translator,跨平台划词翻译与OCR工具
python·ocr·电脑
私人珍藏库4 天前
[Windows] 天若OCR开源版 6.0.0
ocr
ONLYOFFICE4 天前
如何在ONLYOFFICE中使用OCR工具:轻松识别图片和PDF中的文字
编辑器·ocr·office
晨欣5 天前
Umi-OCR:Windows7和Linux上可免费离线使用的OCR应用!
linux·运维·ocr
doris6107 天前
资产 OCR 识别:批量导入效率提升指南
ocr·资产管理·固定资产管理系统
TextIn智能文档云平台7 天前
复杂PDF文档结构化提取全攻略——从OCR到大模型知识库构建
pdf·ocr