基于pytesseract的OCR图片识别

简介

pytesseract是基于谷歌的tesseract的OCR包,支持识别一些简单的数字、字母、中文。

安装

安装引擎

下载地址:https://digi.bib.uni-mannheim.de/tesseract/

一般是Windows 64位系统最新版:

如果要识别中文,注意选中中文模块。

把tesseract.exe目录加入Path,如D:\Program Files\Tesseract-OCR

安装pytesseract包

bash 复制代码
pip install Pillow
pip install pytesseract

测试代码

python 复制代码
from PIL import Image
import pytesseract

res = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(res)

相关链接

https://github.com/tesseract-ocr/tesseract

相关推荐
兔兔爱学习兔兔爱学习2 小时前
创建CUDA11.8环境部署DeepSeek-OCR
ocr
alvinToffler1 天前
kkocr简单好用的ocr文字表格识别工具
ocr·文字识别·表格识别·表格按列选择
秋氘渔2 天前
使用Ollama部署DeepSeek-OCR模型:从零开始的完整指南
ocr·ollama·deepseek-ocr
weixin_462446232 天前
DeepSeek-OCR:下一代智能文档识别与转换技术详解(复杂表格精准解析)
ocr·deepseek-ocr
山顶夕景3 天前
【VLM】Format Decoupled Reinforcement Learning for Document OCR
大模型·llm·ocr·多模态·文档智能·vlm
熊明才3 天前
modelscope 上PaddleOCR-VL 部署(2026年1月17日亲测可用)
ai·ocr
张3蜂3 天前
PaddleOCR:全面解析百度开源的OCR王者
百度·开源·ocr
AI人工智能+4 天前
表格识别技术:实现复杂表格内容的精准解析与表格结构的版面还原,推动档案管理从数字化存储向智能化服务转型
深度学习·ocr·表格识别
天聚数行4 天前
OCR+翻译二合一!天聚数行图片翻译API实测体验
ocr·api接口·天聚数行
旗讯数字4 天前
角标识别 + 系统对接一体化 旗讯 OCR 纸质报告数字化解决方案
ocr