Tesseract-OCR 引擎安装

🔧 步骤 1:安装 Tesseract-OCR 引擎

Tesseract-OCR 是开源的 OCR 引擎,需要先在电脑上安装它(Pytesseract 只是 Python 调用它的"桥梁",本身不包含引擎)。

• 下载安装包:

访问 Tesseract-OCR 的 https://github.com/tesseract-ocr/tesseract/releases,选择 Windows 版本(实际访问查看到的都是源码,我就换了一个地址下载了exe)。

Index of /tesseract

• 安装并配置环境变量:

运行下载的安装包,按向导下一步。关键步骤:在安装界面勾选 "Add Tesseract to your PATH"(如果没有这个选项,安装后需手动添加环境变量,见下方"手动配置 PATH")。

🔧 步骤 2:验证 Tesseract 安装是否成功

安装完成后,打开 命令提示符(cmd),输入以下命令:

bash 复制代码
tesseract -v

如果输出类似 tesseract v5.3.1.20230401 的版本信息,说明安装成功且环境变量配置正确。

🔧 步骤 3:修复代码(2 种情况)

如果安装时没勾选"Add Tesseract to your PATH",或在 CMD 中执行 tesseract -v 提示"不是内部或外部命令",则需要 手动配置环境变量 或 在代码中指定 Tesseract 路径。

情况 1:手动配置系统环境变量(推荐)

  1. 找到 Tesseract 的安装目录:

默认安装路径一般是 C:\Program Files\Tesseract-OCR(如果是自定义路径,找到自己的安装位置)。

  1. 添加到系统 PATH:

• 右键"此电脑"→"属性"→"高级系统设置"→"环境变量"。

• 在"系统变量"中找到 Path,点击"编辑"→"新建",粘贴 Tesseract 的安装目录(如 C:\Program Files\Tesseract-OCR)。

• 依次点击"确定"保存。

  1. 重启电脑(让环境变量生效),再打开 CMD 输入 tesseract -v 验证。

情况 2:在 Python 代码中指定 Tesseract 路径(也可以尝试重启pycharm)

如果不想改系统环境变量,可以在代码开头硬编码 Tesseract 的可执行文件路径:

bash 复制代码
pip install opencv-python

pip install pytesseract
python 复制代码
import pytesseract
from PIL import Image
import cv2

# 指定 Tesseract 可执行文件的绝对路径(替换为你自己的安装路径!)
pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'  

# 后续你的 OCR 代码(读取图片、预处理、识别)
img = cv2.imread("captcha.png")
text = pytesseract.image_to_string(img, lang="eng", config="--psm 8 --oem 3")
print(text)

额外检查:图片读取是否正常

如果 Tesseract 引擎配置好后仍报错,需检查 验证码图片是否成功读取。可以在代码中添加图片验证逻辑:

import cv2

img = cv2.imread("captcha.png")

if img is None:

print("❌ 图片读取失败!检查路径是否正确(如 'captcha.png' 是否和代码同目录?)")

else:

print("✅ 图片读取成功,尺寸:", img.shape)

后续 OCR 代码...

总结

错误的根因是 Tesseract-OCR 引擎未安装/未配置环境变量,按上述步骤安装并配置后,Pytesseract 就能正常调用引擎识别验证码啦~

相关推荐
A__tao9 小时前
Elasticsearch Mapping 一键生成 Java 实体类(支持嵌套 + 自动过滤注释)
java·python·elasticsearch
研究点啥好呢9 小时前
Github热门项目推荐 | 创建你的像素风格!
c++·python·node.js·github·开源软件
迷藏4949 小时前
**发散创新:基于Rust实现的开源合规权限管理框架设计与实践**在现代软件架构中,**权限控制(RBAC)** 已成为保障
java·开发语言·python·rust·开源
明日清晨10 小时前
python扫码登录dy
开发语言·python
bazhange10 小时前
python如何像matlab一样使用向量化替代for循环
开发语言·python·matlab
AI人工智能+10 小时前
基于高精度身份证OCR识别、炫彩活体检测及人脸比对技术的人脸核身系统,为通信行业数字化转型提供了坚实的安全底座
人工智能·计算机视觉·人脸识别·ocr·人脸核身
人工干智能10 小时前
科普:python中你写的模块找不到了——`ModuleNotFoundError`
服务器·python
AI人工智能+10 小时前
一种以深度学习与计算机视觉技术为核心的表格识别系统,实现了结构化、半结构化表格的精准文字提取、布局解析与版面完整还原
深度学习·计算机视觉·ocr·表格识别
unicrom_深圳市由你创科技10 小时前
做虚拟示波器这种实时波形显示的上位机,用什么语言?
c++·python·c#
小敬爱吃饭10 小时前
Ragflow Docker部署及问题解决方案(界面为Welcome to nginx,ragflow上传文件失败,Docker中的ragflow-cpu-1一直重启)
人工智能·python·nginx·docker·语言模型·容器·数据挖掘