图片验证码识别：pytesseract+opencv入门

在自动化测试、爬虫等场景中，验证码识别是常见的需求。图片验证码作为最基础的验证形式，借助 Python 的 pytesseract（Tesseract OCR 引擎的 Python 封装）和 OpenCV（计算机视觉库），可以快速实现入门级的识别方案。本文将从环境搭建到实战演示，手把手教你完成图片验证码的识别。

一、核心工具介绍

1. pytesseract

pytesseract 是 Google Tesseract OCR 引擎的 Python 接口，能将图片中的文字转换为字符串，支持多语言识别，是开源 OCR 领域的主流工具。它本身不具备图像预处理能力，因此需要搭配 OpenCV 对验证码图片做降噪、二值化等处理，提升识别准确率。

2. OpenCV

OpenCV（Open Source Computer Vision Library）是一个功能强大的计算机视觉库，提供了丰富的图像处理函数，比如图像灰度化、二值化、降噪、轮廓检测等。对于验证码识别来说，OpenCV 主要用于预处理图片，去除干扰线、噪点，让文字特征更清晰，为 pytesseract 识别降低难度。

二、环境搭建

1. 安装依赖库

首先通过 pip 安装 pytesseract 和 opencv-python：

bash

运行

复制代码

pip install pytesseract opencv-python

2. 安装 Tesseract OCR 引擎

pytesseract 只是封装层，必须安装底层的 Tesseract 引擎才能工作：

Windows 系统 ：下载安装包（推荐从 UB-Mannheim/tesseract 下载），安装时建议勾选 "中文语言包"（如需识别中文验证码），安装完成后需将 Tesseract 的安装路径（如 C:\Program Files\Tesseract-OCR）添加到系统环境变量，或在代码中指定引擎路径。

Linux 系统 ：

bash

运行

复制代码

sudo apt-get install tesseract-ocr
# 安装中文语言包（可选）
sudo apt-get install tesseract-ocr-chi-sim

Mac 系统 ：

bash

运行

复制代码

brew install tesseract
# 安装中文语言包（可选）
brew install tesseract-lang

三、基础识别流程（以简单数字验证码为例）

1. 核心步骤

图片验证码识别的核心逻辑是：读取图片 → 图像预处理 → OCR 识别 → 输出结果 。其中预处理是提升准确率的关键，我们以一张简单的 4 位数字验证码（code.png）为例演示。

2. 完整代码实现

python

运行

复制代码

import cv2
import pytesseract

# 【重要】Windows 系统需指定 Tesseract 路径，Linux/Mac 可注释
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

def recognize_captcha(image_path):
    # 1. 读取图片（OpenCV 默认读取为 BGR 格式）
    img = cv2.imread(image_path)
    if img is None:
        raise ValueError("图片路径错误或文件不存在！")
    
    # 2. 图像预处理
    # 2.1 转换为灰度图（减少颜色通道，简化计算）
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # 2.2 二值化处理（将像素转为黑白，突出文字）
    # 参数说明：127 为阈值，255 为最大值，THRESH_BINARY 为二值化方式
    _, thresh = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)
    
    # 2.3 降噪（去除小的噪点，可选）
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 2))
    thresh = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel)
    
    # 3. OCR 识别
    # config 参数：--psm 8 表示单字符识别模式，-c tessedit_char_whitelist 限定识别字符范围
    config = '--psm 8 -c tessedit_char_whitelist=0123456789'
    result = pytesseract.image_to_string(thresh, config=config)
    
    # 4. 清理结果（去除空格、换行等无关字符）
    result = result.strip()
    return result

# 测试识别
if __name__ == "__main__":
    try:
        captcha_text = recognize_captcha("code.png")
        print(f"识别结果：{captcha_text}")
    except Exception as e:
        print(f"识别失败：{e}")

3. 关键代码解释

指定 Tesseract 路径：Windows 系统必须配置，否则 pytesseract 无法找到引擎；Linux/Mac 系统若默认安装，可省略。
灰度化 ：cv2.COLOR_BGR2GRAY 将彩色图转为灰度图，减少干扰信息。
二值化 ：cv2.threshold 把像素值大于 127 的设为 255（白色），小于的设为 0（黑色），让文字和背景对比更强烈。
降噪：cv2.morphologyEx 的开运算（先腐蚀后膨胀）能去除小噪点，避免干扰识别。
config 参数 ：
- --psm 8：Tesseract 的页面分割模式，8 表示将图片视为单个字符块，适合验证码这种短字符场景；
- tessedit_char_whitelist：限定识别范围（如仅数字），大幅提升准确率。

四、常见问题与优化思路

1. 识别准确率低？

优化预处理：调整二值化阈值（比如将 127 改为 150）、尝试不同的降噪方式（如高斯模糊 cv2.GaussianBlur）；
调整 PSM 模式：根据验证码类型选择不同的 --psm 参数（如 6 表示整行识别）；
扩充字符白名单：若验证码包含字母，修改 tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ。

2. 验证码有干扰线 / 干扰点？

可通过 OpenCV 的轮廓检测（cv2.findContours）去除干扰线，或使用形态学操作（如闭运算）填充字符内部的噪点。

3. 中文验证码识别？

只需修改 config 参数，添加中文语言包，并指定语言：

python

运行

复制代码

# lang='chi_sim' 表示简体中文，同时取消字符白名单（或包含中文）
result = pytesseract.image_to_string(thresh, lang='chi_sim', config='--psm 6')

五、适用场景与局限性

适用场景

本文的方案适合 简单的数字 / 字母验证码（无扭曲、无复杂干扰、字符清晰），比如内部系统的测试验证码、低安全级别的验证场景。

局限性

对于扭曲变形、粘连字符、复杂干扰线、滑块验证等高级验证码，单纯的 pytesseract+OpenCV 效果极差，需结合深度学习（如 CNN 模型）或调用第三方识别接口（如超级鹰、云打码）。

总结

图片验证码识别的核心是 图像预处理 + OCR 识别，OpenCV 负责优化图片特征，pytesseract 负责文字提取；
预处理步骤（灰度化、二值化、降噪）是提升识别准确率的关键，需根据验证码特征调整参数；
pytesseract+OpenCV 仅适用于简单验证码，复杂场景需结合深度学习或第三方接口。

通过本文的入门教程，你可以快速实现基础验证码的识别，后续可根据实际需求优化预处理逻辑，或学习更高级的识别技术。