从小不学好，影刀 + ddddocr 实现图片验证码认证自动化

一. 前言

遵纪守法，不要做违法乱纪的事哦 ❗❗❗❗

最近碰到了一个小羊毛，每天签到可以得几积分，所以如果是多个账号 + 自动化，长时间累积起来也是不错的。

所以研究了一下，便有了这个小项目，帮我每天自动化的薅羊毛。

二. 基础功能介绍

2.1 影刀

影刀（Yingdao RPA）是低代码自动化工具，专注于 RPA（机器人流程自动化），适用于企业办公、数据爬取和脚本执行。

用过的自然知道这个软件的作用，没用过的可以关注一下，类似的也有很多，主要是这个顺手还免费，要啥自行车。

2.2 ddddocr

ddddocr 是由中国开发者 sml2h3 开源的 Python OCR 库（GitHub 仓库：sml2h3/ddddocr），专注于图像验证码和滑块验证码识别。

核心优势：
- 轻量级（无需深度学习框架），离线运行（模型内置），识别准确率高达 95%+（针对常见验证码），安装简单（pip install ddddocr）
- 支持多语言验证码，适用于爬虫自动化。
- 优化了滑块匹配算法，适用于 Web 安全测试和自动化脚本。
- 总计 50+ 万下载量，已集成进多个开源项目。

类似工具对比

工具名称	关键特性	与 ddddocr 的对比
Tesseract OCR	Google 开源，支持多语言文本识别，依赖图像预处理。	ddddocr 更轻量（无需外部引擎），验证码专精准确率更高（95% vs 80%），安装更快，无需训练模型。
PaddleOCR	百度开源，基于深度学习，支持端到端 OCR，需 PaddlePaddle 框架。	ddddocr 无框架依赖、更离线友好，速度更快（<1s/图 vs 2-5s），针对验证码场景更优化，轻量部署优势明显。
EasyOCR	支持 80+ 语言的 Python OCR 库，基于 PyTorch，轻量但需在线模型下载。	ddddocr 完全离线（内置模型）、验证码识别更精准，资源占用低（10MB vs 100MB+），无需 GPU 加速。
Captcha Breaker	专为验证码设计的工具，支持简单模式，但准确率较低，需自定义规则。	ddddocr 自动化更高（AI 驱动 vs 规则基），准确率和鲁棒性更强，便于集成 Python 脚本，优势在复杂验证码处理。

上一篇里面我尝试了一下 paddleocr ，好用是好用，但是占用的资源太多了，而 ddddocr ，即能做到准确性，又可以极小资源的占用，非常的 nice.

三. 废话少说，直接上方案

3.1 影刀的配置

首先是主流程

这里最重要的就是调用模块的接口，模块是影刀里面一个工具，可以执行 Python 代码

3.2 调用 Python 代码

python 复制代码

# =====================================================================================
#  模块说明
#
#  本模块提供了一个高鲁棒性的OCR功能，用于识别复杂的数字验证码。
#  核心策略是"大力出奇迹"：通过多样的图像预处理生成N个候选版本，再用多种配置的OCR引擎
#  去尝试所有版本，最后通过投票选出最可信的结果，以应对各种图片干扰。
# =====================================================================================

# 使用提醒:
# 1. xbot包提供软件自动化、数据表格、Excel、日志、AI等功能
# 2. package包提供访问当前应用数据的功能，如获取元素、访问全局变量、获取资源文件等功能
# 3. 当此模块作为流程独立运行时执行main函数
# 4. 可视化流程中可以通过"调用模块"的指令使用此模块

import xbot
from xbot import print, sleep
from . import package
from .package import variables as glv

import ddddocr
import base64
from io import BytesIO
from PIL import Image, ImageEnhance, ImageFilter
import cv2
import numpy as np


def preprocess_image(image_bytes):
    """
    对图像进行一系列复杂的预处理，生成多个用于OCR的候选图像版本。

    核心策略是"广撒网"：由于验证码的干扰类型不一（如噪点、模糊、颜色不均、笔画断裂等），
    单一处理方法很难通用。此函数因此组合了多种技术，包括：
    1. 放大与平滑：使微小数字更清晰，并初步降噪。
    2. 灰度化与对比度增强：简化图像信息，突出特征。
    3. 多策略二值化：并行使用自适应阈值、OTSU、固定阈值等多种方法，以期有一种能完美分离字符。
    4. 形态学修复与锐化：连接断裂笔画、移除噪点并锐化边缘。
    
    最终返回所有这些处理版本的列表，供后续OCR引擎逐一尝试。
    """
    # --- 步骤 1: 初始化与格式转换，将图片字节加载为后续处理所需的格式 ---
    img = Image.open(BytesIO(image_bytes))
    if img.mode != 'RGB':
        img = img.convert('RGB')
    img_array = np.array(img)
    
    # --- 步骤 2: 图像放大、去噪与对比度增强，为识别微小模糊字符做准备 ---
    height, width = img_array.shape[:2]
    scale_factor = 3
    img_array = cv2.resize(img_array, (width * scale_factor, height * scale_factor), interpolation=cv2.INTER_CUBIC)
    img_array = cv2.GaussianBlur(img_array, (3, 3), 0)
    gray = cv2.cvtColor(img_array, cv2.COLOR_RGB2GRAY)
    gray = cv2.equalizeHist(gray)
    
    # --- 步骤 3: 多策略并行二值化，尝试多种方法分离前景与背景 ---
    processed_images = []
    adaptive_thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)
    processed_images.append(adaptive_thresh)
    _, otsu_thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    processed_images.append(otsu_thresh)
    for thresh_val in [100, 120, 140, 160, 180]:
        _, fixed_thresh = cv2.threshold(gray, thresh_val, 255, cv2.THRESH_BINARY)
        processed_images.append(fixed_thresh)
    _, inv_thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
    processed_images.append(inv_thresh)
    
    # --- 步骤 4: 形态学处理，修复字符笔画的断裂并移除孤立噪点 ---
    kernel = np.ones((2, 2), np.uint8)
    morphology_images = []
    for img in processed_images:
        closed = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
        morphology_images.append(closed)
        opened = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)
        morphology_images.append(opened)
    
    # --- 步骤 5: 最终增强与格式转换，锐化所有版本并打包输出 ---
    all_processed = processed_images + morphology_images
    result_images = []
    for processed_img in all_processed:
        pil_img = Image.fromarray(processed_img)
        pil_img = ImageEnhance.Contrast(pil_img).enhance(2.0)
        pil_img = pil_img.filter(ImageFilter.SHARPEN)
        buffer = BytesIO()
        pil_img.save(buffer, format='PNG')
        result_images.append(buffer.getvalue())
    
    return result_images


def ocrcode(base64_data):
    """
    接收Base64图片，通过"预处理 + 多轮识别 + 投票"的策略，识别出图片中的数字。

    执行流程:
    1. 解码: 将Base64字符串转为二进制图片。
    2. 预处理: 调用 `preprocess_image` 生成一个包含原图和多种优化版本的图像列表。
    3. 识别: 遍历所有图像版本，并对每个版本使用多种 `ddddocr` 配置进行识别。
    4. 投票: 统计所有识别结果的出现频率，选择出现次数最多的结果作为最终输出。
    """
    # --- 步骤 1: Base64解码，处理输入字符串得到原始图片数据 ---
    if ',' in base64_data:
        _, base64_str = base64_data.split(',', 1)
    else:
        base64_str = base64_data
    image_bytes = base64.b64decode(base64_str)
    
    # --- 步骤 2: 生成图像列表，包含原图和所有经过预处理的版本 ---
    processed_images = preprocess_image(image_bytes)
    all_images = [image_bytes] + processed_images
    
    # --- 步骤 3: 多配置、多轮次OCR识别，对每个图像版本都用多种配置尝试识别 ---
    results = []
    for img_bytes in all_images:
        try:
            ocr1 = ddddocr.DdddOcr(beta=True); ocr1.set_ranges("0123456789")
            res1 = ocr1.classification(img_bytes)
            if res1 and res1.strip():
                clean_res = ''.join(filter(str.isdigit, res1.strip()))
                if clean_res: results.append(clean_res)
        except: pass
        
        try:
            ocr2 = ddddocr.DdddOcr(beta=False); ocr2.set_ranges("0123456789")
            res2 = ocr2.classification(img_bytes)
            if res2 and res2.strip():
                clean_res = ''.join(filter(str.isdigit, res2.strip()))
                if clean_res: results.append(clean_res)
        except: pass
        
        try:
            ocr3 = ddddocr.DdddOcr(beta=True)
            res3 = ocr3.classification(img_bytes)
            if res3 and res3.strip():
                res3_clean = ''.join(filter(str.isdigit, res3))
                if res3_clean: results.append(res3_clean)
        except: pass
    
    # --- 步骤 4: 投票选举最佳结果，从所有识别结果中选出最可信的一个 ---
    if results:
        result_count = {}
        for result in results:
            result_count[result] = result_count.get(result, 0) + 1
        best_result = max(result_count.items(), key=lambda x: (x[1], len(x[0])))
        return best_result[0]
    else:
        return ""


def debug_save_processed_images(base64_data, save_path="debug_images"):
    """调试用：保存预处理后的所有图像版本以供分析。"""
    import os
    if ',' in base64_data:
        _, base64_str = base64_data.split(',', 1)
    else:
        base64_str = base64_data
    image_bytes = base64.b64decode(base64_str)
    processed_images = preprocess_image(image_bytes)
    
    os.makedirs(save_path, exist_ok=True)
    with open(f"{save_path}/original.png", "wb") as f: f.write(image_bytes)
    for i, img_bytes in enumerate(processed_images):
        with open(f"{save_path}/processed_{i}.png", "wb") as f: f.write(img_bytes)
    print(f"已保存 {len(processed_images)} 张处理后的图像到 {save_path} 目录")


def main(args):
   """模块独立运行时的测试入口。"""
   base64_data = "data:image/png;base64,iVBORw0KGgxxxxxx......"
   res =  ocrcode(base64_data)
   print("识别结果:", res)

其实 带带弟弟OCR 本身不需要这么多代码，只不过用原生的情况下，识别准确度并不高 ，但是很快
我这段代码是牺牲了一定的性能，对图片进行了一次预处理，整体耗时大概在2秒左右，我能接受了
官方文档： github.com/sml2h3/dddd...

官方原装语法：

python 复制代码

ocr = ddddocr.DdddOcr()

// 其实就这几句 ，好用吧
image = open("example.jpg", "rb").read()
result = ocr.classification(image)
print(result)

四. 其他的扩展

场景 (Scenario)	用法 (Usage)	核心代码	关键要点
通用验证码识别	传入图片字节，识别图中字符。	`ocr = ddddocr.DdddOcr()` `result = ocr.classification(img_bytes)`	知道范围时用 ocr.set_ranges() 提高准确率。
滑块验证码(缺口)	传入滑块和背景图，定位缺口坐标。	`det = ddddocr.DdddOcr(det=True)` `result = det.slide_match(slider_bytes, bg_bytes)`	初始化时必须设置 det=True。
目标检测(点选)	传入图片，识别所有文字或目标坐标。	`det = ddddocr.DdddOcr(det=True)` `poses = det.detection(img_bytes)`	同样需要 det=True，常用于点选类验证码。
作为HTTP服务	启动服务后，任意语言通过API调用。	`# 启动: python -m ddddocr.server` `res = requests.post(url, files={'file': img_bytes})`	实现跨语言调用，方便非Python项目集成。

这里我整理了一下，官方文档里面还支持： 滑块验证码 / 点选验证的方式。不过现在验证的方式越来越多了，比如最近很常见的：

逻辑推理与空间认知型验证 (Logical & Spatial Reasoning)

以及更高级的认证，会让你识别会在天上飞的 ~~~

这些就不要想了，这种认证比较复杂，包括生成认证都会比较麻烦，一般场景较少。不过 AI 识别后通过逻辑分析，未来应该也是可以实现的。

总结

东西很好用，已经薅了十几天了，中间可能会有小部分概率掉，所以要注意做保险验证，没通过的可以写在日志里面。

另外再说一句，工具只是为了减少体力劳动，可以盈利但是不要做过分的事哦，别把别人薅秃了，那就没意思了。

最后的最后 ❤️❤️❤️👇👇👇

👈 欢迎关注 ，超200篇优质文章，未来持续高质量输出 🎉🎉
🔥🔥🔥 系列文章集合，高并发，源码应有尽有 👍👍
走过路过不要错过，知识无价还不收钱 ❗❗

从小不学好 ，影刀 + ddddocr 实现图片验证码认证自动化