【技巧】如何处理验证码输入错误的问题,两次验证码输入问题

复制代码
import time
from ddddocr import DdddOcr
ocr = DdddOcr()
from DrissionPage import ChromiumPage
page = ChromiumPage()
import pandas as pd
page.get('https://mingshi8.hbte.com.cn/index.php/home/login/login.html')

df = pd.read_excel("jxjyuser.xlsx")
print(df.iloc[0,1])
page.ele('x://input[@class="fl"]').input(df.iloc[0,0])
page.ele('x://*[@id="form1"]/div/ul/li[2]/input').input(df.iloc[0,1])
imgbytes = page.ele('x://a[@class="fr yzmImg"]/img').src()
yzm = ocr.classification(imgbytes)
print(yzm)
page.ele('x://input[@class="txyz fl"]').input('')
time.sleep(2)
imgbytes = page.ele('x://a[@class="fr yzmImg"]/img').src()
yzm = ocr.classification(imgbytes)
page.ele('x://input[@class="txyz fl"]').input(yzm)
page.ele('x://input[@id="zone_login"]').click()

以下是对这段 Python 代码的分析:

代码功能概述

这段代码看起来是一个自动化登录网页并处理验证码的脚本。它主要使用了 DrissionPage 库来操作网页(基于 Chromium 内核),结合 ddddocr 库识别验证码,以及 pandas 库读取 Excel 文件中的数据,目的可能是从 jxjyuser.xlsx 文件获取用户名、密码等登录信息,自动填充到指定网页(https://mingshi8.hbte.com.cn/index.php/home/login/login.html)的登录表单中,然后识别并输入验证码完成登录操作。

代码详细解析

  1. 导入必要的库

    import time
    from ddddocr import DdddOcr
    ocr = DdddOcr()
    from DrissionPage import ChromiumPage
    page = ChromiumPage()
    import pandas as pd

代码首先导入了 time 模块用于添加延迟(暂停程序执行一段时间),引入 ddddocr 库创建 DdddOcr 实例 ocr 用于验证码识别,导入 DrissionPage 中的 ChromiumPage 类并实例化 page 对象来操作基于 Chromium 的网页,还导入了 pandas 库用于读取 Excel 数据。

  1. 打开目标网页

    page.get('https://mingshi8.hbte.com.cn/index.php/home/login/login.html')

使用 page 对象的 get 方法打开指定的登录页面。

  1. 读取 Excel 数据并获取特定单元格的值

    df = pd.read_excel("jxjyuser.xlsx")
    print(df.iloc[0, 1])

通过 pandasread_excel 函数读取 jxjyuser.xlsx 文件内容到 df 数据框中,然后使用 iloc 索引方式打印出第一行第二列(索引从 0 开始)的数据,这里可能是获取登录密码等相关信息。

  1. 填充用户名和密码到登录表单

    page.ele('x://input[@class="fl"]').input(df.iloc[0, 0])
    page.ele('x://*[@id="form1"]/div/ul/li[2]/input').input(df.iloc[0, 1])

分别使用 page 对象找到对应 XPath 的网页元素(输入框),并将从 Excel 中读取的第一行第一列(可能是用户名)和第一行第二列(可能是密码)的数据填充到相应的输入框中。

  1. 获取验证码图片并识别第一次验证码

    imgbytes = page.ele('x://a[@class="fr yzmImg"]/img').src()
    yzm = ocr.classification(imgbytes)
    print(yzm)

先获取验证码图片的字节数据(通过获取图片元素的 src 属性),然后使用 ocr 对象的 classification 方法识别验证码,将识别结果打印出来。不过这里存在一个问题,后续代码中在识别出验证码后没有立即填充到验证码输入框中,而是先清空了该输入框,然后又重新获取验证码进行识别和填充,逻辑上有点不太清晰,也许可以直接在第一次识别后就进行填充。

  1. 处理验证码输入相关操作

    page.ele('x://input[@class="txyz fl"]').input('')
    time.sleep(2)
    imgbytes = page.ele('x://a[@class="fr yzmImg"]/img').src()
    yzm = ocr.classification(imgbytes)
    page.ele('x://input[@class="txyz fl"]').input(yzm)

先是清空验证码输入框内容,暂停 2 秒(通过 time.sleep(2)),然后重新获取验证码图片字节数据、识别验证码,并将新识别的验证码填充到验证码输入框中,这里的重复获取验证码操作如果不是网站有特殊要求(比如验证码有时间限制等情况),可能是不必要的开销。

  1. 点击登录按钮

    page.ele('x://input[@id="zone_login"]').click()

找到登录按钮对应的网页元素并执行点击操作,尝试提交登录表单完成登录。

总体来说,这段代码实现了一个基本的自动化登录网页的流程框架,但在实际使用中可以根据具体情况进一步完善和优化。

相关推荐
志栋智能1 天前
超自动化巡检:应对复杂IT环境的必然选择
运维·网络·安全·web安全·自动化
Mr -老鬼1 天前
EasyClick 热更新坑点处理方案
自动化·ec·easyclick·易点云测
Agent产品评测局1 天前
中小企业数字化转型,优先选 RPA 还是 AI Agent?:2026企业自动化架构选型深研
人工智能·ai·chatgpt·自动化·rpa
测试者家园1 天前
从需求文档到测试点:利用大模型实现需求理解的自动化
软件测试·自动化·llm·需求分析·持续测试·智能化测试·功能点
GISer_Jing1 天前
阿里开源纯前端浏览器自动化 PageAgent,[特殊字符] 浏览器自动化变天啦?
前端·人工智能·自动化·aigc·交互
Blurpath住宅代理1 天前
AI代理配置实战指南:构建高可用、低风险的网络出口层
人工智能·ai·自动化·静态ip·动态代理·住宅ip·住宅代理
小陈的进阶之路1 天前
Selenium 常用操作 API
python·自动化·pytest
twc8291 天前
打造专属 MCP Server 测试自动化的私有化解决方案
运维·软件测试·人工智能·自动化·mcp server
实在智能RPA1 天前
实在 Agent 支持哪些企业业务场景的自动化?全行业智能自动化场景深度拆解
java·运维·自动化
Xpower 171 天前
Clawith:开启多智能体协作的新纪元
人工智能·python·语言模型·自动化