[Python进阶] 识别验证码

11.3 识别验证码

我们再开发某些项目的时候,如果遇到要登录某些网页,那么会经常遇到输入验证码的情况,而每次人工输入验证码的话,比较浪费时间。于是,可以通过调用某些接口进行识别。

11.3.1 调用百度文字识别接口

这里,我们详细的来介绍一下如何注册百度云、通过Python调用百度文字识别接口。

11.3.1.1 注册百度云

1、搜索百度智能云,进入到官方主页。

2、点击免费注册,注册百度智能云。

3、进入到应用管理:https://console.bce.baidu.com/ai/#/ai/ocr/overview/index

4、在服务列表中,找到通用场景OCR下的通用文字识别(高精度版),点击右边的开通。这个服务每个月会有1000次的免费试用。对于一般人而言也够了。

5、进去后按照要求填写相关信息,确认开通即可。

6、开通后,我们会得到3个重要信息:AppIDAPI KeySecret Key。妥善保管好着3个信息,后面会用到。

11.3.1.2 获取Access_token

访问示例代码中心:https://console.bce.baidu.com/tools/#/api?product=AI\&project=文字识别\&parent=鉴权认证机制\&api=oauth%2F2.0%2Ftoken\&method=post

快速调试接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

填入之前获取到的API KeySecret Key,点击调试,然后切换到响应数据中的Body页面,在下面我们可以看到access_token

11.3.1.3 调用接口

请求示例代码:

py 复制代码
# encoding:utf-8
import requests
import base64

'''
通用文字识别(高精度版)
'''

request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
# 二进制方式打开图片文件
f = open('[本地文件]', 'rb')
img = base64.b64encode(f.read())

params = {"image":img}
access_token = '[调用鉴权接口获取的token]'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
    print (response.json())

返回示例(JSON格式):

{

"log_id": 1390582998516105216,

"words_result_num": 2

"words_result": [

{

"words": " OCR"

},

{

"words": "百度通用文字识别高精度版"

}

]

}

11.3.2 使用第三方库:ddddocr

这是一个十分强大的图文识别第三方库,相对于百度文字识别,优势如下:

1、不用在线注册,本地部署即可

2、没有次数限制

3、识别效果比百度的图文识别要更好

4、使用简单

老规矩,先下载安装:

pip install ddddocr

使用:

py 复制代码
def ftOCRByddddocr(pmImgFilename: str):
    """
    通过ddddocr库识别本地图片中的字符
    @param pmImgFilename: 图片名
    @return: {str:识别到的内容}
    """
    import ddddocr
    ocr = ddddocr.DdddOcr(show_ad=False)
    with open(pmImgFilename, 'rb') as f:
        img_bytes = f.read()
    return ocr.classification(img_bytes)
相关推荐
Bellafu6666 小时前
selenium常用的等待有哪些?
python·selenium·测试工具
小白学大数据6 小时前
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
爬虫·python·ajax
2401_841495647 小时前
【计算机视觉】基于复杂环境下的车牌识别
人工智能·python·算法·计算机视觉·去噪·车牌识别·字符识别
Adorable老犀牛8 小时前
阿里云-ECS实例信息统计并发送统计报告到企业微信
python·阿里云·云计算·企业微信
倔强青铜三8 小时前
苦练Python第66天:文件操作终极武器!shutil模块完全指南
人工智能·python·面试
倔强青铜三8 小时前
苦练Python第65天:CPU密集型任务救星!多进程multiprocessing模块实战解析,攻破GIL限制!
人工智能·python·面试
Panda__Panda8 小时前
docker项目打包演示项目(数字排序服务)
运维·javascript·python·docker·容器·c#
Lris-KK9 小时前
力扣Hot100--94.二叉树的中序遍历、144.二叉树的前序遍历、145.二叉树的后序遍历
python·算法·leetcode
zy_destiny10 小时前
【工业场景】用YOLOv8实现抽烟识别
人工智能·python·算法·yolo·机器学习·计算机视觉·目标跟踪
(●—●)橘子……10 小时前
记力扣2009:使数组连续的最少操作数 练习理解
数据结构·python·算法·leetcode