爬虫案例-爬取某度文档利用飞桨ch_pp-ocrv3模型提高对图片的识别

文章目录

1.安装VC_redist.x64库和开启开发者模式

下载VC_redist.x64: 点击这里
在开发者选项,打开开发人员模式

2.第三方库的安装和paddlehub安装

python 复制代码
#以下是安装http请求的第三方库
pip install requests
#以下是安装处理文档的第三方库
pip install python-docx
#以下是大量处理维度数组与矩阵运算的第三方库
pip install numpy
#以下是图像处理和计算机视觉方面的很多通用算法的第三方库
pip install opencv-python
#以下是作为底层框架,支持模型的训练和推理GPU版。
pip install paddlepaddle-gpu
#以下是作为底层框架,支持模型的训练和推理CPU版。
pip install paddlepaddle
#以下是提供了模型的管理和一键预测功能
pip install paddleHub
#以下是安装ch_pp-ocrv3模型
hub install ch_pp-ocrv3

3、爬取某度文档的代码

python 复制代码
import requests
import os
from docx import Document
import cv2
import numpy as np
import paddlehub as hub

url = "https://wenku.baidu.com/gsearch/rec/pcviewdocrec2023?"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"}

data = {
    'sessionId': '3235255445-3246997752--',
    'docId': '3a283569cc84b9d528ea81c758f5f61fb7362802',
    'query': '什么是AI?什么是人工智能?',
    'recPositions': 'catalog,toplist'
}

request = requests.get(url,params=data,headers=header)
#print(request)
'''以下测试用的
#响应数据
print(request.text)
#响应头信息
#print(request.headers)
#状态码
#print(request.status_code)
'''

#爬取百度文档的图片
i = 0
print(request.text)
output_folder = r"C:/Users/zzx/Desktop/百度文档" + "/"
if not os.path.exists(output_folder):
    os.makedirs(output_folder)
for index in request.json()["data"]["catalogDoc"]:
    i+=1
    pic = index['pic']
    img_content = requests.get(pic,stream=True).content
    with open(output_folder + index["title"] +str(i) + '.jpg', mode='wb') as f:
        f.write(img_content)
    print(i,pic)
# 列出输出文件夹中的图片进行文字识别后转换成文档docx
for filename in os.listdir(output_folder):
    if filename.endswith('.jpg'):
        #print(filename)
        image_path = os.path.join(output_folder,filename)
        print(image_path)
        # 使用 numpy 的 fromfile 函数读取图像文件,可以用output_folder中文路径识别图片
        image_numpy = np.fromfile(image_path, dtype=np.uint8)
        # 使用 cv2.imdecode 函数解码图像
        image = cv2.imdecode(image_numpy, cv2.IMREAD_COLOR)
        print(image)
        #判断如果图片存在执行
        if image is not None:
            # 转换为灰度图像
            gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
            # 转换为RGB格式(PaddleOCR需要)
            processed_img = cv2.cvtColor(gray, cv2.COLOR_GRAY2RGB)
            # OCR识别,mkldnn加速仅在CPU下有效
            ocr = hub.Module(name="ch_pp-ocrv3", enable_mkldnn=True)
            results = ocr.recognize_text(images=[processed_img])
            #生成Word文档
            doc = Document()
            if results and len(results) > 0:
                text_data = results[0]['data']
                texts = [item['text'] for item in text_data]
                doc.add_paragraph('\n'.join(texts))
            # 保存生成的Word文档,使用不同的文件名
            doc.save(os.path.join(output_folder, f'{filename[:-4]}.docx'))

4、效果

下载的图片
>
通过ch_pp-ocrv3模型识别文字,效果相当好

相关推荐
NAGNIP10 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab11 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab11 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP15 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年15 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼15 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS15 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区16 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈16 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang17 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx