phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
思则变2 分钟前
[Pytest] [Part 2]增加 log功能
开发语言·python·pytest
漫谈网络31 分钟前
WebSocket 在前后端的完整使用流程
javascript·python·websocket
try2find2 小时前
安装llama-cpp-python踩坑记
开发语言·python·llama
博观而约取3 小时前
Django ORM 1. 创建模型(Model)
数据库·python·django
精灵vector4 小时前
构建专家级SQL Agent交互
python·aigc·ai编程
Zonda要好好学习5 小时前
Python入门Day2
开发语言·python
Vertira5 小时前
pdf 合并 python实现(已解决)
前端·python·pdf
太凉5 小时前
Python之 sorted() 函数的基本语法
python
项目題供诗5 小时前
黑马python(二十四)
开发语言·python
晓13136 小时前
OpenCV篇——项目(二)OCR文档扫描
人工智能·python·opencv·pycharm·ocr