phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
OnYoung13 分钟前
编写一个Python脚本自动下载壁纸
jvm·数据库·python
R-G-B17 分钟前
python 验证每次操作图片处理的顺序是否一致,按序号打上标签,图片重命名
开发语言·python·图片重命名·按序号打上标签·验证图片处理的顺序
DFT计算杂谈24 分钟前
VASP+Wannier90 计算位移电流和二次谐波SHG
java·服务器·前端·python·算法
北京高端信息科技25 分钟前
解决ClustalW中替换矩阵的文件格式
python·生物信息学
serve the people28 分钟前
python环境搭建 (九) 极简日志工具 loguru
linux·服务器·python
dazzle42 分钟前
Python数据结构(十五):归并排序详解
数据结构·python·算法
m0_5811241942 分钟前
Python日志记录(Logging)最佳实践
jvm·数据库·python
yuankoudaodaokou1 小时前
革新自动化产线调试,扫描生成点云精准引导机器人路径
运维·python·机器人·自动化
深蓝电商API1 小时前
异步爬虫防封策略:随机User-Agent与延时
爬虫·python
墨染青竹梦悠然1 小时前
基于Django+React的个人财务管理系统
python·django·毕业设计