phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
qq_392690663 分钟前
如何处理MongoDB分片集群的连接池耗尽危机_客户端连接与mongos到shard的连接乘数效应
jvm·数据库·python
qq_372154234 分钟前
Python异步爬虫如何应对封IP_结合asyncio与代理池实现轮询请求
jvm·数据库·python
abc123456sdggfd5 分钟前
php怎么处理跨域请求_php如何设置header解决跨域问题详解
jvm·数据库·python
伊玛目的门徒7 分钟前
多线程韩漫爬虫下载器
爬虫·python·漫画·韩漫
zhangchaoxies8 分钟前
如何在CSS中正确加载本地JPG背景图片
jvm·数据库·python
Hello未来9 分钟前
llamafactory 的使用和安装
python·深度学习·语言模型·自然语言处理·nlp
z44247532621 分钟前
CSS如何实现元素悬浮在页面底部_利用fixed定位与底部间距
jvm·数据库·python
m0_5964063721 分钟前
mysql数据库用户密码加固策略_实施强密码策略与定期轮换
jvm·数据库·python
m0_6765443822 分钟前
CSS如何实现语义化样式编写_使用BEM规范提升命名直观性
jvm·数据库·python
KivenMitnick23 分钟前
CialloVOL 1.2:便捷好用的轻量化内存取证分析平台
windows·python·安全·网络安全·flask·系统安全·安全威胁分析