phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
威联通网络存储19 分钟前
告别掉帧与素材损毁:威联通 QuTS hero 如何重塑影视后期协同工作流
前端·网络·人工智能·python
Dxy123931021626 分钟前
Python 根据列表中某字段排序:从基础到进阶
开发语言·windows·python
splage38 分钟前
Java进阶——IO 流
java·开发语言·python
cliffordl39 分钟前
设计模式(python)
python·设计模式
always_TT1 小时前
从Python_Java转学C语言需要注意什么?
java·c语言·python
2301_793804691 小时前
定时任务专家:Python Schedule库使用指南
jvm·数据库·python
穿越世纪的风尘2 小时前
【问题解决】No module named ‘_sqlite3‘
python·centos
qq_416018722 小时前
用Python批量处理Excel和CSV文件
jvm·数据库·python
蓝天守卫者联盟13 小时前
2026乙酸乙酯回收设备厂家选型与技术实践
java·jvm·python·算法
在屏幕前出油3 小时前
06. FastAPI——中间件
后端·python·中间件·pycharm·fastapi