phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
chushiyunen15 分钟前
python中的魔术方法(双下划线)
前端·javascript·python
深蓝轨迹23 分钟前
@Autowired与@Resource:Spring依赖注入注解核心差异剖析
java·python·spring·注解
人工智能AI技术28 分钟前
Python 3.14.3更新!内存优化与安全补丁实战应用
python
2401_8916558131 分钟前
此电脑网络位置异常的AD域排错指南的技术文章大纲
开发语言·python·算法
不要秃头的小孩42 分钟前
50. 随机数排序
数据结构·python·算法
qq_417695051 小时前
实战:用OpenCV和Python进行人脸识别
jvm·数据库·python
1941s1 小时前
Google Agent Development Kit (ADK) 指南 第五章:工具集成与自定义
人工智能·python·langchain·agent·adk
故事和你911 小时前
sdut-python-实验四-python序列结构(21-27)
大数据·开发语言·数据结构·python·算法
chushiyunen2 小时前
pycharm注意力残差示例
ide·python·pycharm
2301_793804692 小时前
用Python和Twilio构建短信通知系统
jvm·数据库·python