phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
JovaZou9 分钟前
[Python学习日记-67] 封装
开发语言·python·学习
Walt_像道光18 分钟前
python包管理工具pip和conda的使用对比
python·conda·pip
m 哆哆.ღ24 分钟前
【Python进阶】Python中的数据库交互:使用SQLite进行本地数据存储
数据库·python·交互
大脑经常闹风暴@小猿28 分钟前
Django 启用国际化支持—实现配置多国语言
后端·python·django
Bio Coder42 分钟前
利用python 检测当前目录下的所有PDF 并转化为png 格式
python·pdf·批量·检测·png
封步宇AIGC1 小时前
量化交易系统开发-实时行情自动化交易-3.4.1.4.A股衍生数据
人工智能·python·机器学习·数据挖掘
luky!1 小时前
算法--解决二叉树遍历问题
开发语言·python·算法
Tisfy1 小时前
LeetCode 3239.最少翻转次数使二进制矩阵回文 I:遍历(行和列两种情况分别讨论)
python·leetcode·矩阵·题解·回文
测试杂货铺2 小时前
selenium元素定位---元素点击交互异常解决方法
自动化测试·软件测试·python·selenium·测试工具·职场和发展·交互
墨绿色的摆渡人2 小时前
用 Python 从零开始创建神经网络(三):添加层级(Adding Layers)
人工智能·python·深度学习·神经网络