phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
小小怪75018 小时前
将Python Web应用部署到服务器(Docker + Nginx)
jvm·数据库·python
Sylvia33.18 小时前
体育数据API实战:用火星数据实现NBA赛事实时比分与状态同步
java·linux·开发语言·前端·python
QQ86066001618 小时前
Python基于Vue的”黄山旅游网站的设计与实现 django flask pycharm
vue.js·python·旅游
2401_8442213218 小时前
使用PictureBox实现图片缩放与显示的深入探讨
jvm·数据库·python·算法
@我漫长的孤独流浪18 小时前
Python爬虫实战:从入门到精通
开发语言·爬虫·python
05大叔18 小时前
AI智能伴侣-文件保存 会话的 保存 新建 加载 删除
python
deephub18 小时前
构建生产级 AI Agent 系统的4大主流技术:反思、工具、规划与多智能体协作
人工智能·python·深度学习·大语言模型·agent
weixin_4629019718 小时前
在嵌入式设备(ESP32)上构建一套 “局域网内可视化、跨设备兼容” 的硬件控制方案,
python
I love studying!!!18 小时前
python项目: 下载数据
开发语言·python