phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
badhope2 分钟前
Docker从零开始安装配置全攻略
运维·人工智能·vscode·python·docker·容器·github
用户03321266636727 分钟前
使用 Python 复制 Excel 工作表
python
JaydenAI40 分钟前
[LangChain之链]RunnableCallable——将“自由定义”的函数变成标准组件
python·langchain·ai编程
GinoWi43 分钟前
Chapter 3 - Python列表
python
姚生1 小时前
Tushare全解析:金融量化分析的数据基石
大数据·python
Hi202402171 小时前
如何从互联网上免费下载歌曲
python·自动化
2401_898075121 小时前
Python在金融科技(FinTech)中的应用
jvm·数据库·python
老师好,我是刘同学1 小时前
选择排序原理与Python实现
python·排序算法
wmfglpz882 小时前
NumPy入门:高性能科学计算的基础
jvm·数据库·python
如若1232 小时前
WSL2安装Ubuntu完整教程:自定义安装目录到D盘(--location一键搞定)
linux·运维·服务器·pytorch·python·ubuntu·计算机视觉