phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
Austin_YB1 分钟前
VScode中配置Python环境
ide·vscode·python
qq_452396232 分钟前
【Python × AI】LangChain 深度剖析:从组件解耦到 LCEL 的逻辑美学
人工智能·python·ai·langchain
ChineHe3 分钟前
基础篇003_Python基础语法
开发语言·人工智能·python
oem1104 分钟前
Python Web爬虫入门:使用Requests和BeautifulSoup
jvm·数据库·python
CSDN_Colinw14 分钟前
Python GUI开发:Tkinter入门教程
jvm·数据库·python
chase。20 分钟前
Python包构建工具完全指南:python -m build 使用详解
开发语言·chrome·python
xin_yao_xin25 分钟前
PaddleOCR系列——《文本检测、文本识别》模型训练
人工智能·python·paddlepaddle·ppocr
2401_8331977325 分钟前
用Python制作一个文字冒险游戏
jvm·数据库·python
万粉变现经纪人42 分钟前
如何解决 pip install cx_Oracle 报错 未找到 Oracle Instant Client 问题
数据库·python·mysql·oracle·pycharm·bug·pip
sw12138943 分钟前
使用Plotly创建交互式图表
jvm·数据库·python