phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
我的xiaodoujiao7 小时前
API 接口自动化测试详细图文教程学习系列15--项目实战演练2
python·学习·测试工具·pytest
多思考少编码8 小时前
PAT甲级真题1001 - 1005题详细题解(C++)(个人题解)
c++·python·最短路·pat·算法竞赛
ZhengEnCi8 小时前
M5-markconv自定义CSS样式指南 📝
前端·css·python
ZhengEnCi8 小时前
M4-更新日志v0.1.3-Mermaid图表支持 📝
python
hsjcjh8 小时前
多模态长文本协同:用Gemini 3.1 Pro镜像官网破解复杂办公场景的效率困局(国内实测方案)
python
凯瑟琳.奥古斯特9 小时前
SQLAlchemy核心功能解析
开发语言·python·flask
卷Java9 小时前
GPTQ vs AWQ vs GGUF:模型量化工具横向测评
开发语言·windows·python
念恒1230610 小时前
Python(复杂判断)
python·学习
无敌的黑星星10 小时前
Java8 CompletableFuture 实战指南
linux·前端·python
StockTV10 小时前
印度股票实时数据 NSE和BSE的实时行情、K 线及指数数据
java·开发语言·spring boot·python