phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
亿牛云爬虫专家13 小时前
解耦之美:将业务逻辑从繁杂的代理异常捕获中抽离
python·爬虫代理·业务逻辑·代理ip·异常捕获·try-except·重试算法
N盒13 小时前
【WhisperX+M2M100】快速视频转字幕工具
python·pip
mingshili13 小时前
[架构设计] pypubsub 底层实现机制与高性能替代方案
python·架构设计
电商API&Tina13 小时前
item_video-获得淘宝商品视频 API||商品API
java·大数据·服务器·数据库·人工智能·python·mysql
YMWM_13 小时前
PyArmor介绍
python
1941s13 小时前
08-智能体开发实战指南(八):UI 集成与生产部署
人工智能·python·langchain
阿Y加油吧13 小时前
测试文章法撒发撒
python
core51213 小时前
深入浅出 Milvus 向量数据库:从核心原理到 Python 实战指南
数据库·python·milvus·向量数据库·语义检索
万里沧海寄云帆13 小时前
一步修复Win11下conda无法激活问题
linux·python·conda
星空13 小时前
python复习1
开发语言·python