phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pagesi

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
码界索隆13 小时前
Python转Java系列:前言
java·开发语言·python
金銀銅鐵13 小时前
用 Tkinter 实现一个罗马数字转整数的简单工具
后端·python
MC皮蛋侠客14 小时前
Ruff 完全指南:下一代 Python Linter 与 Formatter
python
happylifetree15 小时前
Python014-第二章13.数据容器-tuple案例
python
茉莉玫瑰花茶15 小时前
LangGraph 其他核心能力 [ 3 ]
python·ai
AI玫瑰助手15 小时前
Python函数:递归函数的定义与阶乘案例实现
开发语言·python·信息可视化
武子康15 小时前
调查研究-155 Open-LLM-VTuber 本地部署与互动实战指南
人工智能·python·深度学习·ai·数字人
北漂人Java15 小时前
Pycharm配置Miniconda教程
python·pycharm
CTA量化套保15 小时前
量化程序 while True 一直跑 CPU 很高:天勤降频与字段过滤
python·区块链
copyer_xyf16 小时前
Python 内存分析:从栈和堆理解对象引用
前端·后端·python