phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
Zzz 小生19 小时前
LangChain Streaming-Overview:流式处理使用完全指南
人工智能·python·语言模型·langchain·github
yzx99101319 小时前
Python数据结构入门指南:从基础到实践
开发语言·数据结构·python
百锦再20 小时前
Jenkins 全面精通指南:从入门到脚本大师
运维·后端·python·servlet·django·flask·jenkins
FYKJ_201020 小时前
springboot大学校园论坛管理系统--附源码42669
java·javascript·spring boot·python·spark·django·php
Loo国昌20 小时前
【AI应用开发实战】 03_LangGraph运行时与状态图编排:从直接执行到图编排的演进之路
人工智能·后端·python·自然语言处理·prompt
ValhallaCoder20 小时前
hot100-堆
数据结构·python·算法·
小小小米粒20 小时前
函数式接口 + Lambda = 方法逻辑的 “插拔式解耦”
开发语言·python·算法
Dr.Kun1 天前
【鲲码园PsychoPy】延迟折扣任务(DDT)
python·psychopy·心理学编程
coding者在努力1 天前
LangChain简介,最直白的介绍
人工智能·python·语言模型·langchain
癫狂的兔子1 天前
【Python】【机器学习】支持向量积
python·机器学习