phtyon读取pdf的远程地址解析内容

import xlwt,pymysql,requests,json,datetime,PyPDF2,urllib.request,io,ssl

添加context 解决读取pdf时SSL报错问题

context = ssl._create_unverified_context()

读取pdf地址 获取pdf内容

req = urllib.request.urlopen(contract_download_url,context=context)

remote_file=req.read()

memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfReader(memory_file)

获取pdf页数

number_of_pages = len(read_pdf.pages)

for i in range(0, number_of_pages):

pageObj = read_pdf.pages[i]

获取当前页数的pdf内容

page = pageObj.extract_text()

处理后续业务流程 .......................

相关推荐
Lw中2 分钟前
RAG切片语义割裂怎么办?
python·rag文本分割·大模型应用基础
aiguangyuan6 分钟前
多模态AI实战:CLIP模型原理与代码深度剖析
人工智能·python·机器学习·nlp
xin^_^10 分钟前
java基础学习
java·开发语言·python
坐吃山猪12 分钟前
Tree-sitter语法树解析
开发语言·python·tree-sitter
郝学胜-神的一滴16 分钟前
深度解析:深度学习核心特性与行业实践
人工智能·python·rnn·深度学习·神经网络·cnn
清水白石00818 分钟前
《解锁 Python 潜能:从内存模型看可变与不可变对象,及其实战最佳实践》
大数据·开发语言·python
向阳蒲公英19 分钟前
dify中大模型参数temperature 含义及建议设置
python
所谓伊人,在水一方33323 分钟前
【Python数据可视化精通】第8讲 | 大规模数据可视化与性能优化
开发语言·python·信息可视化·性能优化·数据分析
编程饭碗32 分钟前
【TypeReference<目标泛型类型>】
开发语言·windows·python
格鸰爱童话32 分钟前
向AI学习项目技能(三)
java·人工智能·python·学习