使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
fs哆哆1 小时前
PDF工具(绿色单文件,免费)
pdf
TextIn智能文档云平台6 小时前
如何让AI更好地理解中文PDF中的复杂格式?
人工智能·pdf
会飞的小菠菜17 小时前
多个PDF文档如何批量删除页眉处的多余信息
pdf·页眉页脚·批量删除
看兵马俑的程序员1 天前
RAG实现-本地PDF内容加载和切片
开发语言·python·pdf
神奇的小猴程序员1 天前
Mutantcat Web Pdf Reader —— 开源、轻量、安全的网页 PDF 阅读器
前端·pdf
ekkcole1 天前
java把word转pdf使用jar包maven依赖
java·pdf·word
Java小王子呀1 天前
Java实现Excel转PDF
java·pdf·excel
阿登林2 天前
C# iText7与iTextSharp导出PDF对比
开发语言·pdf·c#
工藤学编程2 天前
零基础学AI大模型之LangChain PyPDFLoader实战与PDF图片提取全解析
人工智能·langchain·pdf
big狼王2 天前
SonarQube本地化搭建及代码检测并导出报告PDF
java·pdf·sonarqube·sonarscanner