使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
南风微微吹1 天前
全国事业单位联考A、B、C、D、E类历年真题及答案解析PDF电子版(2015-2025年下)
pdf·考公
优化控制仿真模型1 天前
【2026年最新】毕业论文答辩、开题汇报PPT模版电子版下载
经验分享·pdf
daanpdf2 天前
大一《中国近代史纲要》题库及答案PDF知识点整理笔记
笔记·pdf
采坑先锋2 天前
复杂图标的word转pdf
pdf·word
诸葛大钢铁2 天前
如何将SVG格式文件转为PDF? 方便打印输出、正式汇报、跨平台展示
pdf·svg·svg转换为pdf
试剂界的爱马仕3 天前
Pdf 压缩和转图片 工具,简单易用
pdf
w2018003 天前
2025年12月CET4大学英语四级真题试卷、听力音频及答案PDF(三套全)
pdf
weixin_441003643 天前
357本Python精品书籍pdf电子书下载
python·pdf
南风微微吹3 天前
【2026年最新】英语六级历年真题、听力音频及答案解析PDF电子版(2015-2025年12月)
pdf·英语六级
优化控制仿真模型3 天前
【26年最新】新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf