使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
优化控制仿真模型10 小时前
【2026考研408】考研计算机408统考历年真题及答案解析PDF电子版(2009-2026年)
经验分享·pdf
南风微微吹13 小时前
2026年5月教资面试结构化、试讲真题及答案汇总PDF(中小幼全)
面试·pdf
南风微微吹16 小时前
2026年5月初级会计师考试真题试卷及答案解析完整版PDF
pdf
2501_9071368216 小时前
PDF格式电子发票合并A4纸打印
pdf·软件需求
优化控制仿真模型16 小时前
【2026年】初中英语考纲词汇表(1600词)PDF电子版
经验分享·pdf
南风微微吹1 天前
最新国考《行测+申论》历年真题及答案解析电子版pdf(2000-2026年)
pdf
wujian83111 天前
豆包导出pdf方法
人工智能·ai·pdf·豆包·deepseek·ai导出鸭
俊哥工具2 天前
鼠标自动连点怎么设置?详细教学,简单易懂!
python·django·pdf·计算机外设·virtualenv·pygame
2601_950316062 天前
塞尔达攻略+塞尔达设定集+塞尔达传说攻略
游戏·pdf·电视盒子
SunnyDays10112 天前
Java 实现 PDF 附件的添加与删除:四种实用方法
java·pdf·附件