使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
夏日白云20 小时前
《PDF解析工程实录》第 11 章|图像路线的工程现实:DPI、分辨率和内存炸裂
pdf·llm·大语言模型·rag·文档解析
拓端研究室20 小时前
2026年消费行业展望报告:智能科技、可持续发展与幼稚经济|附750+份报告PDF、数据、可视化模板汇总下载
科技·pdf
December31021 小时前
EPUB转PDF实用指南,减少格式错乱烦恼
pdf·文档格式转换·电子书转pdf·epub转pdf·电子书转换格式
m5655bj1 天前
如何通过 C# 实现 PDF 页面裁剪
前端·pdf·c#
夏日白云2 天前
《PDF解析工程实录》第 8 章|融合策略:不是兜底,而是信息利用率最大化
pdf·llm·大语言模型·rag·文档解析
m5655bj2 天前
通过 Python 提取 PDF 表格数据
服务器·python·pdf
清平乐的技术专栏2 天前
电脑自带Edge浏览器进行PDF文件合并
前端·edge·pdf
Irene19912 天前
文档加密加水印只读分享:WPS/PPT编辑后导出PDF(附:百度网盘分享流程)
pdf·加密·wps·pptx·只读
2501_930707782 天前
使用C#代码重新排列 PDF 页面
开发语言·pdf·c#
南风微微吹2 天前
【2026年3月】计算机二级WPS真题试卷及解析14套~电子版PDF
pdf·wps·计算机二级wps