使用PyPDF2工具加载pdf文件数据

每天八杯水D2024-12-03 19:01

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理，这里使用了pypdf2这个工具包，简单记录一下代码。

pip 安装

bash 复制代码

pip install pypdf2

python 代码

python 复制代码

import PyPDF2

# 使用open的'rb'方法打开pdf文件，使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法，传入页码，取得Page对象：输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法，返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

上一篇：POP3/SMTP服务、获取授权码（以QQ为例）

下一篇：LinkedList相关面试题