使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
William.csj2 小时前
Adobe Acrobat——设置PDF打印页面的大小
pdf
CodeCraft Studio15 小时前
PDF处理控件Aspose.PDF教程:在 C# 中更改 PDF 页面大小
前端·pdf·c#
_oP_i19 小时前
提取 PDF 文件中的文字以及图片中的文字
pdf
摘取一颗天上星️21 小时前
BERT:让AI真正“读懂”语言的革命
人工智能·深度学习·bert
集成显卡1 天前
图片压缩工具 | 图片生成PDF文档
图像处理·pdf
一路向北North1 天前
PDF.js无法显示数字签名
开发语言·javascript·pdf
开开心心就好2 天前
高效视频倍速播放插件推荐
python·学习·游戏·pdf·计算机外设·电脑·音视频
IT小农工2 天前
如何生成和制作PDF文件
pdf
北十南2 天前
VueScan Pro v9.8.45.08 一款图像扫描软件,中文绿色便携版
pdf·电脑
空谷有来人2 天前
推荐一款PDF压缩的工具
pdf·pdf压缩