使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
无衣°1 小时前
Latex转word(docx)或者说PDF转word 一个相对靠谱的方式
pdf·word·latex
weixin_5436628610 小时前
BERT的中文问答系统48
人工智能·python·bert
秃了也弱了。16 小时前
python使用PyPDF2 和 pdfplumber操作PDF文件
python·pdf
雨中的风铃子16 小时前
前端如何不引入第三方插件实现pdf预览功能?
pdf
人才程序员17 小时前
详解QtPDF之 QPdfLink
开发语言·c++·qt·pdf·软件工程·界面·c语音
慧都小妮子17 小时前
Spire.PDF for .NET【页面设置】演示:旋放大 PDF 边距而不改变页面大小
pdf·c#·.net·spire.pdf·报表控件
拉玛干1 天前
java将word docx pdf转换为图片(不需要额外下载压缩包,直接导入maven坐标)
java·pdf·word·maven·springboot
敲代码的飞1 天前
【短视频矩阵系统==saas技术开发】
大数据·人工智能·矩阵·pdf·开源
有过~1 天前
PDF水印批量删除助手v1.01
经验分享·pdf·电脑
@Dai1 天前
【前端】小程序实现预览pdf并导出
前端·javascript·学习·小程序·pdf