使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
星空椰2 小时前
Java Excel转PDF
pdf·excel
Charlene Fung2 小时前
如何使用 Markdown 生成带参考文献的 PDF
论文阅读·pdf·markdown
std860214 小时前
微软发布 Edge 143 稳定版:PDF 注释支持撤销重做
microsoft·edge·pdf
shadowcz0076 小时前
关于GEO的研究总结#使用 Notebooklm 来研究论文和整理报告#PDF分享
人工智能·pdf
czliutz1 天前
使用pdfplumber库处理pdf文件获取文本图片作者等信息
python·pdf
archko1 天前
用rust+slint编写一个pdf阅读器
pdf
bulingg1 天前
bert常见的变体
人工智能·深度学习·bert
jimmyleeee1 天前
人工智能基础知识笔记二十四:构建一个可以解析PDF简历的Agent
笔记·pdf
archko1 天前
用rust+slint编写一个pdf阅读器2
pdf
坚定信念,勇往无前1 天前
vue3图片,pdf,word,excel,ppt多格式文件预览组件Vue Doc Viewers Plus
pdf·word·excel