使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
Bella_chene2 小时前
Excel转PDF不分页
pdf·excel
RuiyuanZHOU2 小时前
tkinter+pymupdf开发的简单pdf查看编辑器
pdf·tkinter·pymupdf
诗句藏于尽头3 小时前
关于win11的Microsoft To Pdf打印机修改端口后无法再刷新显示于设备界面的问题
pdf
Time_Memory_cici3 小时前
Wiley出版社WileyNJDv5_Template模板编译不能生成PDF解决办法
pdf
NON-JUDGMENTAL1 天前
《Local_Pdf_Chat_RAG 深度学习笔记:PDF 本地化对话的 RAG 原理与实践》
笔记·pdf
Metaphor6921 天前
Java 旋转 PDF 页面:使用 Spire.PDF 实现高效页面处理
java·经验分享·pdf
fyakm1 天前
词向量:从 One-Hot 到 BERT Embedding,NLP 文本表示的核心技术
自然语言处理·bert·embedding
拓端研究室1 天前
专题:2025零售数字化与即时零售竞争洞察报告|附130+份报告PDF、数据仪表盘汇总下载
pdf·零售
星川皆无恙2 天前
知识图谱之深度学习:基于 BERT+LSTM+CRF 驱动深度学习识别模型医疗知识图谱问答可视化分析系统
大数据·人工智能·深度学习·bert·知识图谱
精致先生2 天前
多模态PDF解析
pdf·大模型·rag