使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
偶尔贪玩的骑士1 天前
Jupyter Notebook导出带中文字体PDF
ide·jupyter·pdf
羊小猪~~1 天前
LLM--BERT架构解析
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
软件工程小施同学1 天前
国家数据基础设施标准、技术文件汇总(附pdf下载)
pdf
开开心心就好1 天前
一键隐藏桌面图标任务栏的实用工具
人工智能·pdf·音视频·语音识别·媒体·测试覆盖率·威胁分析
wangchensong1 天前
如何对pdf进行加密保护,防止pdf被复制打印
安全·pdf·pdf加密
helx822 天前
SpringBoot实战(三十二)集成 ofdrw,实现 PDF 和 OFD 的转换、SM2 签署OFD
spring boot·后端·pdf
@Mr_LiuYang2 天前
PDF文件OCR解析:OpenDataLoader PDF
人工智能·pdf
Dxy12393102162 天前
Python转Word为PDF:办公自动化的高效利器
python·pdf·word
weixin_416660072 天前
实测有效:deepseek导出pdf方案
pdf
Dxy12393102162 天前
Python图片转PDF:高效实现多图合并与自定义布局
java·python·pdf