使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
缺点内向40 分钟前
Java: 为PDF批量添加图片水印实用指南
java·开发语言·pdf
九年义务漏网鲨鱼4 小时前
【多模态大模型面经】 BERT 专题面经
人工智能·深度学习·bert
造价女工4 小时前
PDF转图片:轻松实现工程图纸的高效共享与高清展示
pdf·格式工厂
涔溪10 小时前
vue中预览pdf文件
前端·vue.js·pdf
lyx_201610 小时前
PDF文档导出分页功能实现
react.js·typescript·pdf·react
puyaCheer10 小时前
Android 打开 在线 pdf 文件
android·pdf
开开心心_Every13 小时前
专业视频修复软件,简单操作效果好
学习·elasticsearch·pdf·excel·音视频·memcache·1024程序员节
Danceful_YJ19 小时前
35.微调BERT
人工智能·深度学习·bert
2501_9071368221 小时前
发票识别工具,支持xml、pdf、ofd文件
xml·pdf·软件需求
DreamNotOver1 天前
批量转换论文正文引用为上标后转PDF保持上标
pdf·word·引用·上标