使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
Ven%2 小时前
VsCode如何使用默认程序打开word Excel pdf等文件
ide·vscode·pdf·编辑器
软件工程小施同学3 小时前
计算机学报 2024年 区块链论文 录用汇总 附pdf下载
pdf·区块链
Sherlock Ma17 小时前
PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】
人工智能·pytorch·语言模型·pdf·大模型·机器翻译·deepseek
kadog18 小时前
PubMed PDF下载 cloudpmc-viewer-pow逆向
前端·javascript·人工智能·爬虫·pdf
小墨宝1 天前
js 生成pdf 并上传文件
前端·javascript·pdf
热水养鲨鱼1 天前
Java实现HTML转PDF(deepSeekAi->html->pdf)
人工智能·pdf·html
ai大模型木子2 天前
嵌入模型(Embedding Models)原理详解:从Word2Vec到BERT的技术演进
人工智能·自然语言处理·bert·embedding·word2vec·ai大模型·大模型资料
开开心心_Every2 天前
体积小巧的 Word 转 PDF 批量工具
pdf
一眼青苔2 天前
切割PDF使用python,库PyPDF2
服务器·python·pdf
zyk_5202 天前
前端渲染pdf文件解决方案-pdf.js
前端·javascript·pdf