使用PyPDF2工具加载pdf文件数据

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。

pip 安装

bash 复制代码
pip install pypdf2

python 代码

python 复制代码
import PyPDF2

# 使用open的'rb'方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

相关推荐
邢树军5 小时前
巧用 PasteMate,联合 DeepSeek 与 LaTeX 高效生成 PDF 文档
pdf
cpuCode6 小时前
BERT 大模型
人工智能·深度学习·ai·自然语言处理·大模型·llm·bert
花千树-0101 天前
使用 Apache PDFBox 提取 PDF 中的文本和图像
java·pdf·apache·ai编程
CodeCraft Studio1 天前
.NET版PDF处理控件Aspose.PDF教程:在 C# 中将 TIFF 文件转换为 PDF
pdf·c#·.net
gold20081 天前
pdf-extract-kit paddle paddleocr pdf2markdown.py(效果不佳)
pdf·paddle·paddleocr·pdf-extract-kit·pdf2markdown.py
IDRSolutions_CN1 天前
Java 开发者需要了解的 PDF 基础知识
java·经验分享·pdf·软件工程·团队开发
Leo.yuan1 天前
50页PDF|数字化转型成熟度模型与评估(附下载)
pdf
蜗牛去旅行吧1 天前
使用 Flask 和 pdfkit 生成带透明 PNG 盖章的 PDF 并上传到阿里云 OSS
阿里云·pdf·flask
gold20082 天前
MinerU magic-pdf 安装, pdf 转 markdown
pdf·mineru·magic-pdf
布啦啦李2 天前
Javascript网页设计案例:通过PDF.js实现一款PDF阅读器,包括预览、页面旋转、页面切换、放大缩小、黑夜模式等功能
javascript·pdf·pdf.js·pdf阅读器