利用 Python PyPDF2库轻松提取PDF文本(及其他高级操作)

当需要从PDF文件中提取文本时,Python中的PyPDF2库是一个非常有用的工具。无论您是需要分析PDF文档中的内容还是需要在文档中搜索特定的信息,PyPDF2都可以帮助您轻松实现这些任务。在本文中,我们将探讨如何使用PyPDF2库提取PDF文件中的文本,并提供一些示例代码来帮助您入门。

安装PyPDF2库

首先,您需要安装PyPDF2库。您可以使用pip来安装它:

nginx 复制代码
pip install PyPDF2

打开PDF文件,并读取内容

让我们从一个简单的示例开始。假设我们有一个名为"sample.pdf"的PDF文件,并且我们想要提取其中的文本内容。

makefile 复制代码
import PyPDF2


# 打开PDF文件
pdf_file = open('YOLOv1.pdf', 'rb')


# 创建一个PDF对象
pdf_reader = PyPDF2.PdfReader(pdf_file)


# 获取PDF文件中的页面数量
num_pages = len(pdf_reader.pages)


# 创建一个空字符串,用于存储提取的文本
text = ""


# 循环遍历每一页并提取文本
for page_num in range(num_pages):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()


# 关闭PDF文件
pdf_file.close()


# 打印提取的文本
print(text)

以上代码将打开名为"YOLOv1.pdf"的PDF文件,遍历每一页并将文本内容提取到一个字符串中。最后,它会打印提取的文本。

提取结果

高级用法

除了基本的文本提取,PyPDF2还提供了其他功能,例如合并多个PDF文件、旋转页面、添加书签等。让我们详细讨论一些高级用法,并提供相应的代码示例。

合并多个PDF文件

有时,您可能需要将多个PDF文件合并成一个文件。PyPDF2允许您执行此操作。

javascript 复制代码
from PyPDF2 import PdfWriter


merger = PdfWriter()


for pdf in ["M:\YOLOv1.pdf", "M:\YOLOv2.pdf"]:
    merger.append(pdf)


merger.write("M:\merged.pdf")
merger.close()

以上代码将打开名为'YOLOv1.pdf'和'YOLOv1.pdf'的两个PDF文件,将它们的内容合并到一个新的PDF文件'merged.pdf'中。

旋转页面

有时,PDF文件中的页面可能需要旋转。使用PyPDF2,您可以旋转页面以适应您的需求。

makefile 复制代码
import PyPDF2


# 打开PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')


# 创建PDF对象
pdf_reader = PyPDF2.PdfReader(pdf_file)


# 创建一个新的PDF对象
pdf_writer = PyPDF2.PdfWriter()


# 旋转第一页90度
page = pdf_reader.pages[0]
page.rotate(90)
pdf_writer.add_page(page)


# 将未旋转的页面添加到新文件中
for page_num in range(1, len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)


# 创建一个新的PDF文件并保存旋转后的内容
output_pdf = open('M:\YOLOv1-rd.pdf', 'wb')
pdf_writer.write(output_pdf)


# 关闭所有打开的文件
pdf_file.close()
output_pdf.close()

以上代码将打开名为'YOLOv1.pdf'的PDF文件,旋转第一页90度,并将旋转后的页面保存到新的PDF文件'YOLOv1-rd.pdf'中。

添加书签

您还可以使用PyPDF2在PDF文件中添加书签,以便更轻松地导航和查找内容。

以上代码将打开名为'YOLOv1.pdf'的PDF文件,将其内容复制到新的PDF文件'YOLOv1-copy.pdf'中,并在第一页和第六页添加了两个书签。

cs 复制代码
import PyPDF2


# 打开PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')


# 创建PDF对象
pdf_reader = PyPDF2.PdfReader(pdf_file)


# 创建一个新的PDF对象
pdf_writer = PyPDF2.PdfWriter()


# 循环遍历每一页并将页面添加到新文件中
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)


# 添加书签
pdf_writer.add_bookmark('Chapter 1', 0)  # 在第一页添加一个名为"Chapter 1"的书签
pdf_writer.add_bookmark('Chapter 2', 5)  # 在第六页添加一个名为"Chapter 2"的书签


# 创建一个新的PDF文件并保存带有书签的内容
output_pdf = open('M:\YOLOv1-copy.pdf', 'wb')
pdf_writer.write(output_pdf)


# 关闭所有打开的文件
pdf_file.close()
output_pdf.close()

结论

使用PyPDF2库,您可以轻松地从PDF文件中提取文本,这对于数据分析、信息检索和自动化任务非常有用。希望这篇文章和示例代码有助于您开始使用PyPDF2进行PDF文本提取。如若需要其他高级用法,例如比例调整、放缩等操作,可以访问PyPDF2的官方网站查看其他示例。

· END ·

HAPPY LIFE

本文仅供学习交流使用,如有侵权请联系作者删除

相关推荐
code monkey.11 小时前
【Linux之旅】Linux 应用层自定义协议与序列化:从粘包问题到网络计算器
linux·网络·c++
wgc2k11 小时前
Node.js游戏服务器项目移植-2: 用TypeScript还是Javascript
服务器·游戏·node.js
Wang ruoxi11 小时前
Pygame 小游戏——贪吃蛇
python·pygame
草莓熊Lotso11 小时前
【Linux网络】深入理解 HTTP 协议(二):从协议格式到手写工业级 HTTP 服务器
linux·运维·服务器·网络·c++·http
上海云盾第一敬业销售12 小时前
服务器遭受攻击的应对策略及快速防护实践
运维·服务器·web安全·ddos
大数据魔法师16 小时前
Streamlit(二十三)- 教程(二)- 动态导航
python·web
剑神一笑17 小时前
Linux pgrep 命令详解:按名称查找进程 PID 的高效方法
linux·运维·chrome
AI人工智能+电脑小能手18 小时前
【大白话说Java面试题 第87题】【Mysql篇】第17题:分布式事务的实现原理?
java·数据库·分布式·mysql·面试
yyuuuzz18 小时前
独立站的技术基础与常见运维问题
大数据·运维·服务器·网络·数据库·aws
剑神一笑18 小时前
Linux killall 命令详解:按进程名批量终止进程的原理与实践
linux·运维·chrome