Python巧妙操作PDF文档

PDF文档的特点

PDF（Portable Document Format）是一个通用文件格式，几乎可以在所有操作系统和设备上阅读。PDF 文件可以包含包括文本、图片、图形、表格、链接、多媒体等各种内容，具有高度的可读性和可编辑性，适用于各种文档形式的存储和传输。PDF 文件支持加密和数字签名保护机制，确保了文件的安全性。PDF 文件可以被搜索、复制、打印，方便办公和学习使用。

Python库操作PDF

PDF文件是一种常用的文件格式，用于共享和存储文档和图像。使用Python，我们可以很方便地操作PDF文件，例如合并、分割、加密、解密、转换格式等等。

本文将使用 PyPDF2 库来展示如何使用 Python 操作 PDF 文件。首先我们需要安装 PyPDF2 库，可以使用以下命令：

go 复制代码

pip install PyPDF2

这样我们就完成了Python操作PDF的准备工作

合并PDF文件

许多情况下，我们需要将多个 PDF 文件合并成一个文件，以方便阅读、打印和分享。下面是使用 PyPDF2 将两个 PDF 文件合并为一个文件的代码示例。

go 复制代码

import os
from PyPDF2 import PdfFileMerger, PdfFileReader

# 设置文件夹路径和相关文件名
path = os.getcwd() # 获取当前文件夹路径
pdfs = ['file1.pdf', 'file2.pdf'] # 要合并的文件名列表
output_pdf = 'merged_files.pdf' # 合并后的文件名

# 创建 PDF 合并对象
merger = PdfFileMerger()

# 循环读取要合并的 PDF 文件并添加到合并对象中
for pdf in pdfs:
    merger.append(PdfFileReader(pdf), 'rb')

# 将合并后的 PDF 文件保存到新文件中
merger.write(os.path.join(path, output_pdf))

拆分PDF文件

有时候，我们需要将一个大的 PDF 文件拆分成多个小的 PDF 文件，以方便分类和管理。下面是使用 PyPDF2 将一个 PDF 文件拆分成多个小的 PDF 文件的代码示例。

go 复制代码

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

# 设置文件夹路径和相关文件名
path = os.getcwd() # 获取当前文件夹路径
pdf = 'large_file.pdf' # 要拆分的文件名

# 读取要拆分的 PDF 文件
pdf_reader = PdfFileReader(os.path.join(path, pdf))

# 循环拆分 PDF 文件并保存到多个小的 PDF 文件中
for i in range(pdf_reader.getNumPages()):
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(i))
    output_pdf = f'page_{i+1}.pdf' # 每个 PDF 文件名的后缀为 页数
    with open(os.path.join(path, output_pdf), 'wb') as pdf_output:
        pdf_writer.write(pdf_output)

加密PDF文件

对于一些敏感的 PDF 文件，我们可能需要对其进行加密保护，以避免未经授权的访问。下面是使用 PyPDF2 对一个 PDF 文件进行加密的代码示例。

go 复制代码

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

# 设置文件夹路径和相关文件名
path = os.getcwd() # 获取当前文件夹路径
pdf = 'sensitive_file.pdf' # 要加密的文件名

# 读取要加密的 PDF 文件
pdf_reader = PdfFileReader(os.path.join(path, pdf))

# 创建 PDF 写入对象并设置密码
pdf_writer = PdfFileWriter()
pdf_writer.appendPagesFromReader(pdf_reader)
pdf_writer.encrypt('mypassword')

# 将加密后的 PDF 文件保存到新文件中
output_pdf = 'encrypted_file.pdf'
with open(os.path.join(path, output_pdf), 'wb') as pdf_output:
    pdf_writer.write(pdf_output)

解密PDF文件

当我们需要编辑或复制加密的 PDF 文件时，我们需要先对其进行解密。下面是使用 PyPDF2 对一个加密的 PDF 文件进行解密的代码示例。

go 复制代码

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

# 设置文件夹路径和相关文件名
path = os.getcwd() # 获取当前文件夹路径
pdf = 'encrypted_file.pdf' # 要解密的文件名

# 读取要解密的 PDF 文件并检查是否加密
pdf_reader = PdfFileReader(os.path.join(path, pdf))
if pdf_reader.isEncrypted:
    pdf_reader.decrypt('mypassword')

# 创建 PDF 写入对象并将解密后的 PDF 页面添加到其中
pdf_writer = PdfFileWriter()
for i in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(i))

# 将解密后的 PDF 文件保存到新文件中
output_pdf = 'decrypted_file.pdf'
with open(os.path.join(path, output_pdf), 'wb') as pdf_output:
    pdf_writer.write(pdf_output)

转换PDF文件格式

有时候，我们需要将 PDF 文件转换成其他格式，例如图片或文本。下面是使用 PyPDF2 将 PDF 文件转换成文本文件的代码示例。

go 复制代码

import os
from PyPDF2 import PdfFileReader

# 设置文件夹路径和相关文件名
path = os.getcwd() # 获取当前文件夹路径
pdf = 'file.pdf' # 要转换的文件名

# 读取要转换的 PDF 文件并获取其所有页面的文本内容
pdf_reader = PdfFileReader(os.path.join(path, pdf))
text = ''
for i in range(pdf_reader.getNumPages()):
    page = pdf_reader.getPage(i)
    text += page.extractText()

# 将 PDF 转换后的文本内容保存到新文件中
output_text = 'file.txt'
with open(os.path.join(path, output_text), 'w', encoding='utf-8') as f:
    f.write(text)

本文介绍了使用 PyPDF2 库来操作 PDF 文件的示例代码，包括合并、拆分、加密、解密和转换格式等。这些示例代码可以方便办公人员对 PDF 文件进行各种操作，提高工作效率。同时，Python 的实操性强，运行这些代码可以轻松完成上述的 PDF 文件操作功能。明显的体验是加快了PDF文档的合并，以及文本转换的速率，同时也更为便捷可控的进行拆分和加密等操作，使PDF文档操作更为灵活果断。

想要在线Python编程的朋友，快从这里 http://zglg.work 登录体验

或者点击下面阅读原文按钮