Python 实现 PDF 文件加密与解密方法

在企业文档管理和信息安全领域,PDF 文档的安全保护是一个不可忽视的环节。无论是合同文件、财务报表还是内部技术资料,都需要通过加密手段来防止未经授权的访问和篡改。手动为每份文档设置密码不仅耗时,而且难以集成到自动化工作流中。

Python 提供了编程方式来批量处理 PDF 文档的加密和解密操作。通过代码控制密码设置、加密算法选择和权限分配,可以将文档安全策略标准化并嵌入到现有的文档处理管线中。本文将介绍如何使用 Python 实现 PDF 文档的加密、权限控制和解密。

环境准备

本文使用 Spire.PDF for Python 库来操作 PDF 文件,通过 pip 安装:

bash 复制代码
pip install Spire.PDF

在脚本中导入所需模块:

python 复制代码
from spire.pdf import *

PDF 加密的核心概念

在开始编码之前,需要了解 PDF 加密体系中的几个关键概念:

  • 用户密码(User Password):打开文档时需要输入的密码。设置了用户密码后,没有密码的用户将无法查看文档内容。
  • 所有者密码(Owner Password):控制文档权限的密码。拥有所有者密码的用户可以修改文档的安全设置和权限。
  • 加密算法:PDF 支持多种加密标准,包括 RC4(40 位和 128 位)、AES-128 和 AES-256。算法强度越高,安全性越好。
  • 文档权限:控制用户是否可以对文档执行特定操作,如打印、复制文本、填写表单等。

在 Spire.PDF 中,这些设置通过 PdfPasswordSecurityPolicy 类统一管理。

使用 RC4 算法加密 PDF

最基本的加密方式是为 PDF 设置用户密码和所有者密码。以下示例使用 RC4-128 位加密算法,并允许打印和填写表单:

python 复制代码
from spire.pdf import *

# 加载 PDF 文档
doc = PdfDocument()
doc.LoadFromFile("input.pdf")

# 创建安全策略,参数分别为用户密码和所有者密码
securityPolicy = PdfPasswordSecurityPolicy("open", "test")

# 设置加密算法为 RC4-128 位
securityPolicy.EncryptionAlgorithm = PdfEncryptionAlgorithm.RC4_128

# 定义文档权限:先禁止所有操作,再逐项开放
dp = PdfDocumentPrivilege.ForbidAll()
dp.AllowPrint = True
dp.AllowFillFormFields = True
securityPolicy.DocumentPrivilege = dp

# 应用加密策略
doc.Encrypt(securityPolicy)

# 保存文档
doc.SaveToFile("Encrypted_RC4.pdf")

代码中的关键逻辑是权限控制部分。ForbidAll() 先将所有权限设为禁止状态,然后通过设置 AllowPrintAllowFillFormFieldsTrue 来开放特定操作。这种"默认禁止、逐项放行"的策略比"默认允许、逐项禁止"更加安全,因为不会遗漏某些未显式禁止的权限。

使用 AES 加密提高安全等级

AES(高级加密标准)是目前业界广泛认可的加密算法,相比 RC4 具有更高的安全性。Spire.PDF 支持 AES-128 和 AES-256 两种密钥长度:

python 复制代码
from spire.pdf import *

# 加载 PDF 文档
pdfDocument = PdfDocument()
pdfDocument.LoadFromFile("input.pdf")

# 创建安全策略
securityPolicy = PdfPasswordSecurityPolicy("123456789", "M123456789")

# 使用 AES-128 加密算法
securityPolicy.EncryptionAlgorithm = PdfEncryptionAlgorithm.AES_128

# 禁止所有权限,仅允许打印
securityPolicy.DocumentPrivilege = PdfDocumentPrivilege.ForbidAll()
securityPolicy.DocumentPrivilege.AllowPrint = True

# 加密并保存
pdfDocument.Encrypt(securityPolicy)
pdfDocument.SaveToFile("Encrypted_AES128.pdf")
pdfDocument.Close()

需要注意的是,AES 加密要求用户密码长度至少为 8 个字符。如果密码过短,加密操作可能会失败。在生产环境中,建议使用包含大小写字母、数字和特殊字符的强密码。

使用 AES-256 进行高级别加密

对于包含敏感商业数据或个人信息的文档,AES-256 提供了最高级别的加密保护:

python 复制代码
from spire.pdf import *

doc = PdfDocument()
doc.LoadFromFile("input.pdf")

# 不设置用户密码(留空),仅设置所有者密码
securityPolicy = PdfPasswordSecurityPolicy("", "test")

# 使用 AES-256 加密
securityPolicy.EncryptionAlgorithm = PdfEncryptionAlgorithm.AES_256

# 设置权限:允许降级打印和填写表单
dp = PdfDocumentPrivilege.ForbidAll()
dp.AllowDegradedPrinting = True
dp.AllowFillFormFields = True
securityPolicy.DocumentPrivilege = dp

doc.Encrypt(securityPolicy)
doc.SaveToFile("Encrypted_AES256.pdf")

这段代码有一个值得注意的细节:用户密码被设置为空字符串。这意味着任何人都可以打开文档查看内容,但文档的操作权限(打印、复制等)受到所有者密码的保护。这种配置适用于需要广泛分发但需要限制编辑和复制的文档场景。

AllowDegradedPrintingAllowPrint 的区别在于:降级打印会以较低的分辨率输出,防止高质量的文档复制,适合保护包含知识产权的内容。

解密 PDF 文档

解密操作需要知道所有者密码(或用户密码),在加载文档时传入密码参数,然后调用 Decrypt() 方法:

python 复制代码
from spire.pdf import *

# 使用所有者密码加载加密的 PDF
doc = PdfDocument()
doc.LoadFromFile("Encrypted_RC4.pdf", "test")

# 解密文档
doc.Decrypt()

# 保存为未加密的 PDF
doc.SaveToFile("Decrypted.pdf")

如果使用用户密码打开文档,解密时还需要额外提供所有者密码:

python 复制代码
# 使用用户密码加载
doc.LoadFromFile("Encrypted_RC4.pdf", "open")

# 传入所有者密码进行解密
doc.Decrypt("test")

doc.SaveToFile("Decrypted.pdf")

解密后的 PDF 文档将不再受任何密码和权限保护,可以正常打开和编辑。

可用权限一览

PdfDocumentPrivilege 提供了多种权限控制选项,以下是常用的权限属性:

权限属性 说明
AllowPrint 允许高质量打印
AllowDegradedPrinting 允许降级(低分辨率)打印
AllowCopy 允许复制文档内容
AllowFillFormFields 允许填写表单字段
AllowModifyContents 允许修改文档内容
AllowComment 允许添加注释

合理组合这些权限,可以为不同类型的文档制定差异化的安全策略。例如,分发给客户的报告可以允许打印但禁止复制;内部使用的表单可以允许填写但禁止修改其他内容。

实用技巧

加密算法的选择建议:RC4-128 兼容性好,适合需要兼容旧版 PDF 阅读器的场景;AES-128 适用于大多数日常需求;AES-256 则推荐用于包含高度敏感信息的文档。在安全要求不特别严格的场景下,AES-128 已经足够。

批量加密处理 :当需要对文件夹中的多个 PDF 统一加密时,可以结合 Python 的 ospathlib 模块遍历文件,对每个文件应用相同的安全策略。所有者密码和用户密码可以通过配置文件或环境变量管理,避免硬编码在脚本中。

密码管理规范:在实际项目中,密码不应直接写在源代码中。建议使用环境变量、配置文件或密钥管理服务来存储密码,以降低密码泄露的风险。

总结

本文介绍了使用 Python 对 PDF 文档进行加密和解密的完整方法,涵盖了 RC4、AES-128、AES-256 三种加密算法的使用,以及用户密码、所有者密码和文档权限的配置方式。这些功能在文档安全管理、自动化报告生成和内容保护等场景中具有广泛的实用价值。

结合 Spire.PDF 的其他功能,如水印添加、文本替换和表单处理等,可以构建更加完善的文档安全自动化方案。

相关推荐
小满zs1 小时前
Go语言第二章(小无相功)
后端·go
用户8356290780511 小时前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
karry_k1 小时前
MyBatis批量insert-select踩坑:useGeneratedKeys=true 可能让PostgreSQL返回大量插入结果
java·后端
妙码生花1 小时前
从 PHP 到 AI + Golang,程序员自救转型手记(十九):点选验证码代码逐行目检
前端·后端·go
贰先生1 小时前
Xiuno BBS X版 用户封禁系统
后端
karry_k1 小时前
PostgreSQL 在 MyBatis 中执行正常 SQL 失效:一次 DELETE USING 踩坑记录
java·后端
ServBay2 小时前
不会写代码也能建站?AI 时代,非技术创始人如何从零搭建自己的 Web 项目
后端·mcp
Moladev2 小时前
如何在 Electron 中接入 OpenAI 兼容的大模型 API:Snaptium 的主进程代理实践
后端
Oneslide2 小时前
根分区爆满却找不到大文件?深度解析 Linux df 与 du 不一致的经典故障
后端