Python 实现 PDF 文件加密与解密方法

在企业文档管理和信息安全领域,PDF 文档的安全保护是一个不可忽视的环节。无论是合同文件、财务报表还是内部技术资料,都需要通过加密手段来防止未经授权的访问和篡改。手动为每份文档设置密码不仅耗时,而且难以集成到自动化工作流中。

Python 提供了编程方式来批量处理 PDF 文档的加密和解密操作。通过代码控制密码设置、加密算法选择和权限分配,可以将文档安全策略标准化并嵌入到现有的文档处理管线中。本文将介绍如何使用 Python 实现 PDF 文档的加密、权限控制和解密。

环境准备

本文使用 Spire.PDF for Python 库来操作 PDF 文件,通过 pip 安装:

复制代码

bash

代码解读

复制代码

pip install Spire.PDF

在脚本中导入所需模块:

复制代码

python

代码解读

复制代码

from spire.pdf import *

PDF 加密的核心概念

在开始编码之前,需要了解 PDF 加密体系中的几个关键概念:

  • 用户密码(User Password):打开文档时需要输入的密码。设置了用户密码后,没有密码的用户将无法查看文档内容。
  • 所有者密码(Owner Password):控制文档权限的密码。拥有所有者密码的用户可以修改文档的安全设置和权限。
  • 加密算法:PDF 支持多种加密标准,包括 RC4(40 位和 128 位)、AES-128 和 AES-256。算法强度越高,安全性越好。
  • 文档权限:控制用户是否可以对文档执行特定操作,如打印、复制文本、填写表单等。

在 Spire.PDF 中,这些设置通过 PdfPasswordSecurityPolicy 类统一管理。

使用 RC4 算法加密 PDF

最基本的加密方式是为 PDF 设置用户密码和所有者密码。以下示例使用 RC4-128 位加密算法,并允许打印和填写表单:

复制代码

python

代码解读

复制代码

from spire.pdf import * # 加载 PDF 文档 doc = PdfDocument() doc.LoadFromFile("input.pdf") # 创建安全策略,参数分别为用户密码和所有者密码 securityPolicy = PdfPasswordSecurityPolicy("open", "test") # 设置加密算法为 RC4-128 位 securityPolicy.EncryptionAlgorithm = PdfEncryptionAlgorithm.RC4_128 # 定义文档权限:先禁止所有操作,再逐项开放 dp = PdfDocumentPrivilege.ForbidAll() dp.AllowPrint = True dp.AllowFillFormFields = True securityPolicy.DocumentPrivilege = dp # 应用加密策略 doc.Encrypt(securityPolicy) # 保存文档 doc.SaveToFile("Encrypted_RC4.pdf")

代码中的关键逻辑是权限控制部分。ForbidAll() 先将所有权限设为禁止状态,然后通过设置 AllowPrintAllowFillFormFieldsTrue 来开放特定操作。这种"默认禁止、逐项放行"的策略比"默认允许、逐项禁止"更加安全,因为不会遗漏某些未显式禁止的权限。

使用 AES 加密提高安全等级

AES(高级加密标准)是目前业界广泛认可的加密算法,相比 RC4 具有更高的安全性。Spire.PDF 支持 AES-128 和 AES-256 两种密钥长度:

复制代码

python

代码解读

复制代码

from spire.pdf import * # 加载 PDF 文档 pdfDocument = PdfDocument() pdfDocument.LoadFromFile("input.pdf") # 创建安全策略 securityPolicy = PdfPasswordSecurityPolicy("123456789", "M123456789") # 使用 AES-128 加密算法 securityPolicy.EncryptionAlgorithm = PdfEncryptionAlgorithm.AES_128 # 禁止所有权限,仅允许打印 securityPolicy.DocumentPrivilege = PdfDocumentPrivilege.ForbidAll() securityPolicy.DocumentPrivilege.AllowPrint = True # 加密并保存 pdfDocument.Encrypt(securityPolicy) pdfDocument.SaveToFile("Encrypted_AES128.pdf") pdfDocument.Close()

需要注意的是,AES 加密要求用户密码长度至少为 8 个字符。如果密码过短,加密操作可能会失败。在生产环境中,建议使用包含大小写字母、数字和特殊字符的强密码。

使用 AES-256 进行高级别加密

对于包含敏感商业数据或个人信息的文档,AES-256 提供了最高级别的加密保护:

复制代码

python

代码解读

复制代码

from spire.pdf import * doc = PdfDocument() doc.LoadFromFile("input.pdf") # 不设置用户密码(留空),仅设置所有者密码 securityPolicy = PdfPasswordSecurityPolicy("", "test") # 使用 AES-256 加密 securityPolicy.EncryptionAlgorithm = PdfEncryptionAlgorithm.AES_256 # 设置权限:允许降级打印和填写表单 dp = PdfDocumentPrivilege.ForbidAll() dp.AllowDegradedPrinting = True dp.AllowFillFormFields = True securityPolicy.DocumentPrivilege = dp doc.Encrypt(securityPolicy) doc.SaveToFile("Encrypted_AES256.pdf")

这段代码有一个值得注意的细节:用户密码被设置为空字符串。这意味着任何人都可以打开文档查看内容,但文档的操作权限(打印、复制等)受到所有者密码的保护。这种配置适用于需要广泛分发但需要限制编辑和复制的文档场景。

AllowDegradedPrintingAllowPrint 的区别在于:降级打印会以较低的分辨率输出,防止高质量的文档复制,适合保护包含知识产权的内容。

解密 PDF 文档

解密操作需要知道所有者密码(或用户密码),在加载文档时传入密码参数,然后调用 Decrypt() 方法:

复制代码

python

代码解读

复制代码

from spire.pdf import * # 使用所有者密码加载加密的 PDF doc = PdfDocument() doc.LoadFromFile("Encrypted_RC4.pdf", "test") # 解密文档 doc.Decrypt() # 保存为未加密的 PDF doc.SaveToFile("Decrypted.pdf")

如果使用用户密码打开文档,解密时还需要额外提供所有者密码:

复制代码

python

代码解读

复制代码

# 使用用户密码加载 doc.LoadFromFile("Encrypted_RC4.pdf", "open") # 传入所有者密码进行解密 doc.Decrypt("test") doc.SaveToFile("Decrypted.pdf")

解密后的 PDF 文档将不再受任何密码和权限保护,可以正常打开和编辑。

可用权限一览

PdfDocumentPrivilege 提供了多种权限控制选项,以下是常用的权限属性:

权限属性 说明
AllowPrint 允许高质量打印
AllowDegradedPrinting 允许降级(低分辨率)打印
AllowCopy 允许复制文档内容
AllowFillFormFields 允许填写表单字段
AllowModifyContents 允许修改文档内容
AllowComment 允许添加注释

合理组合这些权限,可以为不同类型的文档制定差异化的安全策略。例如,分发给客户的报告可以允许打印但禁止复制;内部使用的表单可以允许填写但禁止修改其他内容。