Python 实现 PDF 文档压缩：完整指南

在日常办公、电子档案管理和文档传输中，PDF 文件因其格式固定、兼容性强而被广泛使用。然而，随着文档内容丰富、图片和图表增多，PDF 文件体积往往会变得很大，导致上传、分享和存储效率降低。如何在保证文档可读性的前提下减小 PDF 文件大小，成为实际应用中常见的问题。

本文将介绍如何使用 Python 对 PDF 文档进行压缩，帮助开发者高效处理 PDF 文件。

一、为什么需要压缩 PDF

节省存储空间：大型 PDF 文件占用大量磁盘空间，尤其在企业文档管理系统中，存储成本明显增加。
提高传输效率：邮件或在线传输大文件容易失败，压缩 PDF 可加快上传和下载速度。
提升用户体验：用户在打开大文件时可能出现卡顿，压缩后的 PDF 更易于阅读和浏览。
满足系统限制：某些网站或系统对上传文件大小有限制，压缩 PDF 是必要操作。

二、安装与环境准备

在使用 Python 对 PDF 文档进行压缩之前，需要准备相应的 PDF 处理工具库。本文所使用的是Spire.PDF for Python，该类库可以帮助开发者直接对 PDF 中的文本、图片和字体进行操作，无需依赖第三方软件即可实现文件压缩、优化和保存。

安装方式很简单，可以通过 Python 的包管理工具 pip 快速完成：

python 复制代码

pip install spire.pdf

安装完成后，即可在代码中导入 spire.pdf 模块，进行 PDF 压缩、合并、拆分、加密等操作。

三、单文件压缩示例

下面示例演示如何加载单个 PDF 文件，并设置图像压缩和质量参数：

python 复制代码

from spire.pdf import *

# 加载 PDF 文件
compressor = PdfCompressor("C:/Users/Administrator/Documents/示例.pdf")

# 获取压缩设置
options = compressor.OptimizationOptions

# 启用图片缩放
options.SetResizeImages(True)

# 启用图片压缩
options.SetIsCompressImage(True)

# 设置图片压缩质量（低/中/高）
options.SetImageQuality(ImageQuality.Medium)

# 执行压缩并保存
compressor.CompressToFile("压缩.pdf")
print("PDF 压缩完成，文件已保存为 压缩.pdf")

说明：

SetResizeImages(True)：启用对 PDF 内嵌图片进行缩放，减少尺寸
SetIsCompressImage(True)：启用图片压缩
SetImageQuality(ImageQuality.Medium)：设置压缩质量，Low、Medium、High可选
CompressToFile：执行压缩并保存到指定路径

四、压缩字体示例

在某些 PDF 中，嵌入字体可能占用大量空间。压缩或取消嵌入字体可以显著减少文件的大小：

python 复制代码

from spire.pdf import *

# 加载 PDF 文件
compressor = PdfCompressor("C:/Users/Administrator/Documents/示例.pdf")

# 获取压缩设置
options = compressor.OptimizationOptions

# 启用字体压缩
options.SetIsCompressFonts(True)

# 可选：取消嵌入字体
# options.SetIsUnembedFonts(True)

# 执行压缩并保存
compressor.CompressToFile("压缩_fonts.pdf")
print("PDF 字体压缩完成")

说明：

启用字体压缩可减少字体占用空间
取消嵌入字体可进一步压缩，但可能影响 PDF 在其他系统上的显示效果

五、批量压缩 PDF 示例

在实际工作中，可能需要压缩一个目录下的所有 PDF 文件，可以结合 Python 的 os 模块实现：

python 复制代码

import os
from spire.pdf import *

input_folder = "C:/Users/Administrator/Documents/PDFs"
output_folder = "C:/Users/Administrator/Documents/CompressedPDFs"

os.makedirs(output_folder, exist_ok=True)

for filename in os.listdir(input_folder):
    if filename.endswith(".pdf"):
        input_path = os.path.join(input_folder, filename)
        output_path = os.path.join(output_folder, filename)

        compressor = PdfCompressor(input_path)
        options = compressor.OptimizationOptions
        options.SetResizeImages(True)
        options.SetIsCompressImage(True)
        options.SetImageQuality(ImageQuality.Medium)
        options.SetIsCompressFonts(True)

        compressor.CompressToFile(output_path)
        print(f"{filename} 已压缩完成")

说明：

自动遍历文件夹内所有 PDF 文件
可统一设置图像压缩和字体压缩参数
输出路径可自定义，便于管理
对大量文件，可结合多线程提高效率

六、压缩注意事项

压缩与清晰度：过度压缩图像可能降低阅读体验，应根据实际需求选择合适质量。
字体嵌入：取消嵌入字体可以减小文件，但可能导致在其他系统显示异常。
备份原始文件：在批量压缩前，建议保留原始文件以防压缩效果不理想。
性能优化：批量处理大量文件时，可使用多线程或分批处理，减少阻塞。
兼容性：确保 PDF 文件不是加密或受保护的，否则压缩可能失败。

七、总结

使用 Python，开发者可以高效实现 PDF 文件压缩，无需依赖其他工具或软件。无论是单个文件还是批量处理，都可以通过简单几行代码完成。掌握这些方法后，可以大幅减少 PDF 文件体积，提高文件传输、存储和浏览效率，是文档管理和办公自动化中非常实用的技术手段。