Python 高效实现 Word 转 PDF：告别 Office 依赖

在工作中，经常会遇到需要把 Word 文档转换成 PDF 的情况。比如生成报表、分发文档、或者做归档保存，PDF 格式在排版和跨平台显示上更稳定。

传统的做法往往依赖 Microsoft Office 或 LibreOffice 等软件来完成转换，但在自动化环境（如服务器、Docker 容器、Linux 系统）中，这类方式会遇到一些限制：需要额外安装软件、依赖复杂，甚至存在兼容性问题。

因此，很多开发者更希望使用无依赖的 Python 库来完成转换。本文将介绍如何借助 Spire.Doc for Python库，在不依赖 Office 的情况下，实现 doc 转 pdf、docx 转 pdf，并支持批量转换与多种转换设置。

一、安装 Spire.Doc for Python

在使用之前，需要先安装库。可以直接使用以下 pip 命令来安装：

复制代码

pip install spire-doc

安装完成后，就可以在 Python 代码中使用 from spire.doc import * 导入该库的模块来处理和转换 Word 文档。

二、Python Word 转 PDF 基本示例

下面是 Word 转 PDF 一个最基础的示例。只需要两步：加载文件、保存为 PDF。

python 复制代码

from spire.doc import *

# 创建文档对象
doc = Document()

# 加载 Word 文件
doc.LoadFromFile("input.docx")

# 转换并保存为 PDF
doc.SaveToFile("output.pdf", FileFormat.PDF)

# 关闭文档，释放资源
doc.Close()

代码说明：

Document()：创建一个 Word 文档对象。
LoadFromFile("input.docx")：加载指定路径的 Word 文件。
SaveToFile("output.pdf", FileFormat.PDF)：将文档保存为 PDF 格式。
Close()：关闭文档，释放资源。

三、批量转换 Word 文档为 PDF

如果有大量 Word 文件需要转换，可以将它们放在一个目录下，然后遍历目录并批量转换。以下是具体的代码示例：

python 复制代码

import os
from spire.doc import *

input_dir = "word_files"
output_dir = "pdf_files"
os.makedirs(output_dir, exist_ok=True)

for file in os.listdir(input_dir):
    if file.endswith(".doc") or file.endswith(".docx"):
        doc = Document()
        doc.LoadFromFile(os.path.join(input_dir, file))
        pdf_path = os.path.join(output_dir, file.rsplit(".", 1)[0] + ".pdf")
        doc.SaveToFile(pdf_path, FileFormat.PDF)
        doc.Close()

代码说明：

os.listdir(input_dir)：遍历文件夹中的所有文件。
file.endswith(".doc") or file.endswith(".docx")：只处理 Word （.doc 或 .docx）文件。
os.makedirs(output_dir, exist_ok=True)：如果目标文件夹不存在，则自动创建。
每次处理完一个文档后调用 Close()，避免内存占用过多。

四、转换设置与优化

在不同的应用场景下，生成的 PDF 可能需要不同的属性，例如文件体积更小、排版更精细、符合归档标准等。Spire.Doc for Python 提供了可调节的参数来满足这些需求。

1. 图片优化（减小 PDF 大小）

python 复制代码

# 将图像压缩到原始质量的40%
document.JPEGQuality = 40

# 保留原始图像质量
# document.JPEGQuality = 100

这样可以有效减小 PDF 文件大小，适合包含大量图片的 Word 文档。

2. 字体嵌入处理（避免乱码）

python 复制代码

# 创建 ToPdfParameterList 类的对象
parameter = ToPdfParameterList()

# 将字体嵌入到生成的PDF中
parameter.IsEmbeddedAllFonts = True

# 将文档保存为PDF
document.SaveToFile("output.pdf", parameter)

避免目标设备缺少字体时，导致 PDF 显示异常。

3. PDF/A 合规标准

python 复制代码

# 创建 ToPdfParameterList 类的对象
parameters = ToPdfParameterList()

# 设置 PDF/A 合规标准
parameters.PdfConformanceLevel = PdfConformanceLevel.Pdf_A1A

# 将文档保存为 PDF/A-1a 文件
document.SaveToFile("output.pdf", parameters)

用于生成符合 PDF/A 标准的文件，常用于档案归档。

4. 加密与权限控制

python 复制代码

# 创建 ToPdfParameterList 类的对象
parameter = ToPdfParameterList()

# 设置打开密码和权限密码，并用其保护生成的 PDF 文件
openPsd = "abc123"
permissionPsd = "E-iceblue"
parameter.PdfSecurity.Encrypt(openPsd, permissionPsd, PdfPermissionsFlags.Default, PdfEncryptionKeySize.Key128Bit)

# 将文档保存为加密的PDF
document.SaveToFile("output.pdf", parameter)

可以为 PDF 设置打开密码，并限制打印、复制等操作。

五、异常处理

python 复制代码

import os
from spire.doc import *

input_dir = "word_files"
output_dir = "pdf_files"
os.makedirs(output_dir, exist_ok=True)

for file in os.listdir(input_dir):
    if file.endswith(".doc") or file.endswith(".docx"):
        try:
            doc = Document()
            doc.LoadFromFile(os.path.join(input_dir, file))
            pdf_path = os.path.join(output_dir, file.rsplit(".", 1)[0] + ".pdf")
            doc.SaveToFile(pdf_path, FileFormat.PDF)
            print(f"成功转换: {file} → {pdf_path}")
        except Exception as e:
            print(f"转换失败: {file}, 错误信息: {str(e)}")
        finally:
            if 'doc' in locals():
                doc.Close()

代码说明：

try ... except ... finally：保证即使出错，程序也能继续执行。
print(f"...")：方便输出日志，便于排查问题。
finally 确保即使出错，也会关闭文档，避免内存泄漏。

六、适用场景

自动化报表生成：将 Word 报表定时转换为 PDF。
文档归档：统一转换为 PDF/A，方便长期保存。
在线服务：搭建"上传 Word → 下载 PDF"的 Web 接口。
批量处理：快速将大量 Word 文件转换为 PDF，提升工作效率。

七、总结

本文介绍了在 Python 中使用 Spire.Doc 实现 Word 文档到 PDF 的转换方法。通过实例演示了：

单文件和批量文件的转换流程；
转换过程中可配置的参数，如图像压缩、字体嵌入、PDF/A 合规性和加密设置；
异常处理与资源释放的注意事项，确保在批量或自动化场景下程序稳定运行。

总体来看，利用 Spire.Doc 可以在不依赖 Office 的环境中完成高效、稳定的 Word 到 PDF 转换，并且转换选项灵活，可根据具体需求调整。上述方法适合在报表生成、文档归档或在线文档处理等场景中应用。