Python 轻松实现替换或修改 PDF 文字

在日常开发或文档处理过程中，经常会遇到需要对 PDF 文档中的文字进行修改的场景。例如更新合同条款、修正报表数据，或者批量替换文件中的特定内容。由于 PDF 格式以固定排版为特点，直接修改文字不像 Word 那样直观，因此需要借助专门的库来实现。

在 Python 中，有多种处理 PDF 的库，但大多数库在修改已有文字方面支持有限。Spire.PDF for Python 提供了较为完整的文字处理功能，能够对 PDF 页面上的文字内容进行精确替换和修改，而且无需依赖 Adobe Acrobat。本文将分享如何使用该库在 Python 中实现替换或修改 PDF 文字。

库安装方法

在使用 Spire.PDF for Python 之前，需要先安装该库。可以通过 pip 进行安装：

复制代码

pip install spire.pdf

安装完成后，即可在 Python 项目中导入相关模块开始处理 PDF 文档。

基本使用流程

使用 Spire.PDF for Python 替换文字的基本步骤如下：

加载 PDF 文档
创建 PdfDocument 对象，并加载目标 PDF 文件。
获取页面
使用 pdf.Pages.get_Item(index) 获取需要操作的页面。
创建文本替换器
使用 PdfTextReplacer(page) 创建替换器对象，准备进行文字替换。
执行替换操作
调用 ReplaceText 替换第一次出现的文字，或使用 ReplaceAllText 替换全部文字，并可设置文字颜色。
保存修改后的 PDF
完成替换后，将文档保存为新的 PDF 文件，保持原有排版。

单页替换示例（替换第一次出现的文字）

python 复制代码

from spire.pdf import *
from spire.pdf.common import *

# 创建 PDF 文档对象并加载文件
pdf = PdfDocument()
pdf.LoadFromFile("示例文档.pdf")

# 获取文档的第一页
page = pdf.Pages.get_Item(0)

# 创建 PdfTextReplacer 对象
replacer = PdfTextReplacer(page)

# 替换第一次出现的 "主要功能"
replacer.ReplaceText("主要功能", "功能介绍")

# 保存修改后的 PDF
pdf.SaveToFile("替换第一个文本.pdf")
pdf.Close()

在这个示例中，ReplaceText 仅替换页面中第一次出现的目标文字。

替换所有出现的文字

如果需要替换文档中所有匹配文字，可以使用 ReplaceAllText 方法：

python 复制代码

# 替换页面中所有的 "主要功能"
replacer.ReplaceAllText("主要功能", "功能介绍")

# 或者替换所有文字并设置新文字颜色
replacer.ReplaceAllText("主要功能", "功能介绍", Color.get_Red())

通过这种方式，不仅可以替换全部文字，还可以在替换时修改文字颜色，便于突出显示修改内容。

批量替换 PDF 文件中的文字

在实际项目中，经常需要对多个 PDF 文件执行相同的替换操作。下面示例展示如何批量处理文件夹中的 PDF 文件，并替换所有出现的文字，同时设置文字颜色。

python 复制代码

import os
from spire.pdf import *
from spire.pdf.common import *
from System.Drawing import Color

# 设置 PDF 文件夹路径
pdf_folder = "pdf_files"
output_folder = "pdf_modified"

# 如果输出文件夹不存在则创建
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 遍历文件夹中的所有 PDF 文件
for file_name in os.listdir(pdf_folder):
    if file_name.endswith(".pdf"):
        pdf_path = os.path.join(pdf_folder, file_name)
        pdf = PdfDocument()
        pdf.LoadFromFile(pdf_path)

        # 遍历每一页进行文字替换
        for i in range(pdf.Pages.Count):
            page = pdf.Pages.get_Item(i)
            replacer = PdfTextReplacer(page)

            # 替换页面中所有出现的文字，并设置新文字颜色为红色
            replacer.ReplaceAllText("旧文字", "新文字", Color.get_Red())

        # 保存修改后的 PDF
        output_path = os.path.join(output_folder, file_name)
        pdf.SaveToFile(output_path)
        pdf.Close()
        print(f"{file_name} 已处理完成")

说明

遍历文件夹
使用 Python 的 os.listdir 遍历指定文件夹中的 PDF 文件，实现批量处理。
逐页替换文字
PDF 文档由多个页面组成，使用 pdf.Pages.get_Item(i) 获取每一页，再创建 PdfTextReplacer 对象进行替换。
替换所有出现的文字并设置颜色
ReplaceAllText 方法会替换页面中所有匹配文字，并通过 Color.get_Red() 设置替换文字颜色。
保存输出
修改后的 PDF 文件保存到指定输出文件夹，保持原文件不被覆盖。

总结

在处理 PDF 文档时，文本替换是常见的操作需求。通过使用 Spire.PDF for Python，可以灵活地进行单页文字替换、全部文字替换、设置文字颜色，以及批量处理多个 PDF 文件。这些方法能够帮助开发者在日常文档维护和数据更新中提高效率，同时保持原有排版和样式的完整性。