使用 Python 简单几步去除 PDF 水印

推荐一个AI网站，免费使用豆包AI模型，快去白嫖👉海鲸AI

在处理 PDF 文件时，水印有时会影响文件的可读性或美观性。幸运的是，Python 提供了多种库来操作 PDF 文件，其中 PyMuPDF（又名 fitz）是一个强大的工具，可以用于去除 PDF 水印。本文将介绍如何使用 PyMuPDF 去除 PDF 文件中的水印，并提供详细的代码示例。

安装 PyMuPDF

首先，我们需要安装 PyMuPDF 库。你可以使用以下命令通过 pip 安装：

bash 复制代码

pip install PyMuPDF

代码示例

下面是一个完整的代码示例，演示如何使用 PyMuPDF 去除 PDF 文件中的水印。

python 复制代码

import fitz  # PyMuPDF

def remove_watermark(input_pdf, output_pdf, watermark_text):
    # 打开 PDF 文件
    doc = fitz.open(input_pdf)
    
    # 遍历每一页
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text_instances = page.search_for(watermark_text)
        
        # 遍历找到的水印实例
        for inst in text_instances:
            page.add_redact_annot(inst, fill=(1, 1, 1))  # 用白色填充覆盖水印
            page.apply_redactions()
    
    # 保存修改后的 PDF
    doc.save(output_pdf)
    print(f"水印已成功移除，保存为 {output_pdf}")

if __name__ == "__main__":
    input_pdf = "input.pdf"
    output_pdf = "output.pdf"
    watermark_text = "Confidential"  # 这里替换为你的水印文本

    remove_watermark(input_pdf, output_pdf, watermark_text)

代码解析

导入库 ：首先，我们导入 fitz 库，这是 PyMuPDF 的别名。
打开 PDF 文件 ：使用 fitz.open(input_pdf) 打开输入的 PDF 文件。
遍历每一页 ：使用 for page_num in range(len(doc)) 遍历 PDF 文件的每一页。
搜索水印文本 ：使用 page.search_for(watermark_text) 搜索页面中的水印文本实例。
添加遮盖注释 ：使用 page.add_redact_annot(inst, fill=(1, 1, 1)) 方法添加遮盖注释，fill=(1, 1, 1) 表示用白色填充。
应用遮盖 ：使用 page.apply_redactions() 方法应用遮盖。
保存修改后的 PDF ：使用 doc.save(output_pdf) 保存修改后的 PDF 文件。

注意事项

水印文本 ：确保 watermark_text 与 PDF 文件中的水印文本完全匹配，包括大小写和空格。
复杂水印：对于复杂的水印（如图片水印或带有复杂格式的文本水印），上述方法可能不适用，需要更复杂的处理方法。
备份文件：在处理 PDF 文件之前，建议备份原始文件，以防操作失误导致文件损坏。

结论

使用 PyMuPDF 去除 PDF 水印是一种简单而有效的方法。通过本文的介绍和代码示例，你可以轻松地去除 PDF 文件中的文本水印。如果你需要处理更复杂的水印，可能需要进一步研究 PyMuPDF 的高级功能或结合其他 PDF 处理库。希望本文对你有所帮助！

推荐一个AI网站，免费使用豆包AI模型，快去白嫖👉海鲸AI