利用Python去除PDF水印

摘要

本文介绍了如何使用 Python 中的 PyMuPDF 和 OpenCV 库来从 PDF 文件中移除水印,并将每个页面保存为图像文件的方法。我们将深入探讨代码背后的工作原理,并提供一个简单的使用示例。

导言

  • 简介:水印在许多 PDF 文件中都很常见,但有时它们可能会干扰文档的可读性或美观性。本文将介绍一种利用 Python 编程语言移除 PDF 水印的方法。
  • 目标:本文将介绍一个使用 PyMuPDF 和 OpenCV 库的 Python 脚本,该脚本可以自动化地将 PDF 文件中(原文件)水印移除,并将每个页面保存为单独的图像文件,然后合成为新的PDF。

背景知识

  • PyMuPDF:PyMuPDF 是一个 Python 绑定库,用于与 MuPDF(一款用于解析和渲染 PDF 文件的开源软件)进行交互。
  • OpenCV:OpenCV 是一个开源计算机视觉库,提供了许多用于图像处理和计算机视觉任务的功能。

技术细节

remove_watermark 函数

  • 将图像转换为 OpenCV 格式。
  • 使用颜色阈值技术寻找特定颜色范围内的水印区域。
  • 进行膨胀和侵蚀操作以改善水印去除效果。
  • 将图像转换回 PIL 格式并返回处理后的图像。

remove_pdf 函数

  • 打开 PDF 文件并设置缩放因子。
  • 遍历每一页的内容,将其转换为图像格式。
  • 对每个图像应用 remove_watermark 函数,移除水印。
  • 将处理后的图像保存到指定文件夹中。

代码示例

python 复制代码
from itertools import product
import fitz  # PyMuPDF
from PIL import Image
import numpy as np
import cv2
import os


def remove_watermark(image, lower_bound, upper_bound):
    # 转换为OpenCV格式
    open_cv_image = np.array(image)
    open_cv_image = cv2.cvtColor(open_cv_image, cv2.COLOR_RGB2BGR)

    # 寻找特定颜色范围内的区域
    mask = cv2.inRange(open_cv_image, lower_bound, upper_bound)

    # 膨胀和侵蚀操作,用于改善水印去除效果
    kernel = np.ones((3, 3), np.uint8)
    mask = cv2.dilate(mask, kernel, iterations=1)
    mask = cv2.erode(mask, kernel, iterations=1)

    open_cv_image[mask != 0] = [255, 255, 255]

    # 转换回PIL格式
    return Image.fromarray(cv2.cvtColor(open_cv_image, cv2.COLOR_BGR2RGB))


def remove_pdf(pdf_file, output_folder, dpi=1800):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    zoom = dpi / 72  # 计算缩放因子
    mat = fitz.Matrix(zoom, zoom)  # 创建缩放矩阵

    pdf = fitz.open(pdf_file)

    for page_num, page in enumerate(pdf):
        pixmap = page.get_pixmap(matrix=mat)  # 使用缩放矩阵提高DPI

        img = Image.frombytes("RGB", [pixmap.width, pixmap.height], pixmap.samples)
        # 定义水印颜色的上下界(需要根据实际情况调整)
        lower_bound = np.array([168, 168, 168])
        upper_bound = np.array([172, 172, 172])

        # 去除水印
        img = remove_watermark(img, lower_bound, upper_bound)

        img_path = os.path.join(output_folder, f"{page_num}.png")
        img.save(img_path, format="PNG")

        print(f"第{page_num}页水印去除完成")

    pdf.close()


# 使用示例

pdf_path = input("请输入 PDF 地址:")
output_path = input("请输入保存处理后的图片的文件夹地址:")
remove_pdf(pdf_path, output_path)

使用示例

  • 输入要处理的 PDF 文件路径和输出文件夹路径。
  • 脚本将自动将水印从 PDF 中移除,并将处理后的图像保存到指定文件夹中。

对比前后

去除前

去除后

结论

  • 本文介绍了一种使用 Python 编程语言移除 PDF 文件中水印的方法,通过结合 PyMuPDF 和 OpenCV 库,我们可以轻松地实现这一目标。
  • 通过调整代码中的参数,可以适应不同类型和样式的水印,从而提高水印移除的准确性和效率。

展望

  • 未来可以进一步优化代码,提高水印移除的速度和稳定性。
  • 进一步研究和探索 PDF 处理技术,拓展其在文档处理领域的应用。

参考资料

相关推荐
AAA_自动化工程师22 分钟前
TIA博途中的程序导出为PDF格式的具体方法示例
pdf·tia博途·程序导出·pdf格式·具体方法
开发者工具分享30 分钟前
如何应对敏捷转型中的团队阻力
开发语言
行云流水剑36 分钟前
【学习记录】如何使用 Python 提取 PDF 文件中的内容
python·学习·pdf
gregmankiw37 分钟前
C#调用Rust动态链接库DLL的案例
开发语言·rust·c#
IDRSolutions_CN1 小时前
PDF 转 HTML5 —— HTML5 填充图形不支持 Even-Odd 奇偶规则?(第二部分)
java·经验分享·pdf·软件工程·团队开发
roman_日积跬步-终至千里1 小时前
【Go语言基础【20】】Go的包与工程
开发语言·后端·golang
秦少游在淮海1 小时前
C++ - string 的使用 #auto #范围for #访问及遍历操作 #容量操作 #修改操作 #其他操作 #非成员函数
开发语言·c++·stl·string·范围for·auto·string 的使用
const5441 小时前
cpp自学 day2(—>运算符)
开发语言·c++
心扬1 小时前
python生成器
开发语言·python
mouseliu1 小时前
python之二:docker部署项目
前端·python