用python清除PDF文件中的水印(Adobe Acrobat 无法删除)

学校老师发的资料,有时候会带水印,有点强迫症的都想给它去掉。用Adobe Acrobat试了下,检测不到水印,无法删除!分析发现原来这类PDF文件是用word编辑的,其中的水印是加在了页眉中!

自己动手想办法搞定它。

python 复制代码
"""
Title: 清除PDF水印(非pdf加的水印而是用word文件头加的然后转成了pdf)
Author: JackieZheng
Date: 2025-05-11 10:31:23
LastEditTime: 2025-05-12 23:43:21
LastEditors: Please set LastEditors
Description:
FilePath: \\pythonCode\\remove_pdf_watermark.py
"""

import os
import fitz  # PyMuPDF


def remove_image_watermark(pdf_path):
    doc = fitz.open(pdf_path)
    for page_num in range(len(doc)):
        page = doc[page_num]
        xref = page.get_contents()[0]  # 获取页面字节流,以xref的形式返回
        cont0 = doc.xref_stream(xref).decode()  # 将流解码为字符串
        page.clean_contents()
        if '/Header>> BDC' in cont0:  # 找到word页眉总分
            start_str = '/Header>> BDC'  # 获取水印起始位置
            end_str = 'c\r\nh\r\nf*\r\nq'  # 获取水印结束位置 (需要自己根据情况找到类似字符)

            cont = remove_between_strings(cont0, start_str, end_str)

            doc.update_stream(xref, cont.encode())  # 更新流
        print('page', page_num, 'processed')

    doc.save(pdf_path[:-4] + '_processed.pdf')
    doc.close()


def remove_between_strings(original_text, start_str, end_str):
    start = original_text.index(start_str) + len(start_str)
    end = original_text.index(end_str, start)
    content = original_text[:start] + original_text[end:]
    # print(content)
    return content


pdf_path = r'C:\Users\JackieZheng\Desktop\满分冲刺练.pdf'

remove_image_watermark(pdf_path)

操作原理:把文件解码为字符串,分析找出水印部分内容,从中剔除掉即可。

前后效果对比:

相关推荐
虎头金猫8 小时前
如何在Linux上使用Docker在本地部署开源PDF工具Stirling PDF:StirlingPDF+cpolar让专业操作像在线文档一样简单
linux·运维·ubuntu·docker·pdf·开源·centos
拓端研究室15 小时前
专题:2025人形机器人、工业机器人、智能焊接机器人、扫地机器人产业洞察报告 | 附158+份报告PDF、数据仪表盘汇总下载
microsoft·机器人·pdf
TextIn智能文档云平台16 小时前
复杂PDF文档结构化提取全攻略——从OCR到大模型知识库构建
pdf·ocr
会飞的小菠菜16 小时前
PDF文件中的广告二维码图片该怎么批量删除
pdf·删除·二维码·批量
一只花里胡哨的程序猿1 天前
odoo打印pdf速度慢问题
pdf·odoo
灵海之森1 天前
Python将md转html,转pdf
pdf
阿幸软件杂货间2 天前
最新PDF版本!Acrobat Pro DC 2025,解压即用版
pdf·adobe acrobat·acrobat
星空的资源小屋2 天前
网易UU远程,免费电脑远程控制软件
人工智能·python·pdf·电脑
会飞的小菠菜2 天前
如何一次性将多个PPT幻灯片批量转换成PDF文档
pdf·powerpoint·ppt·批量·格式转换
somethingGoWay2 天前
wpf .netcore 导出pdf文件
pdf·wpf·.netcore