python办公自动化---pdf文件的读取、添加水印

需要安装包:pdfminer、pypdf2

一、读取pdf中的内容

python 复制代码
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFParser
from io import StringIO

# 缓冲区
output_String = StringIO()

# 按照二进制的模式读取文件
with open('./dataFile/测试文件转换.pdf', 'rb') as f:
    # 创建一个解析器对象
    parser1 = PDFParser(f)
    # 创建一个文档对象
    doc = PDFDocument(parser1)
    # 创建资源管理器对象
    rm = PDFResourceManager()
    # 创建设备对象
    device1 = TextConverter(rm, output_String, laparams=LAParams())
    # 创建解释器对象,用来处理pdf中每一页中的内容
    interpreter = PDFPageInterpreter(rm, device1)

    # 按页循环解析pdf文件
    for page in PDFPage.create_pages(doc):
        interpreter.process_page(page)

print(output_String.getvalue())

运行结果:

二、pdf添加水印

方法一:

python 复制代码
from PyPDF2 import PdfReader, PdfWriter
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import io

"""方法一:从包含水印的文件中读取水印"""
waterMark_pdf = PdfReader('./dataFile/带水印的文件.pdf')
# 读取pdf第一页
waterMark = waterMark_pdf.getPage(0)

input_pdf = PdfReader("./dataFile/测试文件转换.pdf")
writer = PdfWriter

# 将水印加到pdf的每一页
for pageNo in range(input_pdf.getNumPages()):
    page = input_pdf.getPage(pageNo)
    page.mergePage(waterMark)
    # 将添加水印的pdf添加倒写
    writer.addPage(page)

# 将添加完水印的文件写入倒pdf中
with open("./dataFile/生成的水印文件.pdf", "wb") as f:
    writer.write(f)

方法二:

python 复制代码
from PyPDF2 import PdfReader, PdfWriter
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import io


def create_watermark(watermark_text):
    """创建水印PDF"""
    packet = io.BytesIO()
    # 创建一个新的PDF with reportlab
    can = canvas.Canvas(packet, pagesize=letter)

    # 设置透明度
    can.setFillAlpha(0.3)
    # 设置字体和大小
    can.setFont("Helvetica", 60)

    # 获取页面尺寸
    width, height = letter

    # 计算水印位置(居中)
    text_width = can.stringWidth(watermark_text, "Helvetica", 60)
    x = (width - text_width) / 2
    y = height / 2

    # 旋转45度
    can.rotate(45)
    # 绘制水印文本(可能需要调整x,y偏移量)
    can.drawString(300, 100, watermark_text)

    can.save()

    # 移动到开始位置
    packet.seek(0)
    return PdfReader(packet)


def add_watermark(input_pdf, output_pdf, watermark_text="添加水印"):
    """为PDF文件添加水印"""
    # 创建水印
    watermark = create_watermark(watermark_text)

    # 读取原始PDF
    reader = PdfReader(input_pdf)
    writer = PdfWriter()

    # 为每一页添加水印
    for page in reader.pages:
        # 合并水印和原始页面
        page.merge_page(watermark.pages[0])
        writer.add_page(page)

    # 写入输出文件
    with open(output_pdf, "wb") as output_file:
        writer.write(output_file)


add_watermark("./dataFile/测试文件转换.pdf", "./dataFile/已添加水印.pdf", "添加水印")
print(f"水印已添加,输出文件为: {'./dataFile/已添加水印.pdf'}")
相关推荐
l木本I3 分钟前
GraphRAG: 解锁大模型对叙述性私有数据的检索能力
人工智能·python·机器学习·知识图谱
敲键盘的小夜猫1 小时前
LangChain整合Milvus向量数据库实战:数据新增与删除操作
人工智能·python·milvus
无闻墨客1 小时前
数据可视化--使用matplotlib绘制高级图表
python·机器学习·信息可视化·matplotlib·可视化·数据可视化
我想睡觉2612 小时前
Python打卡训练营Day40
开发语言·人工智能·python·深度学习·机器学习
橙色小博2 小时前
Python中openpyxl库的基础解析与代码实例
前端·python·excel·openpyxl
小叶爱吃鱼2 小时前
web自动化-Selenium、Playwright、Robot Framework等自动化框架使用场景优劣对比
python·selenium·自动化
元直数字电路验证4 小时前
[DS]使用 Python 库中自带的数据集来实现上述 50 个数据分析和数据可视化程序的示例代码
python·信息可视化·数据分析
青钰未央9 小时前
19、Python字符串高阶实战:转义字符深度解析、高效拼接与输入处理技巧
python·改行学it
Blue桃之夭夭11 小时前
Python进阶【四】:XML和JSON文件处理
xml·python·json
开发者工具分享11 小时前
Lua 的速度为什么比 Python 快
开发语言·python·lua