Python知识点：使用Python进行PDF文档处理

使用 Python 进行 PDF 文档处理可以通过多种库来实现，包括 PyPDF2 、pdfplumber 、reportlab 、pdfminer 等。这些库可以处理不同的 PDF 任务，例如 提取文本 、拆分合并 PDF 、修改 PDF 、生成 PDF 等。以下是几种常见操作及对应的库和代码示例。

1. 安装常用库

首先，安装常用的 PDF 处理库：

bash 复制代码

pip install PyPDF2 pdfplumber reportlab

2. 提取 PDF 文本

PyPDF2 和 pdfplumber 都可以用于提取 PDF 文本。PyPDF2 更轻量，但有时处理复杂的 PDF 格式效果较差，而 pdfplumber 更加适合处理表格等复杂结构的 PDF。

使用 PyPDF2 提取文本

python 复制代码

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提取每一页的文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 页的文本:\n{text}")

使用 pdfplumber 提取文本

pdfplumber 更适合处理结构化数据，尤其是表格。

python 复制代码

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open('sample.pdf') as pdf:
    for page_num in range(len(pdf.pages)):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 页的文本:\n{text}")

3. 合并与拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

可以将多个 PDF 文件合并为一个文件。

python 复制代码

import PyPDF2

pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merger = PyPDF2.PdfMerger()

for pdf in pdf_files:
    merger.append(pdf)

# 保存合并后的 PDF 文件
with open('merged_output.pdf', 'wb') as output_file:
    merger.write(output_file)

使用 PyPDF2 拆分 PDF 文件

将 PDF 文件拆分为单独的页面。

python 复制代码

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 按页拆分并保存
    for page_num in range(len(reader.pages)):
        writer = PyPDF2.PdfWriter()
        writer.add_page(reader.pages[page_num])
        
        with open(f'split_page_{page_num + 1}.pdf', 'wb') as output_file:
            writer.write(output_file)

4. 创建和修改 PDF

使用 ReportLab 创建 PDF 文件

reportlab 是一个功能强大的库，可以用来生成新的 PDF 文件，支持插入文本、图片、图形等。

python 复制代码

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

# 创建 PDF 文件
c = canvas.Canvas("output.pdf", pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF created with ReportLab!")

# 创建矩形
c.rect(100, 700, 400, 100)

# 保存 PDF
c.showPage()
c.save()

使用 ReportLab 插入图片

你可以使用 reportlab 插入图片到 PDF 中。

python 复制代码

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("output_with_image.pdf", pagesize=letter)
c.drawString(100, 750, "This is a PDF with an image:")

# 插入图片
c.drawImage("image.png", 100, 600, width=200, height=150)

c.showPage()
c.save()

5. 提取 PDF 表格

pdfplumber 提供了提取 PDF 中表格的功能，非常适合处理含有表格的文档。

python 复制代码

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open('table_sample.pdf') as pdf:
    first_page = pdf.pages[0]
    
    # 提取表格数据
    tables = first_page.extract_table()
    
    # 打印提取到的表格数据
    for row in tables:
        print(row)

6. PDF 文档加密与解密

使用 PyPDF2 加密 PDF 文件

你可以加密 PDF 文件，防止未经授权的访问。

python 复制代码

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()

    for page_num in range(len(reader.pages)):
        writer.add_page(reader.pages[page_num])

    # 设置密码
    writer.encrypt(user_password='user123', owner_password='owner123')

    with open('encrypted_output.pdf', 'wb') as output_file:
        writer.write(output_file)

使用 PyPDF2 解密 PDF 文件

如果 PDF 文件已加密，解密并提取文本的方法如下：

python 复制代码

import PyPDF2

# 打开加密的 PDF 文件
with open('encrypted_output.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提供密码
    reader.decrypt('user123')
    
    # 提取文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        print(page.extract_text())

7. PDF 页面旋转

你可以旋转 PDF 的某些页面，以下是旋转页面的示例：

python 复制代码

import PyPDF2

# 打开 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()
    
    # 旋转每页 90 度
    for page in reader.pages:
        page.rotate_clockwise(90)
        writer.add_page(page)
    
    # 保存旋转后的 PDF 文件
    with open('rotated_output.pdf', 'wb') as output_file:
        writer.write(output_file)

总结

Python 提供了多个强大的库来处理 PDF 文档。根据具体需求，选择适合的库来完成任务：

PyPDF2：适合基本的 PDF 操作，如合并、拆分、加密、旋转等。
pdfplumber：适合复杂的文本和表格提取。
reportlab：用于生成和修改 PDF 文件，支持文本、图像和图形的绘制。

通过这些工具，你可以轻松地处理 PDF 文档的各种操作，从文本提取到生成和修改文档。