Python 操作PDF ——PyMuPDF 教程

简介

PyMuPDF 是一个 Python 的第三方库，用于处理 PDF 文件。它基于 MuPDF 库，提供了一系列功能强大的工具，包括读取、编辑和创建 PDF 文档等。

本教程将引导您学习如何使用 PyMuPDF 处理 PDF 文件。

安装

要安装 PyMuPDF，您可以使用 pip 命令：

复制代码

pip install PyMuPDF

使用示例

1. 打开 PDF 文件

首先，我们需要打开一个 PDF 文件：

python 复制代码

import fitz

pdf_path = 'example.pdf'
pdf_doc = fitz.open(pdf_path)

2. 读取页面

接下来，我们可以读取 PDF 文件的页面：

python 复制代码

page_count = pdf_doc.page_count
print(f"页面总数：{page_count}")

# 读取第一页
page = pdf_doc[0]

3. 提取文本

想要从 PDF 页面中提取文本，您可以使用 get_text 方法：

python 复制代码

text = page.get_text()
print(text)

4. 提取图像

如果您想要提取 PDF 页面中的图像，您可以使用 get_images 方法：

python 复制代码

images = page.get_images()
for i, image in enumerate(images):
    xref = image[0]
    base_image = pdf_doc.extract_image(xref)
    image_path = f"image_{i}.png"
    base_image.save(image_path, "png")

5. 添加新文本

如果您想要 PDF 页面中添加新文本，您可以使用 insert_text 方法：

python 复制代码

pdf_document = fitz.open(pdf_path)
# 获取第一页
page = pdf_document[0]
# 绘制文本
page.insert_text((100, 100), "Hello, PyMuPDF!", fontsize=12, color=(0, 0, 1))

6. 插入图片

如果您想要 PDF 页面中添加新图片，您可以使用 insert_image 方法：

python 复制代码

chart_image = fitz.Pixmap('chart.png')
# 获取图片尺寸和位置
chart_width = chart_image.width
chart_height = chart_image.height
# chart_rect = fitz.Rect(x0, y0, x1, y1) x0,y0 左上点  x1,y1 右下点
chart_rect = fitz.Rect(100, 270, 500, 500)
# 在页面上绘制图片
page.insert_image(chart_rect, pixmap=chart_image)
# 保存修改
pdf_document.save("chart.pdf")
# 关闭文件
pdf_document.close()

7. 创建新的 PDF 文件

如果您想要创建一个新的 PDF 文件，并添加内容，您可以使用 fitz.open 方法：

python 复制代码

new_pdf = fitz.open()

# 创建一个新的页面
new_page = new_pdf.new_page()

# 添加文本
new_page.insert_text((100, 100), "Hello, PyMuPDF!")

# 保存为新的 PDF 文件
new_pdf.save("new_file.pdf")

# 关闭 PDF 文档
new_pdf.close()

8. 关闭 PDF 文档

在完成操作后，确保关闭已打开的 PDF 文档：

python 复制代码

pdf_doc.close()

结论

本教程提供了一个简单的 PyMuPDF 的入门指南，介绍了一些常用的功能，包括打开、读取和提取 PDF 文件的文本和图像，插入文本和图像，以及创建新的 PDF 文件。

PyMuPDF 是一个功能强大且灵活的工具，可用于处理复杂的 PDF 文件。如果您希望深入了解更多关于 PyMuPDF 或者其他相关主题的知识，请查阅官方文档。