Python 操作PDF ——PyMuPDF 教程

简介

PyMuPDF 是一个 Python 的第三方库,用于处理 PDF 文件。它基于 MuPDF 库,提供了一系列功能强大的工具,包括读取、编辑和创建 PDF 文档等。

本教程将引导您学习如何使用 PyMuPDF 处理 PDF 文件。

安装

要安装 PyMuPDF,您可以使用 pip 命令:

复制代码
pip install PyMuPDF

使用示例

1. 打开 PDF 文件

首先,我们需要打开一个 PDF 文件:

python 复制代码
import fitz

pdf_path = 'example.pdf'
pdf_doc = fitz.open(pdf_path)

2. 读取页面

接下来,我们可以读取 PDF 文件的页面:

python 复制代码
page_count = pdf_doc.page_count
print(f"页面总数:{page_count}")

# 读取第一页
page = pdf_doc[0]

3. 提取文本

想要从 PDF 页面中提取文本,您可以使用 get_text 方法:

python 复制代码
text = page.get_text()
print(text)

4. 提取图像

如果您想要提取 PDF 页面中的图像,您可以使用 get_images 方法:

python 复制代码
images = page.get_images()
for i, image in enumerate(images):
    xref = image[0]
    base_image = pdf_doc.extract_image(xref)
    image_path = f"image_{i}.png"
    base_image.save(image_path, "png")

5. 添加新文本

如果您想要 PDF 页面中添加新文本,您可以使用 insert_text 方法:

python 复制代码
pdf_document = fitz.open(pdf_path)
# 获取第一页
page = pdf_document[0]
# 绘制文本
page.insert_text((100, 100), "Hello, PyMuPDF!", fontsize=12, color=(0, 0, 1))

6. 插入图片

如果您想要 PDF 页面中添加新图片,您可以使用 insert_image 方法:

python 复制代码
chart_image = fitz.Pixmap('chart.png')
# 获取图片尺寸和位置
chart_width = chart_image.width
chart_height = chart_image.height
# chart_rect = fitz.Rect(x0, y0, x1, y1) x0,y0 左上点  x1,y1 右下点
chart_rect = fitz.Rect(100, 270, 500, 500)
# 在页面上绘制图片
page.insert_image(chart_rect, pixmap=chart_image)
# 保存修改
pdf_document.save("chart.pdf")
# 关闭文件
pdf_document.close()

7. 创建新的 PDF 文件

如果您想要创建一个新的 PDF 文件,并添加内容,您可以使用 fitz.open 方法:

python 复制代码
new_pdf = fitz.open()

# 创建一个新的页面
new_page = new_pdf.new_page()

# 添加文本
new_page.insert_text((100, 100), "Hello, PyMuPDF!")

# 保存为新的 PDF 文件
new_pdf.save("new_file.pdf")

# 关闭 PDF 文档
new_pdf.close()

8. 关闭 PDF 文档

在完成操作后,确保关闭已打开的 PDF 文档:

python 复制代码
pdf_doc.close()

结论

本教程提供了一个简单的 PyMuPDF 的入门指南,介绍了一些常用的功能,包括打开、读取和提取 PDF 文件的文本和图像,插入文本和图像,以及创建新的 PDF 文件。

PyMuPDF 是一个功能强大且灵活的工具,可用于处理复杂的 PDF 文件。如果您希望深入了解更多关于 PyMuPDF 或者其他相关主题的知识,请查阅官方文档。

相关推荐
装不满的克莱因瓶44 分钟前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz44 分钟前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
biter down7 小时前
从 0 到 1 搭建 Python 接口自动化测试框架(博客系统实战)
开发语言·python
肖永威8 小时前
Python多业务并行计算框架插件化演进:从硬编码到动态注册
python·插件化·并行计算·动态注册
yz_aiks8 小时前
Linux Jar包配置Systemd自启动实战:从排查到配置全流程
linux·python·jar·自启动·systemd
不知名的老吴8 小时前
线程的生命周期之线程“插队“
java·开发语言·python
Hysea.9 小时前
解决Sublime Text 4使用不了terminus
编辑器·sublime text
xsc6996759 小时前
从零搭建大模型与智能体平台 - 完整技术详解
python
无风听海11 小时前
多租户系统中的 OIDC:Discovery 端点与联合登录的深度实践
后端·python·flask
CTA终结者11 小时前
期货量化主力换月程序怎么移仓:天勤 underlying_symbol 与任务切换
python·区块链