Python 操作PDF ——PyMuPDF 教程

简介

PyMuPDF 是一个 Python 的第三方库,用于处理 PDF 文件。它基于 MuPDF 库,提供了一系列功能强大的工具,包括读取、编辑和创建 PDF 文档等。

本教程将引导您学习如何使用 PyMuPDF 处理 PDF 文件。

安装

要安装 PyMuPDF,您可以使用 pip 命令:

复制代码
pip install PyMuPDF

使用示例

1. 打开 PDF 文件

首先,我们需要打开一个 PDF 文件:

python 复制代码
import fitz

pdf_path = 'example.pdf'
pdf_doc = fitz.open(pdf_path)

2. 读取页面

接下来,我们可以读取 PDF 文件的页面:

python 复制代码
page_count = pdf_doc.page_count
print(f"页面总数:{page_count}")

# 读取第一页
page = pdf_doc[0]

3. 提取文本

想要从 PDF 页面中提取文本,您可以使用 get_text 方法:

python 复制代码
text = page.get_text()
print(text)

4. 提取图像

如果您想要提取 PDF 页面中的图像,您可以使用 get_images 方法:

python 复制代码
images = page.get_images()
for i, image in enumerate(images):
    xref = image[0]
    base_image = pdf_doc.extract_image(xref)
    image_path = f"image_{i}.png"
    base_image.save(image_path, "png")

5. 添加新文本

如果您想要 PDF 页面中添加新文本,您可以使用 insert_text 方法:

python 复制代码
pdf_document = fitz.open(pdf_path)
# 获取第一页
page = pdf_document[0]
# 绘制文本
page.insert_text((100, 100), "Hello, PyMuPDF!", fontsize=12, color=(0, 0, 1))

6. 插入图片

如果您想要 PDF 页面中添加新图片,您可以使用 insert_image 方法:

python 复制代码
chart_image = fitz.Pixmap('chart.png')
# 获取图片尺寸和位置
chart_width = chart_image.width
chart_height = chart_image.height
# chart_rect = fitz.Rect(x0, y0, x1, y1) x0,y0 左上点  x1,y1 右下点
chart_rect = fitz.Rect(100, 270, 500, 500)
# 在页面上绘制图片
page.insert_image(chart_rect, pixmap=chart_image)
# 保存修改
pdf_document.save("chart.pdf")
# 关闭文件
pdf_document.close()

7. 创建新的 PDF 文件

如果您想要创建一个新的 PDF 文件,并添加内容,您可以使用 fitz.open 方法:

python 复制代码
new_pdf = fitz.open()

# 创建一个新的页面
new_page = new_pdf.new_page()

# 添加文本
new_page.insert_text((100, 100), "Hello, PyMuPDF!")

# 保存为新的 PDF 文件
new_pdf.save("new_file.pdf")

# 关闭 PDF 文档
new_pdf.close()

8. 关闭 PDF 文档

在完成操作后,确保关闭已打开的 PDF 文档:

python 复制代码
pdf_doc.close()

结论

本教程提供了一个简单的 PyMuPDF 的入门指南,介绍了一些常用的功能,包括打开、读取和提取 PDF 文件的文本和图像,插入文本和图像,以及创建新的 PDF 文件。

PyMuPDF 是一个功能强大且灵活的工具,可用于处理复杂的 PDF 文件。如果您希望深入了解更多关于 PyMuPDF 或者其他相关主题的知识,请查阅官方文档。

相关推荐
运器1231 小时前
【一起来学AI大模型】PyTorch DataLoader 实战指南
大数据·人工智能·pytorch·python·深度学习·ai·ai编程
音元系统1 小时前
Copilot 在 VS Code 中的免费替代方案
python·github·copilot
超龄超能程序猿1 小时前
(5)机器学习小白入门 YOLOv:数据需求与图像不足应对策略
人工智能·python·机器学习·numpy·pandas·scipy
cooldream20093 小时前
Python 包管理新时代:深入了解 `uv` 的使用与实践
python·uv·包管理器
之歆3 小时前
Python-魔术方法-创建、初始化与销毁-hash-bool-可视化-运算符重载-容器和大小-可调用对象-上下文管理-反射-描述器-二分-学习笔记
笔记·python·学习
胖达不服输3 小时前
「日拱一码」025 机器学习——评价指标
人工智能·python·机器学习·评价指标
brave_zhao4 小时前
JavaBeanUtils javaBean转map, 实体类转map,实体集合转List<Map>
linux·windows·python
apihz5 小时前
通用图片搜索-搜狗源免费API接口使用指南
android·java·python·php·音视频
爱吃面条的猿6 小时前
pycharm中自动补全方法返回变量
ide·python·pycharm
倔强青铜三6 小时前
苦练Python第15天:Lambda函数——Python的匿名一行杀器
人工智能·python·面试