Python 操作PDF ——PyMuPDF 教程

简介

PyMuPDF 是一个 Python 的第三方库,用于处理 PDF 文件。它基于 MuPDF 库,提供了一系列功能强大的工具,包括读取、编辑和创建 PDF 文档等。

本教程将引导您学习如何使用 PyMuPDF 处理 PDF 文件。

安装

要安装 PyMuPDF,您可以使用 pip 命令:

复制代码
pip install PyMuPDF

使用示例

1. 打开 PDF 文件

首先,我们需要打开一个 PDF 文件:

python 复制代码
import fitz

pdf_path = 'example.pdf'
pdf_doc = fitz.open(pdf_path)

2. 读取页面

接下来,我们可以读取 PDF 文件的页面:

python 复制代码
page_count = pdf_doc.page_count
print(f"页面总数:{page_count}")

# 读取第一页
page = pdf_doc[0]

3. 提取文本

想要从 PDF 页面中提取文本,您可以使用 get_text 方法:

python 复制代码
text = page.get_text()
print(text)

4. 提取图像

如果您想要提取 PDF 页面中的图像,您可以使用 get_images 方法:

python 复制代码
images = page.get_images()
for i, image in enumerate(images):
    xref = image[0]
    base_image = pdf_doc.extract_image(xref)
    image_path = f"image_{i}.png"
    base_image.save(image_path, "png")

5. 添加新文本

如果您想要 PDF 页面中添加新文本,您可以使用 insert_text 方法:

python 复制代码
pdf_document = fitz.open(pdf_path)
# 获取第一页
page = pdf_document[0]
# 绘制文本
page.insert_text((100, 100), "Hello, PyMuPDF!", fontsize=12, color=(0, 0, 1))

6. 插入图片

如果您想要 PDF 页面中添加新图片,您可以使用 insert_image 方法:

python 复制代码
chart_image = fitz.Pixmap('chart.png')
# 获取图片尺寸和位置
chart_width = chart_image.width
chart_height = chart_image.height
# chart_rect = fitz.Rect(x0, y0, x1, y1) x0,y0 左上点  x1,y1 右下点
chart_rect = fitz.Rect(100, 270, 500, 500)
# 在页面上绘制图片
page.insert_image(chart_rect, pixmap=chart_image)
# 保存修改
pdf_document.save("chart.pdf")
# 关闭文件
pdf_document.close()

7. 创建新的 PDF 文件

如果您想要创建一个新的 PDF 文件,并添加内容,您可以使用 fitz.open 方法:

python 复制代码
new_pdf = fitz.open()

# 创建一个新的页面
new_page = new_pdf.new_page()

# 添加文本
new_page.insert_text((100, 100), "Hello, PyMuPDF!")

# 保存为新的 PDF 文件
new_pdf.save("new_file.pdf")

# 关闭 PDF 文档
new_pdf.close()

8. 关闭 PDF 文档

在完成操作后,确保关闭已打开的 PDF 文档:

python 复制代码
pdf_doc.close()

结论

本教程提供了一个简单的 PyMuPDF 的入门指南,介绍了一些常用的功能,包括打开、读取和提取 PDF 文件的文本和图像,插入文本和图像,以及创建新的 PDF 文件。

PyMuPDF 是一个功能强大且灵活的工具,可用于处理复杂的 PDF 文件。如果您希望深入了解更多关于 PyMuPDF 或者其他相关主题的知识,请查阅官方文档。

相关推荐
高洁0116 小时前
智能体如何改变工作流一、工作流的“痛点
人工智能·python·数据挖掘·transformer·知识图谱
Irene199117 小时前
Python 做图表(用 VS Code 进行探索性的数据分析和快速出图,然后再到 PyCharm 中将这些代码组织成健壮的项目模块)对比帆软
python·帆软·图表
hyunbar17 小时前
llama_index.vector_stores 模块没有怎么办?
python·llama
十正17 小时前
Hermes记忆预取机制深度解析
python·ai·agent·hermes
alwaysrun17 小时前
python之异步高性能Web框架 FastAPI
python·fastapi·web·路由·pydantic
夫唯不争,故无尤也17 小时前
3D-CT中Attention机制揭秘:QKV如何塑造语义
人工智能·python·深度学习·医疗ai
暴躁小师兄数据学院17 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第8章):面向对象编程
开发语言·python
摇滚侠17 小时前
VScode 需要安装的插件和修改的设置
ide·vscode·编辑器
2401_8685347817 小时前
Rio框架:用纯 Python 搞定前后端,构建现代化 Web 与桌面应用
python·tornado