Python 操作PDF ——PyMuPDF 教程

简介

PyMuPDF 是一个 Python 的第三方库,用于处理 PDF 文件。它基于 MuPDF 库,提供了一系列功能强大的工具,包括读取、编辑和创建 PDF 文档等。

本教程将引导您学习如何使用 PyMuPDF 处理 PDF 文件。

安装

要安装 PyMuPDF,您可以使用 pip 命令:

复制代码
pip install PyMuPDF

使用示例

1. 打开 PDF 文件

首先,我们需要打开一个 PDF 文件:

python 复制代码
import fitz

pdf_path = 'example.pdf'
pdf_doc = fitz.open(pdf_path)

2. 读取页面

接下来,我们可以读取 PDF 文件的页面:

python 复制代码
page_count = pdf_doc.page_count
print(f"页面总数:{page_count}")

# 读取第一页
page = pdf_doc[0]

3. 提取文本

想要从 PDF 页面中提取文本,您可以使用 get_text 方法:

python 复制代码
text = page.get_text()
print(text)

4. 提取图像

如果您想要提取 PDF 页面中的图像,您可以使用 get_images 方法:

python 复制代码
images = page.get_images()
for i, image in enumerate(images):
    xref = image[0]
    base_image = pdf_doc.extract_image(xref)
    image_path = f"image_{i}.png"
    base_image.save(image_path, "png")

5. 添加新文本

如果您想要 PDF 页面中添加新文本,您可以使用 insert_text 方法:

python 复制代码
pdf_document = fitz.open(pdf_path)
# 获取第一页
page = pdf_document[0]
# 绘制文本
page.insert_text((100, 100), "Hello, PyMuPDF!", fontsize=12, color=(0, 0, 1))

6. 插入图片

如果您想要 PDF 页面中添加新图片,您可以使用 insert_image 方法:

python 复制代码
chart_image = fitz.Pixmap('chart.png')
# 获取图片尺寸和位置
chart_width = chart_image.width
chart_height = chart_image.height
# chart_rect = fitz.Rect(x0, y0, x1, y1) x0,y0 左上点  x1,y1 右下点
chart_rect = fitz.Rect(100, 270, 500, 500)
# 在页面上绘制图片
page.insert_image(chart_rect, pixmap=chart_image)
# 保存修改
pdf_document.save("chart.pdf")
# 关闭文件
pdf_document.close()

7. 创建新的 PDF 文件

如果您想要创建一个新的 PDF 文件,并添加内容,您可以使用 fitz.open 方法:

python 复制代码
new_pdf = fitz.open()

# 创建一个新的页面
new_page = new_pdf.new_page()

# 添加文本
new_page.insert_text((100, 100), "Hello, PyMuPDF!")

# 保存为新的 PDF 文件
new_pdf.save("new_file.pdf")

# 关闭 PDF 文档
new_pdf.close()

8. 关闭 PDF 文档

在完成操作后,确保关闭已打开的 PDF 文档:

python 复制代码
pdf_doc.close()

结论

本教程提供了一个简单的 PyMuPDF 的入门指南,介绍了一些常用的功能,包括打开、读取和提取 PDF 文件的文本和图像,插入文本和图像,以及创建新的 PDF 文件。

PyMuPDF 是一个功能强大且灵活的工具,可用于处理复杂的 PDF 文件。如果您希望深入了解更多关于 PyMuPDF 或者其他相关主题的知识,请查阅官方文档。

相关推荐
MeixianAgent4 小时前
Python 回测数据入口怎么验?历史 K 线入库前先做 5 个检查
后端·python
咕白m6258 小时前
用 Python 实现一键批量查找与替换 Excel 数据
后端·python
SelectDB1 天前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
荣码1 天前
GraphRAG:普通RAG只能回答"点"的问题,我踩了4个坑才搞懂
java·python
金銀銅鐵2 天前
[Python] 基于欧几里得算法,实现分数约分计算器
python·数学
Lyn_Li2 天前
Kaggle Top 5 | 198只股票、200条数据的金融预测——BattleFin高分方案从零复现
python·kaggle·比赛复盘·金融预测
小九九的爸爸2 天前
前端想要入门Agent开发,要具备哪些Python基础?
python·agent·ai编程
阿耶同学2 天前
手把手教你用 LangGraph 搭建三层嵌套 Agent 架构
python·程序员
花酒锄作田3 天前
Pydantic校验配置文件
python
hboot3 天前
AI工程师第四课 - 深度学习入门
pytorch·python·神经网络