学习python调用pymupdf库将pdf文件转换为图片的基本用法

  PyMuPDF(也称fitz)是用于处理PDF、XPS、EPUB、MOBI等文档格式的高性能Python库,基于轻量级的MuPDF渲染器构建,在速度和内存效率方面表现出色,适合在数据处理和RAG应用中使用。本文学习调用pymupdf库将pdf文件转换为图片的基本用法。
  运行下面的命令安装pymupdf库。

bash 复制代码
pip install pymupdf


  主要涉及的类包括调用pymupdf类打开pdf文档并获取每页数据、调用page类将页面转换为图片、调用Pixmap类保存图片,函数说明如下所示:


  最后是示例代码及运行效果,下面的程序将指定的2页pdf文件逐页保存为图片。

python 复制代码
import pymupdf

filename="What is a Vertical Handovera.pdf"
doc = pymupdf.open(filename)

pageindex=1

for page in doc:
    pix=page.get_pixmap()
    pix.save(f"{filename}_page_{pageindex}.png")
    pageindex=pageindex+1

doc.close()

参考文献:

1https://pymupdf.readthedocs.io/en/latest/index.html

2https://pymupdf.readthedocs.io/en/latest/page.html

3https://pymupdf.readthedocs.io/en/latest/pixmap.html

相关推荐
兵慌码乱13 小时前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei16 小时前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi001 天前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn1 天前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python
金銀銅鐵2 天前
[Python] 从《千字文》中随机挑选汉字
后端·python
cup112 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
aqi002 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
金銀銅鐵2 天前
用 Python 实现 Take-Away 游戏
python·游戏