学习python调用pymupdf库将pdf文件转换为图片的基本用法

PyMuPDF(也称fitz)是用于处理PDF、XPS、EPUB、MOBI等文档格式的高性能Python库,基于轻量级的MuPDF渲染器构建,在速度和内存效率方面表现出色,适合在数据处理和RAG应用中使用。本文学习调用pymupdf库将pdf文件转换为图片的基本用法。
  运行下面的命令安装pymupdf库。

bash 复制代码
pip install pymupdf


  主要涉及的类包括调用pymupdf类打开pdf文档并获取每页数据、调用page类将页面转换为图片、调用Pixmap类保存图片,函数说明如下所示:


  最后是示例代码及运行效果,下面的程序将指定的2页pdf文件逐页保存为图片。

python 复制代码
import pymupdf

filename="What is a Vertical Handovera.pdf"
doc = pymupdf.open(filename)

pageindex=1

for page in doc:
    pix=page.get_pixmap()
    pix.save(f"{filename}_page_{pageindex}.png")
    pageindex=pageindex+1

doc.close()

参考文献:

1\]https://pymupdf.readthedocs.io/en/latest/index.html \[2\]https://pymupdf.readthedocs.io/en/latest/page.html \[3\]https://pymupdf.readthedocs.io/en/latest/pixmap.html

相关推荐
AllData公司负责人20 小时前
通过Postgresql同步到Doris,全视角演示AllData数据中台核心功能效果,涵盖:数据入湖仓,数据同步,数据处理,数据服务,BI可视化驾驶舱
java·大数据·数据库·数据仓库·人工智能·python·postgresql
Flittly21 小时前
【LangGraph新手村系列】(5)时间旅行:浏览历史、分叉时间线与修改过去
python·langchain
2301_7820404521 小时前
CSS Flex布局中如何实现导航栏与Logo的左右分布_利用justify-content- space-between
jvm·数据库·python
yaoxin5211231 天前
400. Java 文件操作基础 - 使用 Buffered Stream I/O 读取文本文件
java·开发语言·python
用户8356290780511 天前
使用 Python 自动创建 Excel 折线图
后端·python
小白学大数据1 天前
面向大规模爬取:Python 全站链接爬虫优化(过滤 + 断点续爬)
开发语言·爬虫·python
WL_Aurora1 天前
【每日一题】贪心
python·算法
IT策士1 天前
Python 中间件系列:redis 深入浅出
redis·python·中间件
Dxy12393102161 天前
Python Pillow库:`img.format`与`img.mode`的区别详解
开发语言·python·pillow
༒࿈南林࿈༒1 天前
刺猬猫小说下载
python·js逆向