3.Python实战小项目—用Python将PDF文件转存为图片

3.Python实战小项目---用Python将PDF文件转存为图片

一·摘要
二·个人简介
三·原理
四·流程
五·实战演示

一·摘要

在Python中，将PDF文件转换为图片格式使用专门的库来处理PDF文档，并将其每一页导出为常见的图像格式。这可以通过PyMuPDF库中的fitz模块或pdf2image库实现，其中每个库都提供了将PDF页面渲染成位图的方法。一旦页面被转换成图像，就可以使用Pillow库（即PIL库的一个分支）将这些图像保存为PNG或JPEG文件。此过程不仅支持将包含文本和图形的PDF页面精确地转换为图像，而且还可以处理批量转换，使得整个转换过程可以自动化完成，非常适合需要从PDF中提取图像内容以用于报告、演示或网页发布的场景。

二·个人简介

🏘️🏘️个人主页：以山河作礼。

🎖️🎖️:Python领域新星创作者，CSDN实力新星认证，CSDN内容合伙人，阿里云社区专家博主，新星计划导师，在职数据分析师。

💕💕悲索之人烈焰加身，堕落者不可饶恕。永恒燃烧的羽翼，带我脱离凡间的沉沦。

🐘 希望大家能持续支持，共同向前迈进！😁 如果您觉得文章有价值，欢迎留言💬，点赞👍，收藏🔖并关注我们➕🤝。 🪐💫💫💫💫💫💫💫热门专栏💫💫💫💫💫💫💫🪐

类型	专栏
Python基础	Python基础入门---详解版
Python进阶	Python基础入门---模块版
Python高级	Python网络爬虫从入门到精通🔥🔥🔥
Web全栈开发	Django基础入门
Web全栈开发	HTML与CSS基础入门
Web全栈开发	JavaScript基础入门
Python数据分析	Python数据分析项目🔥🔥
机器学习	机器学习算法🔥🔥
人工智能	人工智能

三·原理

在Python中将PDF文件转存为图片的过程通常依赖于渲染引擎，该引擎能够解析PDF文档的结构和内容，并将其转换成像素数据，即图像。

原理如下：

解析PDF ：使用库（如PyMuPDF或pdf2image）来读取PDF文件。这些库内部使用PDF解析器来理解PDF文件的结构，包括文本、图像、向量图形和页面布局信息。
页面渲染 ：库中的渲染引擎会处理PDF页面上的每个元素，如文字、线条和嵌入的图像，并将它们转换为可在屏幕上显示的像素数据。对于PyMuPDF，get_pixmap()方法负责这个渲染过程；对于pdf2image，convert_from_path()方法则用于将整个PDF页面渲染成图像。
图像保存：一旦PDF页面被渲染成位图，就可以使用像Pillow这样的图像处理库将其保存为常见的图像格式（如PNG或JPEG）。这个过程涉及到设置图像的分辨率、颜色深度和压缩级别。
循环处理：因为PDF文件可能包含多个页面，所以上述过程需要对每一页进行重复，直到所有页面都被转换成了对应的图像文件。
结果验证：转换完成后，需要检查生成的图像以确保它们准确地反映了原PDF页面的内容和布局。

这个过程不仅能够将PDF中的文本和矢量图形转换为像素图像，还能够处理其中嵌入的图像和图表。通过适当的设置，可以调整输出图像的质量、大小和格式，以适应不同的用途和需求。

四·流程

将PDF文件转换为图片的流程可以分为以下几个步骤：

安装库 ：首先，需要安装Python库来处理PDF和图像。常用的库包括PyMuPDF（也称为fitz）和pdf2image。可以使用pip命令进行安装，例如：pip install PyMuPDF或pip install pdf2image。
导入库 ：在Python脚本中，导入所需的库。对于PyMuPDF，导入fitz模块；对于pdf2image，导入pdf2image模块。
读取PDF文件 ：使用库提供的方法打开PDF文件。对于PyMuPDF，可以使用fitz.open()方法打开PDF文件；对于pdf2image，可以使用convert_from_path()方法打开PDF文件。
渲染PDF页面 ：遍历PDF的每一页，并将其渲染为图像。对于PyMuPDF，可以使用page.get_pixmap()方法将每一页渲染成位图；对于pdf2image，可以使用convert_from_path()方法将整个PDF页面渲染成图像。
保存图像 ：将渲染得到的图像保存到本地文件系统中。可以使用Pillow库（即PIL库的一个分支）的save()方法来保存图像。
循环处理：对PDF中的每一页重复步骤4和5，直到所有页面都转换为图像。
处理完毕：确保所有图像都已正确保存，并在需要时进行任何后续处理，如调整大小、裁剪或格式转换。

五·实战演示

因工作中的某些奇葩要求，需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以，但批量操作还是Python方便，所谓搞定办公自动化，Python出山，一统天下；Python出征，寸草不生。

这里先导入fitz库，用于将PDF文件的页面提取成像素信息（图片）。再导入glob库，用于获取后缀为".pdf"的文件的文件名。os库可新建文件夹

python 复制代码

#批量将PDF文件转为图片
import fitz
import glob
import os

image_path = "图片\\" #存放图片的文件夹
PDFfiles = glob.glob("PDF文件\\*.pdf") #获取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍历所有PDF文件
    PDFdoc = fitz.open(PDFfile) #读取PDF文件
    folder_name = PDFfile.split("\\")[-1].split(".")[0] #按源文件名新建文件夹
    for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片        
        page = PDFdoc[pg]
        #增强图片分辨率
        zoom_x = 3 #水平方向
        zoom_y = 3 #垂直方向
        mat = fitz.Matrix(zoom_x, zoom_y) 
        pix = page.getPixmap(matrix=mat)  
        #按原PDF名称新建文件夹并按顺序保存图片
        if not os.path.exists(image_path+folder_name):#判断文件夹是否已存在
            os.makedirs(image_path+folder_name)#不存在则新建，存在就跳过这行
        pix.writeImage(image_path+folder_name + "\\{}.png".format(str(pg+1))) #按PDF中的页面顺序命名并保存图片

以上，我们先将所有待处理的PDF文件放入"PDF文件夹"，然后通过glob.glob("PDF文件\*.pdf")搜索并抓取所有以".pdf"为后缀的文件，并存入变量PDFfiles中。
结果如下所示：

python 复制代码

PDFfiles

然后，遍历PDFfiles中的所有PDF文件，使用fitz.open()读取。fitz.open()用于创建PDF文件中页面的像素映射(pixel maps)，即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹，以便储存图片。比如给"收货记录.pdf"文件建一个名字为"收货记录"的文件夹，专门储存关于它的页面的图片。随后用for循环，根据PDF的页数，按页提取图片。将每页的信息存入page变量，它的type 是fitz.fitz.Page，即一页像素文件。为了让图片看起来更清晰，需要增强图片的分辨率，设定图片水平及垂直方向的增强倍数，传入Matrix。Matrix用于提升即将保存的图片的分辨率，分辨率的提升倍数为zoom_x与zoom_y的乘积。倍数越大，图片越清晰，当然占用空间也越大。这个参数可根据实际要求调整。然后将Matrix存入mat，传入getPixmap()。getPixmap()用于控制图片分辨率、色域（比如生成灰度图像或带有减色方案的图像）、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定，所以只增强其分辨率。

一页图片处理好后，就需要保存图片了。先通过os.path.exists判断一下需要的文件夹是否存在，若不存在就通过os.makedirs创建。然后用pix.writeImage按页码编号写入并保存图片。