pdf转图片 - 技术栈

pdf2image库

PyMuPDF库

python-office库

pdfplumber库

pdf2image库

安装：pip install pdf2image

使用时会报错：pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

需要安装 poppler-windows 环境，下载地址：

链接: https://pan.baidu.com/s/1fGrYoMhDMIM4BUYE3Dp00Q?pwd=r9d7 提取码: r9d7

下载解压后将bin文件路径添加到环境变量path中，添加完成后命令行窗口输入pdftotext -v 可查看是否安装成功，安装成功后有版本信息。

设置环境变量后还是不行的话就在convert_from_path 方法中添加poppler_path 二进制文件路径。

python 复制代码

from pdf2image import convert_from_path

pdf_path = rf'test.pdf'
save_imgpath = rf'xxx'

images = convert_from_path(pdf_path, poppler_path=r'D:\poppler-24.08.0\Library\bin')
for i, image in enumerate(images):  #  将每一张图片保存为PNG文件
    image.save(fr'{save_imgpath}\page_{i + 1}.png', 'PNG')

PyMuPDF库

PyMuPDF 还提供了丰富的功能来操作PDF文件，如读取、写入、分割、合并、旋转、裁剪等。此外，它还支持加密和解密PDF文档，以及提取文本、图像和元数据等信息。

安装：pip install PyMuPDF

python 复制代码

from fitz import open, Matrix 

def pdf2img(pdf_path, img_dir):
    doc = open(pdf_path)  # 打开pdf
    # print(doc.page_count)  # 获取word文档页数
    # print(doc.metadata)  # 获取pdf 目录信息
    for page in doc:  # 遍历pdf的每一页【doc[page_no] ，可通过获取的页数和切片方式转换对应页的数据】
        
        # 将缩放因子 zoom_x 和 zoom_y 设为 2.0 之后，可以将转换出来的图片大小提高四倍
        zoom_x = 2.0  # 设置每页的水平缩放因子
        zoom_y = 2.0  # 设置每页的垂直缩放因子
        mat = Matrix(zoom_x, zoom_y)
        
        # mat = Matrix(zoom_x, zoom_y).prerotate(0)  # .prerotate(50)可设置旋转角度
        # mat = Matrix(zoom_x, zoom_y).prescale(1,2)  # .prescale(1,2) 设置图片宽高比
        # mat = Matrix(zoom_x, zoom_y).preshear(1,3)  # preshear(1,3) 拉伸图片
        pix = page.get_pixmap(matrix=mat,alpha=False)  #  Page 页面-光栅图像，alpha设置后会突出主体显示
        pix.pil_save(rf"{img_dir}\page-1{page.number}.png")  # 保存光栅图像图像,需要依赖第三方框架:Pillow
        # pix.save(rf"{img_dir}\page-1{page.number}.png")

python-office库

python-office库是一个Python 自动化办公第三方库，能解决大部分自动化办公的问题。一行代码即可实现转换。

https://pypi.org/project/python-office/0.1.20/

安装依赖包特多，基本都会失败，使用镜像源安装：pip install python-office -i https://pypi.tuna.tsinghua.edu.cn/simple

python 复制代码

from office import pdf

pdf.pdf2imgs(pdf_path, save_img_path, merge=True)

pdfplumber库

pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

python 复制代码

doc = pdfplumber.open(pdf_path)
print(doc.metadata)  # 获取pdf 目录信息
print(doc.pages)  # 获取pdf文件每页对象列表，打印结果[<Page:1>, <Page:2>, <Page:3>]
print(len(doc.pages))  # 获取文件页数

python 复制代码

import pdfplumber

with pdfplumber.open(pdf_path) as pd:
    for i,p in enumerate(pd.pages):
        img = p.to_image(resolution=500) # 可设置宽高参数，resolution 不设置时图片清晰图会低
        img.save(rf'{save_img_path}\{i}.png')