pdf转图片

目录

pdf2image库

PyMuPDF库

python-office库

pdfplumber库


pdf2image库

安装:pip install pdf2image

使用时会报错:pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

需要安装 poppler-windows 环境,下载地址:

链接: https://pan.baidu.com/s/1fGrYoMhDMIM4BUYE3Dp00Q?pwd=r9d7 提取码: r9d7

下载解压后将bin文件路径添加到环境变量path中,添加完成后命令行窗口输入pdftotext -v 可查看是否安装成功,安装成功后有版本信息。

设置环境变量后还是不行的话就在convert_from_path 方法中添加poppler_path 二进制文件路径。

python 复制代码
from pdf2image import convert_from_path

pdf_path = rf'test.pdf'
save_imgpath = rf'xxx'

images = convert_from_path(pdf_path, poppler_path=r'D:\poppler-24.08.0\Library\bin')
for i, image in enumerate(images):  #  将每一张图片保存为PNG文件
    image.save(fr'{save_imgpath}\page_{i + 1}.png', 'PNG')

PyMuPDF库

PyMuPDF 还提供了丰富的功能来操作PDF文件,如读取、写入、分割、合并、旋转、裁剪等。此外,它还支持加密和解密PDF文档,以及提取文本、图像和元数据等信息。

安装:pip install PyMuPDF

python 复制代码
from fitz import open, Matrix 

def pdf2img(pdf_path, img_dir):
    doc = open(pdf_path)  # 打开pdf
    # print(doc.page_count)  # 获取word文档页数
    # print(doc.metadata)  # 获取pdf 目录信息
    for page in doc:  # 遍历pdf的每一页【doc[page_no] ,可通过获取的页数和切片方式转换对应页的数据】
        
        # 将缩放因子 zoom_x 和 zoom_y 设为 2.0 之后,可以将转换出来的图片大小提高四倍
        zoom_x = 2.0  # 设置每页的水平缩放因子
        zoom_y = 2.0  # 设置每页的垂直缩放因子
        mat = Matrix(zoom_x, zoom_y)
        
        # mat = Matrix(zoom_x, zoom_y).prerotate(0)  # .prerotate(50)可设置旋转角度
        # mat = Matrix(zoom_x, zoom_y).prescale(1,2)  # .prescale(1,2) 设置图片宽高比
        # mat = Matrix(zoom_x, zoom_y).preshear(1,3)  # preshear(1,3) 拉伸图片
        pix = page.get_pixmap(matrix=mat,alpha=False)  #  Page 页面-光栅图像,alpha设置后会突出主体显示
        pix.pil_save(rf"{img_dir}\page-1{page.number}.png")  # 保存光栅图像图像,需要依赖第三方框架:Pillow
        # pix.save(rf"{img_dir}\page-1{page.number}.png")

python-office库

python-office库 是一个Python 自动化办公第三方库,能解决大部分自动化办公的问题。一行代码即可实现转换。

https://pypi.org/project/python-office/0.1.20/

安装依赖包特多,基本都会失败,使用镜像源安装:pip install python-office -i https://pypi.tuna.tsinghua.edu.cn/simple

python 复制代码
from office import pdf

pdf.pdf2imgs(pdf_path, save_img_path, merge=True)

pdfplumber库

pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

python 复制代码
doc = pdfplumber.open(pdf_path)
print(doc.metadata)  # 获取pdf 目录信息
print(doc.pages)  # 获取pdf文件每页对象列表,打印结果[<Page:1>, <Page:2>, <Page:3>]
print(len(doc.pages))  # 获取文件页数
python 复制代码
import pdfplumber

with pdfplumber.open(pdf_path) as pd:
    for i,p in enumerate(pd.pages):
        img = p.to_image(resolution=500) # 可设置宽高参数,resolution 不设置时图片清晰图会低
        img.save(rf'{save_img_path}\{i}.png')
相关推荐
JACK的服务器笔记几秒前
《服务器测试百日学习计划——Day19:PCIe自动检测脚本,用Python把lspci设备清点标准化》
服务器·python·学习
A_QXBlms几秒前
企微工具对比:群发自动化脚本与定时任务集成
jvm·自动化·企业微信
YJlio4 分钟前
Sysinternals实战教程专栏介绍:这不是一本到此为止的书,而是一套看穿 Windows 的排障方法
windows·python·电脑·outlook·windows部署·eixv3·pe装机
好运的阿财6 分钟前
OpenClaw工具拆解之 sessions_list+sessions_history
人工智能·python·程序人生·ai·ai编程·openclaw
Ulyanov7 分钟前
打造现代化雷达电子对抗仿真界面 第三篇:综合电子战指挥控制台——多视图协同与插件化架构
python·架构·系统仿真·雷达电子战
杜子不疼.8 分钟前
Python + AI 实战:用 LangChain 搭建企业级 RAG 知识库
人工智能·python·langchain
无敌昊哥战神9 分钟前
【算法与数据结构】深入浅出回溯算法:理论基础与核心模板(C/C++与Python三语解析)
c语言·数据结构·c++·笔记·python·算法
甄心爱学习10 分钟前
【项目实训(个人3)】
vue.js·人工智能·python·个人开发
平安的平安12 分钟前
MCP 协议实战:用 Python 开发你的第一个 AI 工具服务
网络·人工智能·python
宸津-代码粉碎机15 分钟前
Spring Boot 4.0 进阶实战+源码解析系列(持续更新)—— 从落地到源码,搞定面试与工作
java·人工智能·spring boot·后端·python·面试