python pdf文件转图片

在Python中,有很多的第三方库可以用于PDF文件的转换,比如PyPDF2和pdf2image。

其中PyPDF2可以从PDF文件中提取每一页并将其保存为图像文件,需要安装Pillow库。

pdf2image则直接将PDF文件转换为PNG或JPEG图像文件,可以使用ImageMagick或Ghostscript作为后台渲染引擎。

以下是使用这两个库的示例代码:

  1. 使用PyPDF2库将PDF文件中的第一页转换为图像文件
python 复制代码
import io
import os
from PIL import Image
import PyPDF2

pdf_file = "example.pdf"
page_number = 0
output_file = "output.jpg"

# 打开PDF文件并读取第一页
with open(pdf_file, "rb") as f:
    pdf = PyPDF2.PdfFileReader(f)
    page = pdf.getPage(page_number)

    # 获取页面大小和旋转角度
    bbox = page.mediaBox
    rotate = page.get('/Rotate', 0)

    # 转换为Pillow图像对象
    img = page.toImage()
    img = img.convert("RGB")
    img = img.rotate(-rotate)

    # 保存为JPEG图像文件
    img.save(output_file, "JPEG")
    
    print(f"{pdf_file}的第{page_number+1}页已保存为{output_file}")
  1. 使用pdf2image库将PDF文件转换为PNG图像文件
python 复制代码
import os
from pdf2image import convert_from_path

pdf_file = "example.pdf"
output_file = "output.png"

# 将PDF文件转换为PNG图像列表
images = convert_from_path(pdf_file)

# 获取第一页并保存为图像文件
image = images[0]
image.save(output_file, "PNG")

print(f"{pdf_file}的第一页已保存为{output_file}")
相关推荐
喜欢吃豆9 分钟前
目前最火的agent方向-A2A快速实战构建(二): AutoGen模型集成指南:从OpenAI到本地部署的全场景LLM解决方案
后端·python·深度学习·flask·大模型
Mr_Xuhhh19 分钟前
信号与槽的总结
java·开发语言·数据库·c++·qt·系统架构
纳兰青华30 分钟前
bean注入的过程中,Property of ‘java.util.ArrayList‘ type cannot be injected by ‘List‘
java·开发语言·spring·list
好开心啊没烦恼32 分钟前
Python 数据分析:DataFrame,生成,用字典创建 DataFrame ,键值对数量不一样怎么办?
开发语言·python·数据挖掘·数据分析
liulilittle34 分钟前
VGW 虚拟网关用户手册 (PPP PRIVATE NETWORK 基础设施)
开发语言·网络·c++·网关·智能路由器·路由器·通信
Devil枫44 分钟前
Kotlin高级特性深度解析
android·开发语言·kotlin
ChinaDragonDreamer1 小时前
Kotlin:2.1.20 的新特性
android·开发语言·kotlin
安之若素^1 小时前
启用不安全的HTTP方法
java·开发语言
周树皮不皮1 小时前
20250704【翻转&二叉树】|Leetcodehot100之226【pass】&今天计划
python
魔芋红茶1 小时前
spring-initializer
python·学习·spring