[Python] 如何导出PDF文件中的图片

文章目录



一、背景说明

最近在看一份pdf的书籍,其中有一些图片绘制地比较出色,所以就打算将其复制出来,以便于在需要的时候进行使用。

但是令人无奈的是,pdf中的图片是无法直接另存为的。搜了一些网上的做法,要么是需要收费,要么就需要上传文件到某些网站... 总之方案都不是很理想。

偶然之下了解到Python的fitz这个组件,据说是可以导出PDF中的图片的。所以,在一番学习之下写了一个小的工具,成功导出了所需的图片。

出于备忘的需要,也为了将该方法分享给广大的小伙伴,和我一起享受从PDF中导出图片的自由,所以就有了本文的诞生。


二、代码编写

闲言少叙,直接上代码:

python 复制代码
import fitz
import os

# 打开文件
pdf_file_name = "E:/books/xxx.pdf"

# 提取图片函数
def extract_pics(file_name, extract_path):

    # 1.打开文件
    doc = fitz.open(file_name)

    #文档页数
    page_count = len(doc)
    print("文档共有{}页".format(page_count))

    # 2.遍历并检查每页的图片
    image_count = 0
    for i in range(page_count):
        # 页面对象
        page = doc[i]

        # 获取图片列表
        images = page.get_images()

        # 遍历图片
        for image in images:
            # 返回图片引用
            xref = image[0]

            # 根据引用从pdf中释放出图片
            base_image = doc.extract_image(xref)
            #获得图片数据
            image_data = base_image["image"]
            # 保存图片
            if not os.path.exists(extract_path):
                os.makedirs(extract_path)
            with open(f'{extract_path}/image_{image_count}.png', 'wb') as f:
                f.write(image_data)
                image_count = image_count + 1
    
    # 3.关闭打开的pdf
    doc.close()
    return image_count

count = extract_pics(pdf_file_name, "./pics")
print("导出 {} 张图片".format(count))

代码思路:

  • 将待导出图片的文件名,定义为一个变量。传入提取图片函数,作为第一个参数。
  • 将图片导出的目标路径作为函数的第二个参数
  • 函数所做的事情如下:
  1. 打开pdf文档。打开文档后会返回一个文档的引用,类型是fitz.Document对象。
  2. page.get_images(),会返回page对象中定义的图片列表。列表的每一个元素的结构是:[xref, smask, ...],所以说该方法的结果是数组的列表。我们可以看出:每个元素的第一个值就是xref。
  3. 所以代码 xref = image[0] 就是为了获取图片的交叉引用。

而官方文档有这么一句:

Extract the image with img = doc.extract_image(xref). This is a dictionary containing the binary image data as img["image"].

来源:https://pymupdf.readthedocs.io/en/latest/recipes-images.html#how-to-extract-images-pdf-documents

就是说:通过代码 img = doc.extract_image(xref) 可以提取图片。这个方法的返回值是一个字典。通过字典的 img["image"] 可以获取二进制的图片数据 。


  1. 保存提取出图片的目录。如果目录不存在,就创建之。
  2. 使用with语句优雅地将二进制图片数据写入到指定目录中。图片的命名从0开始,并记录导出图片的数量。
  3. 最后不要忘记关闭pdf文件。释放资源。

三、问题

3.1、如何得到图片的xref?

答:

循环访问 Page.get_images() 的项目。它会返回一个列表的列表,列表元素的结构类似于 [xref, smask, ...],其中第一个就是图片的交叉引用。可以通过索引获得交叉引用,如image[0]。

3.2、xref有什么用呢?

答:可以使用 img = doc.extract_image(xref) 提取图像。img是一个 字典结构。其中 img["image"] 可以返回一个++二进制图像数据++。


四、总结

本文通过Python写了一个可以导出pdf文件中图片的小工具。借助这个工具可以很容易地将pdf中的所有图片都导出到指定目录。

文中对代码的核心功能进行了讲解。并结合官方文档说明了代码为什么这么写。希望对小伙伴们有帮助!!


参考:

相关推荐
alpszero9 分钟前
YOLO11解决方案之物体模糊探索
人工智能·python·opencv·计算机视觉·yolo11
伊织code23 分钟前
PyTorch API 6 - 编译、fft、fx、函数转换、调试、符号追踪
pytorch·python·ai·api·-·6
struggle202526 分钟前
continue通过我们的开源 IDE 扩展和模型、规则、提示、文档和其他构建块中心,创建、共享和使用自定义 AI 代码助手
javascript·ide·python·typescript·开源
来自星星的坤37 分钟前
深入理解 NumPy:Python 科学计算的基石
开发语言·python·numpy
小声读源码1 小时前
【技巧】使用UV创建python项目的开发环境
开发语言·python·uv·dify
程序员杰哥1 小时前
自动化测试基础知识详解
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
zm-v-159304339861 小时前
解锁遥感数据密码:DeepSeek、Python 与 OpenCV 的协同之力
开发语言·python·opencv
勘察加熊人2 小时前
Python+Streamlit实现登录页
开发语言·python
DavieLau2 小时前
Python开发后端InfluxDB数据库测试接口
服务器·数据库·python·时序数据库
文人sec2 小时前
接口自动化测试设计思路--设计实战
python·https·单元测试·自动化·pytest