如何用Python将pdf文件转化为高清图片

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

python 复制代码
import fitz  # PyMuPDF
 
def pdf_to_images(pdf_path, images_folder):
    # 打开PDF文件
    document = fitz.open(pdf_path)
    
    for page_num in range(len(document)):
        # 获取页面
        page = document[page_num]
        
        # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
        pix = page.get_pixmap(dpi=300)
        
        # 图片文件名
        image_name = f"page_{page_num + 1}.png"
        image_path = f"{images_folder}/{image_name}"
        
        # 保存图片
        pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
 
    # 关闭PDF文档
    document.close()
 
# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

bash 复制代码
pip install pymupdf
相关推荐
aFakeProgramer1 小时前
PDF文档拆分办公工具
pdf
reasonsummer2 小时前
【办公类-125-01】20260106期末资料多个docx合并成一个PDF打印(单数页+1空白页,双数页不变)
python·pdf
YJlio4 小时前
Sysinternals 学习笔记(15.0):系统信息工具总览——RAMMap、RU、CoreInfo 等一网打尽
开发语言·笔记·python·学习·django·pdf·硬件架构
私人珍藏库4 小时前
[吾爱大神原创工具] 【PDF去除水印的工具】可视化操作界面,支持区域删除和文字删除两种模式
pdf
杨浦老苏4 小时前
PDF图书馆索引器和阅读器Inkheart
docker·pdf·群晖·电子书
薛定谔的猫19824 小时前
RAG(四) LangChain 使用PyPDFLoader加载 PDF 并实现内容总结功能
langchain·pdf·php
小粉粉hhh4 小时前
记录前端菜鸟的日常——Pdf.js与双指缩放
前端·javascript·pdf
weixin_436804075 小时前
在线媒体预览工具 - 免下载查看图片视频音频PDF
pdf·音视频·媒体
我乃世间蓬蒿人21 小时前
使用PdfBox对pdf表单进行填报,在长文本时上下行间距过大问题!
pdf
CodeCraft Studio1 天前
国产化PDF处理控件Spire.PDF教程:使用Python批量转换PDF为PDF/A
开发语言·python·pdf·spire.pdf·pdf/a·pdf转pdf/a·pdf开发组件