如何用Python将pdf文件转化为高清图片

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

python 复制代码
import fitz  # PyMuPDF
 
def pdf_to_images(pdf_path, images_folder):
    # 打开PDF文件
    document = fitz.open(pdf_path)
    
    for page_num in range(len(document)):
        # 获取页面
        page = document[page_num]
        
        # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
        pix = page.get_pixmap(dpi=300)
        
        # 图片文件名
        image_name = f"page_{page_num + 1}.png"
        image_path = f"{images_folder}/{image_name}"
        
        # 保存图片
        pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
 
    # 关闭PDF文档
    document.close()
 
# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

bash 复制代码
pip install pymupdf
相关推荐
shuaiqinke11 小时前
【分享】Master PDF Editor v5.9.98便携版 多功能PDF编辑工具
智能手机·pdf
jianwuhuang8212 小时前
Kimi怎么导出pdf
人工智能·chatgpt·pdf·deepseek·ai导出鸭
daanpdf12 小时前
四六级翻译《中国文化概况》双语批注版pdf百度网盘
pdf
daanpdf13 小时前
古籍原文周易(易经)全文完整版PDF
pdf
daanpdf13 小时前
大学英语四级试卷历年真题及答案PDF电子版百度网盘
pdf
hikktn14 小时前
Excel模板智能转PDF:零硬编码的通用打印解决方案
windows·pdf
m0_5027249514 小时前
vue3生成pdf
前端·javascript·vue.js·pdf
驯龙高手_追风1 天前
Adobe Acrobat PDF阅读器设置默认滚动翻页
adobe·pdf·adobe acrobat reader·adobe reader
优化控制仿真模型1 天前
【26年社工】初级社会工作者历年真题及答案PDF电子版(2010-2025年)
经验分享·pdf
ComPDFKit1 天前
PDF发票生成怎么做?从零到服务化落地的完整指南
pdf·pdf生成·文件生成·发票生成