如何用Python将pdf文件转化为高清图片

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

python 复制代码
import fitz  # PyMuPDF
 
def pdf_to_images(pdf_path, images_folder):
    # 打开PDF文件
    document = fitz.open(pdf_path)
    
    for page_num in range(len(document)):
        # 获取页面
        page = document[page_num]
        
        # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
        pix = page.get_pixmap(dpi=300)
        
        # 图片文件名
        image_name = f"page_{page_num + 1}.png"
        image_path = f"{images_folder}/{image_name}"
        
        # 保存图片
        pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
 
    # 关闭PDF文档
    document.close()
 
# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

bash 复制代码
pip install pymupdf
相关推荐
asdzx677 小时前
使用 Python 快速提取 PDF 中的表格
python·pdf
南风微微吹10 小时前
2026英语六级作文模版万能句子PDF电子版
pdf·英语六级
又是被bug折磨的一天11 小时前
对多个pdf合同文件批量命名
pdf
南风微微吹12 小时前
2026年英语四级作文模版万能句子PDF电子版
pdf·英语四级
这是个假程序员15 小时前
PDF分色、智能PDF黑彩识别工具
pdf
夜勤月15 小时前
HarmonyOS 6.0 ArkWeb实战:PDF背景色自定义功能全解析(附完整代码+避坑指南)
华为·pdf·harmonyos
relis16 小时前
AI使用小技巧: 用zed和MinerU本地版,同时学习PDF文档的文字和图片
ai·pdf·大模型·agent
海盗123416 小时前
C#中PDF操作-QuestPDF页面设置与布局
java·pdf·c#
又是被bug折磨的一天17 小时前
发票形式是eml批量下载发票pdf
pdf
hmz85619 小时前
亲测有效,完全免费PDF转换工具,支持PDF压缩、PDF转图片、PDF删除和排序 、PDF转Word、PDF转文本、图片转PDF【附安装教程】
pdf