如何用Python将pdf文件转化为高清图片

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

python 复制代码
import fitz  # PyMuPDF
 
def pdf_to_images(pdf_path, images_folder):
    # 打开PDF文件
    document = fitz.open(pdf_path)
    
    for page_num in range(len(document)):
        # 获取页面
        page = document[page_num]
        
        # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
        pix = page.get_pixmap(dpi=300)
        
        # 图片文件名
        image_name = f"page_{page_num + 1}.png"
        image_path = f"{images_folder}/{image_name}"
        
        # 保存图片
        pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
 
    # 关闭PDF文档
    document.close()
 
# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

bash 复制代码
pip install pymupdf
相关推荐
Miss 古月先生19 分钟前
thinkphp6.0 html生成pdf
后端·pdf·php
胡单纯21 分钟前
AI 直接解析 PDF 文档!OpenClaw 2026.3.3 新功能实测太强了
数据库·人工智能·pdf
开开心心就好22 分钟前
操作简单的ISO文件编辑转换工具
java·前端·科技·edge·pdf·安全威胁分析·ddos
私人珍藏库12 小时前
【Windows】PDF超能助手(1.0.13)
windows·pdf·工具·软件·多功能
其实秋天的枫14 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
开开心心_Every16 小时前
文字转语音无字数限,对接微软接口比付费爽
运维·服务器·人工智能·edge·pdf·paddle·segmentfault
无心水16 小时前
2、5分钟上手|PyPDF2 快速提取PDF文本
java·linux·分布式·后端·python·架构·pdf
优化控制仿真模型17 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
SEO-狼术18 小时前
Aspose.PDF for .NET 24.5 Crack
pdf
其实秋天的枫18 小时前
考研英语一历年真题及答案PDF电子版(1998-2026年)
经验分享·pdf