如何用Python将pdf文件转化为高清图片

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

python 复制代码
import fitz  # PyMuPDF
 
def pdf_to_images(pdf_path, images_folder):
    # 打开PDF文件
    document = fitz.open(pdf_path)
    
    for page_num in range(len(document)):
        # 获取页面
        page = document[page_num]
        
        # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
        pix = page.get_pixmap(dpi=300)
        
        # 图片文件名
        image_name = f"page_{page_num + 1}.png"
        image_path = f"{images_folder}/{image_name}"
        
        # 保存图片
        pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
 
    # 关闭PDF文档
    document.close()
 
# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

bash 复制代码
pip install pymupdf
相关推荐
南风微微吹40 分钟前
最新国考《行测+申论》历年真题及答案解析电子版pdf(2000-2026年)
pdf
wujian83111 小时前
豆包导出pdf方法
人工智能·ai·pdf·豆包·deepseek·ai导出鸭
俊哥工具5 小时前
鼠标自动连点怎么设置?详细教学,简单易懂!
python·django·pdf·计算机外设·virtualenv·pygame
2601_950316067 小时前
塞尔达攻略+塞尔达设定集+塞尔达传说攻略
游戏·pdf·电视盒子
SunnyDays10117 小时前
Java 实现 PDF 附件的添加与删除:四种实用方法
java·pdf·附件
小小尚@7 小时前
AI 加持!Adobe Acrobat DC 2026 解锁 PDF 高效办公新体验
人工智能·pdf
竹之月8 小时前
【Auto CAD 2020】单张打印输出PDF图纸A0、A1尺寸,黑白颜色
经验分享·pdf·auto cad2020
SunnyDays10118 小时前
Java 实现 PDF 中文文本查找与高亮的四种方法
java·pdf·查找文字
wujian83119 小时前
千问 文心 元宝 Kimi导出pdf方法
人工智能·ai·pdf·豆包·deepseek
凌云若寒1 天前
BarTender许可 | 关于PDF打印数量说明
学习·pdf·产品经理·制造·软件需求