如何用Python将pdf文件转化为高清图片

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

python 复制代码
import fitz  # PyMuPDF
 
def pdf_to_images(pdf_path, images_folder):
    # 打开PDF文件
    document = fitz.open(pdf_path)
    
    for page_num in range(len(document)):
        # 获取页面
        page = document[page_num]
        
        # 将页面渲染为图片,默认输出为RGB颜色空间,96 DPI
        pix = page.get_pixmap(dpi=300)
        
        # 图片文件名
        image_name = f"page_{page_num + 1}.png"
        image_path = f"{images_folder}/{image_name}"
        
        # 保存图片
        pix._writeIMG(image_path, format_="JPG", jpg_quality=300)
 
    # 关闭PDF文档
    document.close()
 
# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

bash 复制代码
pip install pymupdf
相关推荐
开开心心_Every11 小时前
家长控制电脑软件:定时锁屏管理使用时长
网络协议·tcp/ip·游戏·微信·pdf·excel·语音识别
开开心心就好16 小时前
免费抽奖工具支持批量导入+自定义主题
linux·运维·服务器·macos·pdf·phpstorm·1024程序员节
pass_port_csdn17 小时前
zotero搬家,迁移换机/重装100% 完美克隆指南:文献PDF、插件配置、文献分类、标签、笔记等所有信息全克隆
笔记·pdf·zotero
开开心心_Every17 小时前
电脑定时休息软件:久坐提醒养成活动习惯
游戏·微信·pdf·excel·语音识别·散列表·启发式算法
vlln17 小时前
【调研报告】PDF解析技术现状与趋势:从人类阅读到大模型适配的需求
pdf
软件资深者1 天前
全能图片缩略图显示工具,体积较大,直接显示AI,PSD,EPS,PDF,INDD,TIFF,CR2,RAW等格式缩略图的图像解码包
windows·microsoft·pdf·windows11·系统修复
DS随心转小程序1 天前
AI公式不乱码
人工智能·pdf·deepseek·ds随心转
luyun0202021 天前
PDF神仙工具,批量处理
windows·pdf·figma
s石有八九1 天前
PDF/文档LLM作业批改:2025年研究现状、技术进展与研究空白
人工智能·python·pdf·教育·ai教育·作业批改
开开心心_Every2 天前
PDF转图片工具推荐:免费支持批量转换
linux·运维·服务器·spring boot·edge·pdf·powerpoint