pdf转图片(利用pdf2image包)

参考: pdf2image

python 复制代码
pip install pdf2image

代码:

python 复制代码
from pdf2image import convert_from_path, convert_from_bytes
import os

output_folder = './xx/'
dpi_value= 600
pdf_start_page = 1 # pdf显示的第一页
start_page = 1 # 真实页码
prex = '' # 图像前缀

def to_image():
    def page_generator():# 定义图像前缀
        while True:
            yield prex
    images = convert_from_path(r'xx.pdf', dpi=600, output_folder=output_folder,
                               first_page=pdf_start_page, fmt='jpg', thread_count=6, output_file=page_generator())
   


 
def image_rename():
    # 文件重命名
    global start_page
    file_list = os.listdir(output_folder)
    for file in file_list:
        start_page_str =  str(start_page)
        if len(start_page_str)==1:
            start_page_str = '00'+start_page_str
        elif len(start_page_str)==2:
            start_page_str = '0'+start_page_str
        else:
            ...
        path = os.path.join(output_folder, file)
        print(os.path.join(output_folder, start_page_str + '.jpg'))
        os.rename(path, os.path.join(output_folder, start_page_str + '.jpg'))
        start_page = start_page + 1
to_image()
image_rename() #文件重命名

效果:非常快

相关推荐
李李李勃谦8 小时前
鸿蒙PC打造电子书阅读器:支持 EPUB/PDF、书签同步、笔记管理
笔记·华为·pdf·harmonyos
PaperData1 天前
2000-2025年《中国县域统计年鉴》pdf+excel版(附赠面板数据)
数据库·人工智能·数据分析·pdf·经管
狐狐生风1 天前
LangChain实现简易版-----PDF 文档问答机器人
人工智能·langchain·机器人·pdf·prompt
王莎莎-MinerU1 天前
从 PDF 到知识资产:MinerU 文档解析如何成为企业 RAG 系统的“数据基石”
大数据·人工智能·pdf·个人开发
molihuan1 天前
最新 将 MuPDF 编译到 Android 动态库 PDF解析渲染引擎
android·pdf
Muyuan19982 天前
27.RAG 系统中的上下文充分性判断:从 Chunk 数量、FAISS 距离到 LLM Relevance Gate
python·django·pdf·fastapi·faiss
开开心心就好2 天前
近200个工具的电脑故障修复合集
安全·智能手机·pdf·电脑·consul·memcache·1024程序员节
其实秋天的枫2 天前
2026年初中英语大纲词汇表1600词
经验分享·pdf
开开心心_Every2 天前
轻量级PDF阅读器,仅几M大小打开秒开
linux·运维·服务器·安全·macos·pdf·phpstorm
福大大架构师每日一题2 天前
ragflow v0.25.1 最新版发布:API 统一、PDF 解析性能大幅优化、连接器删除同步全面增强,更新要点一次看懂
pdf·ragflow