用python将pdf转成图片转换成对应的word文件

*科管系统**报告只能上传word,但是有些盖章文件只有pdf版本,因此有这个需求,目前市面上没这软件,只能自己python写一个。

要将PDF中的页面以图片的形式存储到Word文档中,你需要完成以下几个步骤:

从PDF中提取每一页的图像。

将这些图像插入到Word文档中。

这里提供一个使用Python实现的示例流程,其中使用PyMuPDF(也称为fitz)来读取PDF并提取图像,使用python-docx来创建Word文档并插入图像。

安装所需库

首先确保安装了所需的库:

pip install pymupdf python-docx

示例代码

以下是一个简单的脚本,演示如何将PDF中的页面作为图像保存,并将这些图像插入到Word文档中:

python 复制代码
import fitz  # PyMuPDF
from docx import Document
from docx.shared import Inches

def pdf_to_images(pdf_path, output_folder):
    # 打开PDF文件
    with fitz.open(pdf_path) as doc:
        # 遍历每一页
        for page_num in range(len(doc)):
            page = doc[page_num]
            # 将PDF页面渲染为图像
            pix = page.get_pixmap(dpi=300)  # dpi可以根据需要调整
            image_path = f"{output_folder}/page_{page_num + 1}.png"
            pix.save(image_path)  # 保存图像到磁盘
            yield image_path

def images_to_word(image_paths, word_path):
    # 创建一个新的Word文档
    doc = Document()
    
    # 遍历所有图像并将它们插入到Word文档中
    for image_path in image_paths:
        doc.add_picture(image_path, width=Inches(6))  # 调整宽度以适应页面
        doc.add_page_break()  # 添加一个新页面
    
    # 保存Word文档
    doc.save(word_path)

# 主函数
def main(pdf_path, output_folder, word_path):
    # 从PDF中提取图像
    image_paths = list(pdf_to_images(pdf_path, output_folder))
    
    # 将图像插入到Word文档中
    images_to_word(image_paths, word_path)

if __name__ == "__main__":
    # 定义输入输出路径
    pdf_path = 'F:\python\pdf2word\测试分册.pdf' # PDF文件路径
    output_folder = "output_images"  # 图像输出文件夹
    word_path = "output_ceshi.docx"  # Word文档输出路径
    
    # 创建输出文件夹
    import os
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # 调用主函数
    main(pdf_path, output_folder, word_path)
相关推荐
小草cys16 分钟前
NVIDIA 驱动(550版本)成功安装后安装支持 GPU 加速的 PyTorch
人工智能·pytorch·python
SilentSamsara20 分钟前
Python 微服务全链路:gRPC + 链路追踪 + 服务网格接入
开发语言·分布式·python·微服务·架构
Cloud_Shy61840 分钟前
解读《Effective Python 3rd Edition》:从练气到老魔(第三章 Item 21 - 24)
开发语言·人工智能·笔记·python·迭代器模式
张高兴2 小时前
张高兴的 Hailo-10 开发指南:(二)使用 LangChain 搭建本地大模型 RAG 问答应用
python·边缘计算·hailo
开开心心_Every2 小时前
多连接方式的屏幕共享工具推荐
运维·服务器·pdf·电脑·excel·tornado·dash
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月6日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
Land03293 小时前
Python + RPA 双引擎实战:从手写脚本到可交付自动化应用的完整链路
python·自动化·rpa
菜到离谱但坚持3 小时前
【小白零基础】RAG+LangChain 搭建私有知识库问答系统(完整可运行代码+超详细教程+避坑指南)
python·langchain·rag
ss2733 小时前
【入门OJ题解】分苹果问题(Python/Java/C 实现)
java·c语言·python
IsJunJianXin3 小时前
谷歌搜索cookie NID逆向生成
开发语言·python·google搜索·sgss·nid-cookie·算法生成nid·google-cookie