用python批量实现文件夹中所有pdf转成图片并插入到一个word文件中

要实现这个任务,你需要使用Python的几个库:PyPDF2 用于处理PDF文件,python-docx 用于操作Word文件,PIL(或Pillow)用于处理图片。

首先,确保你已经安装了这些库。如果没有,你可以使用pip来安装:

复制代码

bash复制代码

|---|-----------------------------------------|
| | pip install PyPDF2 python-docx Pillow |

接下来是Python脚本的示例代码:

复制代码

python复制代码

|---|--------------------------------------------------------------------------------------|
| | import os |
| | import PyPDF2 |
| | from PIL import Image |
| | from docx import Document |
| | from io import BytesIO |
| | |
| | # 文件夹路径,其中包含要转换的PDF文件 |
| | folder_path = 'path_to_pdf_folder' |
| | |
| | # 创建Word文档对象 |
| | doc = Document() |
| | |
| | # 遍历文件夹中的所有PDF文件 |
| | for filename in os.listdir(folder_path): |
| | if filename.endswith('.pdf'): |
| | pdf_path = os.path.join(folder_path, filename) |
| | print(f"Processing {pdf_path}...") |
| | |
| | # 打开PDF文件 |
| | with open(pdf_path, 'rb') as file: |
| | reader = PyPDF2.PdfFileReader(file) |
| | for page_num in range(reader.numPages): |
| | page = reader.getPage(page_num) |
| | |
| | # 将PDF页面转换为图片 |
| | img = Image.open(BytesIO(page.extractText().encode('utf-8'))) |
| | img.save('temp.png') # 临时保存图片,稍后将其添加到Word文档中 |
| | |
| | # 将图片插入到Word文档中(假设在当前页的最后添加) |
| | doc.add_picture('temp.png', width=doc.paragraphs[-1].width) # 替换宽度为当前段落宽度,以适应页面布局 |
| | |
| | # 删除临时图片文件 |
| | os.remove('temp.png') |
| | print(f"Done with {pdf_path}.") |
| | |
| | # 保存Word文档 |
| | doc.save('output.docx') |
| | print("All PDFs converted and saved to output.docx.") |

注意:这个脚本将PDF的每一页都转换为图片,并将这些图片插入到Word文档中。如果你希望将整个PDF作为一个图片插入到Word中,你需要稍微修改代码。此外,这个脚本没有处理PDF中的文本,如果你需要提取和插入文本,请相应地修改代码。

相关推荐
许彰午8 小时前
14_Java泛型完全指南
java·windows·python
2601_961194028 小时前
2026初级会计实务公式总结大全|计算题公式手册PDF
java·spring·eclipse·pdf·tomcat·hibernate
广州灵眸科技有限公司8 小时前
瑞芯微RV1126B开发板(EASY-EAI-PI2) Easy-Eai编译环境准备与更新
服务器·前端·人工智能·python·深度学习
阿酷tony9 小时前
PDF文档二维码和图文二维码如何生成(支持代码调用)
pdf·pdf二维码·图文二维码·pdf文档二维码·文档转二维码
TechWayfarer9 小时前
IP风险等级评估接入实战:金融信贷如何用IP画像辅助风控审核
python·tcp/ip·安全·金融
Esaka_Forever9 小时前
uv init 完整用法(Python 最快包管理器)
服务器·python·uv
AI刀刀9 小时前
Kimi 保存 pdf 显示该页的尺寸超出范围令人困扰,AI 导出鸭一键修复参数,导出 PDF 更顺畅
人工智能·pdf·ai导出鸭
神仙别闹12 小时前
基于Python + SQL server 实现(GUI)原神圣遗物管理与角色数值模拟系统
java·数据库·python
是有头发的程序猿12 小时前
电商自动化实战:淘宝/天猫item_get商品详情API全量采集教程(Python源码)
java·python·自动化
_不会dp不改名_12 小时前
python-opencv环境搭建
开发语言·python·opencv