【Python】Python 批量转换PDF到Excel

PDF是面向展示和打印使用的,并未考虑编辑使用,所以缺少了很多编辑属性且非常难修改PDF里面的数据。当您需要分析或修改PDF文档数据时,可以将PDF保存为Excel工作簿,实现轻松编辑数据的需求。PDF转Excel,技术关键就是提取原文档内的表格数据,保证转换前后数据的一致性,方便复制粘贴且可轻松编辑。本文将介绍如何使用 Spire.PDF for Python 在 Python 中实现 PDF 转 Excel。

安装Spire.PDF for Python

本教程需要用到 Spire.PDF for Python。可通过以下 pip 命令将它们轻松安装到 VS Code 中。

pip install Spire.PDF

转换PDF 到Excel

Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤:

创建一个 PdfDocument 对象

使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。

创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。

使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。

使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。

from spire.pdf.common import *

from spire.pdf import *

创建PdfDocument对象

pdf = PdfDocument()

加载PDF文档

pdf.LoadFromFile("Sample.pdf")

创建 XlsxLineLayoutOptions 对象来指定转换选项

参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText

convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

设置转换选项

pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

将PDF文档保存为Excel XLSX格式

pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)

pdf.Close()

将 PDF保存为Excel后,转换后可以轻松提取文档里面的数据。效果图如下:

总结:

除了将 PDF保存为Excel, Spire.PDF for python还支持将PDF 存为OFD, PDF文档转换为Word, 将PDF另存为图片,如 PDF to PNG, JPG,BMP等。

相关推荐
JaydenAI17 分钟前
[Python编程思想与技巧-01]我所理解的Python元模型
python·元宇宙·元类·元模型
清水白石00823 分钟前
《Python 架构师的自动化哲学:从基础语法到企业级作业调度系统与 Airflow 止损实战》
数据库·python·自动化
kaico201834 分钟前
python操作数据库
开发语言·数据库·python
zhangzeyuaaa35 分钟前
Python变量的四种作用域
开发语言·python
Hommy881 小时前
【开源剪映小助手-客户端】桌面客户端
python·开源·node.js·github·剪映小助手
2501_921649491 小时前
2026个人量化交易免费数据API接入:从选型到实操
经验分享·python·金融·api·个人开发·量化交易
wgzrmlrm741 小时前
如何解决ORA-28040没有匹配的验证协议_sqlnet.ora版本兼容设置
jvm·数据库·python
维度攻城狮1 小时前
pycallgraph2drawio:Python 调用链可视化 + Draw.io 自由编辑
开发语言·python·draw.io·graphviz
极光代码工作室1 小时前
基于NLP的智能客服系统设计与实现
python·深度学习·机器学习·ai·自然语言处理
Mr_Xuhhh1 小时前
深入Java多线程进阶:从锁策略到并发工具全解析
前端·数据库·python