import pdfplumber
import pandas as pd
def extract_tables_to_excel(pdf_path, excel_path):
# 打开PDF文件
with pdfplumber.open(pdf_path) as pdf:
# 创建一个空的DataFrame列表,用于存储所有表格数据
all_tables = []
# 遍历PDF的每一页
for page in pdf.pages:
# 提取当前页的表格
tables = page.extract_tables()
# 将每页的表格转换为DataFrame,并添加到all_tables列表中
for table in tables:
df = pd.DataFrame(table)
all_tables.append(df)
# 将所有表格数据合并为一个DataFrame
combined_tables = pd.concat(all_tables, ignore_index=True)
# 将合并后的表格数据保存到Excel文件中
combined_tables.to_excel(excel_path, index=False)
# PDF文件路径
pdf_path = '1.pdf'
# Excel文件路径
excel_path = 'output_tables.xlsx'
# 调用函数
extract_tables_to_excel(pdf_path, excel_path)
Python应用—从pdf文件中提取表格,并且保存在excel中
翻车吧奥斯卡2024-07-21 21:45
相关推荐
哈里谢顿1 小时前
Python 高并发服务限流终极方案:从原理到生产落地(2026 实战指南)用户83562907805115 小时前
无需 Office:Python 批量转换 PPT 为图片markfeng817 小时前
Python+Django+H5+MySQL项目搭建GinoWi18 小时前
Chapter 2 - Python中的变量和简单的数据类型JordanHaidee18 小时前
Python 中 `if x:` 到底在判断什么?ServBay18 小时前
10分钟彻底终结冗长代码,Python f-string 让你重获编程自由闲云一鹤18 小时前
Python 入门(二)- 使用 FastAPI 快速生成后端 API 接口Rockbean19 小时前
用40行代码搭建自己的无服务器OCR曲幽20 小时前
FastAPI + Ollama 实战:搭一个能查天气的AI助手用户606487671889621 小时前
国内开发者如何接入 Claude API?中转站方案实战指南(Python/Node.js 完整示例)