知识图谱06——将pdf中的表格(文字形式)保存至csv中

使用ubuntu22.04,anaconda

由于装环境装了一阵子,不确定装了哪些包了

可能的环境安装

bash 复制代码
conda install -c conda-forge pymupdf
conda install -c conda-forge camelot-py
conda install pandas
#或者
pip install PyMuPDF
pip install camelot-py[all]
pip install pandas

camelot-py 的安装可能需要其他依赖项,如 Tkinter 和 Ghostscript。在大多数情况下,它们应该在大多数 Linux 发行版和 macOS 中预安装。

bash 复制代码
# Tkinter
sudo apt-get install python3-tk  # Debian/Ubuntu
sudo yum install python3-tkinter  # CentOS/RHEL
# Ghostscript
sudo apt-get install ghostscript  # Debian/Ubuntu
sudo yum install ghostscript  # CentOS/RHEL

实现代码

python 复制代码
import fitz  # PyMuPDF
import camelot
import pandas as pd

# 路径到您的 PDF 文件
file_path = 'path_to_file.pdf'

# 打开 PDF 文件
doc = fitz.open(file_path)

# 存储包含表格的页面编号
table_pages = []

# 检查每个页面以确定是否包含表格
for page_num in range(len(doc)):
    print(f"Page {page_num} is finding.\n")
    page = doc.load_page(page_num)
    text = page.get_text("text")
    if "表格中关键文本" in text and "表格中关键文本" in text and "表格中关键文本" in text:  # 替换为检测表格的逻辑
        table_pages.append(page_num + 1)  # 页面编号是从 1 开始的

doc.close()

# 提取表格数据
all_tables = []
first_table = True  # 用于跟踪是否是第一个表格

for page_num in table_pages:
    print(f"Table {page_num} is getting.\nTotal table number is {len(table_pages)}.\n")
    # 提取指定页面的表格
    tables = camelot.read_pdf(file_path, pages=str(page_num), flavor='lattice')     # flavour='stream'为空白划分表格方式,flavor='lattice'为线条划分表格方式。
    for table in tables:		# 这里是针对重复的表格头设计的,舍弃了重复的表格头
        # 如果是第一个表格,保留标题
        if first_table:
            all_tables.append(table.df)
            first_table = False
        else:
            # 如果不是第一个表格,跳过标题行
            all_tables.append(table.df[1:])

# 是否提取到表格
if all_tables:          # 提取到表格
    # 合并所有提取的表格
    final_table = pd.concat(all_tables, ignore_index=True)

    # 导出到 CSV
    final_table.to_csv('path_to_file.csv', index=False)
    print("表格数据已提取并保存到 'path_to_file.csv'")

else:                   # 未提取到表格
    print("没有提取到任何表格数据")
相关推荐
开开心心就好17 分钟前
无需安装的单机塔防游戏轻松畅玩
人工智能·游戏·pdf·音视频·智能家居·语音识别·媒体
枫叶丹42 小时前
【HarmonyOS 6.0】ArkWeb PDF预览回调功能详解:让PDF加载状态可控可感
开发语言·华为·pdf·harmonyos
优化控制仿真模型3 小时前
【26年6月最新】英语六级2015-2025年12月历年真题及答案PDF
经验分享·pdf
开开心心_Every5 小时前
动图制作工具,拆分转视频动态照离线免费
运维·前端·人工智能·edge·pdf·散列表·启发式算法
枫叶丹47 小时前
【HarmonyOS 6.0】ArkWeb PDF浏览能力增强:指定PDF文档背景色功能详解
开发语言·华为·pdf·harmonyos
开开心心_Every1 天前
安卓图片压缩工具,无损缩放尺寸免费好用
人工智能·pdf·计算机外设·ocr·语音识别·团队开发·规格说明书
无心水1 天前
14、企业级表格|AWS Textract 扫描件表格自动结构化
架构·pdf·云计算·aws·pdf解析·pdf抽取·aws textract
无心水1 天前
13、云端OCR终极指南|百度/阿里/腾讯API高精度文字提取实战
百度·架构·pdf·ocr·dubbo·pdf解析·pdf抽取
优化控制仿真模型2 天前
2026年初中英语大纲词汇表1600词
经验分享·pdf
优化控制仿真模型2 天前
方正小标宋简体、仿宋GB2312和楷体_GB2312办公字体安装包下载安装教程
经验分享·pdf