pdf表格读取和筛选

为了从 PDF 文件中读取表格,并筛选出"注册单位"中包含"建工"的数据,可以使用 PyPDF2、pdfplumber、tabula-py 等库来解析 PDF 文件,然后再进行筛选。由于表格处理更复杂,由于表格在 PDF 文件中通常会以一种表格的形式存在,这些库可以直接读取表格并提取内容。

python 复制代码
import pdfplumber
import pandas as pd

def extract_sxjg_from_pdf(file_path):
    # 用于存储所有筛选出的数据
    selected_rows = []
    header =['序号', '人员姓\n名', '身份证号码', '注册类别', '注册单位']    
    # 打开 PDF 文件
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            # 提取每一页的表格数据
            tables = page.extract_tables()
            for table in tables:
                print(table)
                if not table or len(table) < 3:
                    continue

                # 创建 DataFrame(跳过前两行标题)
                df = pd.DataFrame(table[2:], columns=header)
                print(df)
                filtered_df = df[df['注册单位'].str.contains('建工第五', na=False) | df['注册单位'].str.contains('建工集团', na=False)]

          
                # 如果有符合条件的行,则添加到结果列表中
                if not filtered_df.empty:
                    selected_rows.append(filtered_df)
    
    # 合并所有符合条件的 DataFrame
    if selected_rows:
        result_df = pd.concat(selected_rows, ignore_index=True)
        return result_df
    else:
        return pd.DataFrame()  # 返回空的 DataFrame

# 读取 PDF 文件路径
file_path = "/debug/20241023.pdf"  # 替换为实际的 PDF 文件路径
result_df = extract_sxjg_from_pdf(file_path)

# 检查并输出结果
if not result_df.empty:
    print("筛选出的包含'建工'的注册单位名单:")
    print(result_df)
    result_df.to_excel(r'/debug/result_df.xlsx',index=None)
else:
    print("没有找到包含'建工'的注册单位的记录。")
相关推荐
随便叫个啥呢1 天前
java使用poi-tl模版+vform自定义表单生成word,使用LibreOffice导出为pdf
java·pdf·word
随便叫个啥呢1 天前
java使用poi-tl模版+vform自定义表单生成word,使用LibreOffice导出为pdf,批量下载为压缩文件
java·pdf·word·zip
CodeCraft Studio1 天前
国产化Word处理控件Spire.Doc教程:使用Java将RTF文件转换为PDF的全面教程
java·pdf·word·spire.doc·rtf转pdf·文件格式转换·文档开发sdk
CodeCraft Studio2 天前
国产化Excel处理控件Spire.XLS教程:使用Java将CSV转换为PDF(含格式设置)
java·pdf·excel·spire.xls·文档格式转换·csv转pdf
雾江流2 天前
WPS国际版18.22 | 集Word,PDF,Sheet,PowerPoint于一体的多功能免费办公套件
pdf·word·软件工程·wps
Jay_Franklin2 天前
Python中使用sqlite3模块和panel完成SQLite数据库中PDF的写入和读取
数据库·笔记·python·pycharm·sqlite·pdf·py
有蝉3 天前
vue-office——支持多种文件(docx、excel、pdf)预览的vue组件库,支持vue2/3。也支持非Vue框架的预览。
vue.js·pdf·excel
2501_920955573 天前
PDF文件损坏打不开怎么修复?2025年最新修复工具测评与对比
pdf
季春二九3 天前
PDF-XChange Editor丨加拿大PDF编辑转换工具
pdf
开开心心就好3 天前
微软官方出品:免费数据恢复工具推荐
网络·笔记·microsoft·pdf·word·音视频·symfony