基于tabula对pdf中的excel进行识别并转换成word(三)

上一节中是基于PaddleOCR对图片中的excel进行识别并转换成word优化,本节改变思路,直接从pdf中读取表格的信息,具体思路如下所述。

PDF中的表格数据如下截图所示:

一、基于tabula从PDF中提取表格

复制代码
df_list = tabula.read_pdf("excel.pdf", pages="all", multiple_tables=True, stream=True)

二、获取表格中的数据

复制代码
for table_index, table in enumerate(df_list):
    # 获取行数和列数
    rows, cols = table.shape
    print(f"表格 {table_index + 1} 的行数: {rows}, 列数: {cols}")
    heading_cells = []
    for col_num, column_name in enumerate(table.columns):
        heading_cells.append(column_name)
    table_data.append(heading_cells)
    for row_index, row in table.iterrows():
        table_data.append(row.tolist())

table_data数据格式:

\['订单号', '商品名称', '单价', '总价', '购买日期', '收货地址'\], \[nan, nan, '(元)', '(元)', nan, nan\], \['20250423A', '月之暗面笔记本', '50', '100', '2025-04-23', '北京市海淀区'\], \['XXXXXX323', nan, nan, nan, nan, '中关村大街 1 号'\], \[nan, nan, nan, nan, nan, 'XXXXXXXX121RWW'\], \['20250423B', '月之暗面 T 恤', '80', '80', '2025-04-23', '上海市浦东新区'\], \['YYYY987', nan, nan, nan, nan, '陆家嘴金融区'\], \[nan, nan, nan, nan, nan, '112DSDCWE2DFDWEWE'\]

table_data: [['订单号', '商品名称', '单价(元)', '总价(元)', '购买日期', '收货地址'], ['20250423AXXXXXX323', '月之暗面笔记本', '50', '100', '2025-04-23', '北京市海淀区中关村大街 1 号XXXXXXXX121RWW'], ['20250423BYYYY987', '月之暗面 T 恤', '80', '80', '2025-04-23', '上海市浦东新区陆家嘴金融区112DSDCWE2DFDWEWE']]

三、根据表格中的必填项内容去判断是否为nan,去合并单元格

具体思路:比如订单编号和商品名称不能为空,那么从最后一行开始向上遍历列表,检查每一行的第一列和第二列是否为空(即是否为 NaN )。如果为空,则将该行的数据合并到上一行对应的单元格中,并删除当前行。

复制代码
def handle_table(table_data):
    for i in range(len(table_data) - 1, 0, -1):
        if table_data[i][0] in [None, np.nan, ""] or table_data[i][1] in [
            None,
            np.nan,
            "",
        ]:
            for j in range(len(table_data[i])):
                if table_data[i][j] not in [
                    None,
                    np.nan,
                    "",
                ]:  # 只有当单元格不为空时才合并
                    table_data[i - 1][
                        j
                    ] = f"{table_data[i - 1][j]}{table_data[i][j]}".strip()

            # 删除当前行
            del table_data[i]

四、生成word

复制代码
def create_table_and_fill_data(data, output_file):
    """
    在 Word 文档中插入表格并填充数据
    :param data: 表格数据
    :param output_file: 输出文件路径
    """
    # 创建一个新的 Word 文档
    doc = Document()

    # 添加一个标题sss
    doc.add_heading("测试XX信息表", level=1)

    # 创建表格
    table = doc.add_table(rows=len(data), cols=len(data[0]))

    # 填充表格数据
    for row_index, row_data in enumerate(data):
        for col_index, cell_text in enumerate(row_data):
            cell = table.cell(row_index, col_index)
            cell.text = str(cell_text)
            set_cell_borders(cell, border_color="FF0000", row_height=300)
    # 设置表格边框颜色
    # 保存 Word 文档
    doc.save(output_file)

补充画表格边框函数set_cell_borders

python 复制代码
def set_cell_borders(cell, border_color="000000", row_height=None):
    """
    设置单元格的边框颜色
    :param cell: 单元格对象
    :param border_color: 边框颜色,默认为黑色
    """
    tc = cell._element
    tcPr = tc.get_or_add_tcPr()
    tcBorders = OxmlElement("w:tcBorders")

    for border_name in ("top", "left", "bottom", "right"):
        border = OxmlElement(f"w:{border_name}")
        border.set(qn("w:val"), "single")
        border.set(qn("w:sz"), "4")  # 边框大小
        border.set(qn("w:space"), "0")
        border.set(qn("w:color"), border_color)
        tcBorders.append(border)

    tcPr.append(tcBorders)

    # 设置内容居中显示
    for paragraph in cell.paragraphs:
        for run in paragraph.runs:
            run.font.size = paragraph.style.font.size  # 保持字体大小一致
        paragraph.alignment = 1  # 1 表示居中对齐

    # 设置行高
    if row_height is not None:
        tr = cell._element.getparent()  # 获取行元素
        trPr = tr.get_or_add_trPr()
        trHeight = OxmlElement("w:trHeight")
        trHeight.set(qn("w:val"), str(row_height))
        trPr.append(trHeight)

5、效果展示

6、完整代码

python 复制代码
import tabula
import numpy as np
from docx import Document
from docx.oxml.ns import qn
from docx.oxml import OxmlElement


def get_table_data(df_list):
    # 遍历每个表格
    for table_index, table in enumerate(df_list):
        # 获取行数和列数
        rows, cols = table.shape
        print(f"表格 {table_index + 1} 的行数: {rows}, 列数: {cols}")
        heading_cells = []
        for col_num, column_name in enumerate(table.columns):
            heading_cells.append(column_name)
        table_data.append(heading_cells)
        for row_index, row in table.iterrows():
            table_data.append(row.tolist())


def handle_table(table_data):
    for i in range(len(table_data) - 1, 0, -1):
        if table_data[i][0] in [None, np.nan, ""] or table_data[i][1] in [
            None,
            np.nan,
            "",
        ]:
            for j in range(len(table_data[i])):
                if table_data[i][j] not in [
                    None,
                    np.nan,
                    "",
                ]:  # 只有当单元格不为空时才合并
                    table_data[i - 1][
                        j
                    ] = f"{table_data[i - 1][j]}{table_data[i][j]}".strip()

            # 删除当前行
            del table_data[i]


def set_cell_borders(cell, border_color="000000", row_height=None):
    """
    设置单元格的边框颜色
    :param cell: 单元格对象
    :param border_color: 边框颜色,默认为黑色
    """
    tc = cell._element
    tcPr = tc.get_or_add_tcPr()
    tcBorders = OxmlElement("w:tcBorders")

    for border_name in ("top", "left", "bottom", "right"):
        border = OxmlElement(f"w:{border_name}")
        border.set(qn("w:val"), "single")
        border.set(qn("w:sz"), "4")  # 边框大小
        border.set(qn("w:space"), "0")
        border.set(qn("w:color"), border_color)
        tcBorders.append(border)

    tcPr.append(tcBorders)

    # 设置内容居中显示
    for paragraph in cell.paragraphs:
        for run in paragraph.runs:
            run.font.size = paragraph.style.font.size  # 保持字体大小一致
        paragraph.alignment = 1  # 1 表示居中对齐

    # 设置行高
    if row_height is not None:
        tr = cell._element.getparent()  # 获取行元素
        trPr = tr.get_or_add_trPr()
        trHeight = OxmlElement("w:trHeight")
        trHeight.set(qn("w:val"), str(row_height))
        trPr.append(trHeight)


def create_table_and_fill_data(data, output_file):
    """
    在 Word 文档中插入表格并填充数据
    :param data: 表格数据
    :param output_file: 输出文件路径
    """
    # 创建一个新的 Word 文档
    doc = Document()

    # 添加一个标题sss
    doc.add_heading("测试XX信息表", level=1)

    # 创建表格
    table = doc.add_table(rows=len(data), cols=len(data[0]))

    # 填充表格数据
    for row_index, row_data in enumerate(data):
        for col_index, cell_text in enumerate(row_data):
            cell = table.cell(row_index, col_index)
            cell.text = str(cell_text)
            set_cell_borders(cell, border_color="FF0000", row_height=300)
    # 设置表格边框颜色
    # 保存 Word 文档
    doc.save(output_file)


pdf_file = "excelv2.pdf"
output_file = "order0429.docx"  # 输出的 Word 文件路径
table_data = []
# 使用tabula从PDF中提取表格
df_list = tabula.read_pdf(pdf_file, pages="all", multiple_tables=True, stream=True)
get_table_data(df_list)
handle_table(table_data)
create_table_and_fill_data(table_data, output_file)
相关推荐
叶子丶苏19 小时前
第十七节_PySide6基本窗口控件深度补充_窗口绘图类(QPicture类) 下篇
python·pyqt
c骑着乌龟追兔子20 小时前
Day 42 复习日
python
Robot侠20 小时前
视觉语言导航从入门到精通(二)
开发语言·人工智能·python·llm·vln
无限大.20 小时前
为什么玩游戏需要独立显卡?——GPU与CPU的分工协作
python·玩游戏
deephub20 小时前
llama.cpp Server 引入路由模式:多模型热切换与进程隔离机制详解
人工智能·python·深度学习·llama
简单点好不好20 小时前
2025--简单点--python之状态模式
开发语言·python·状态模式
棒棒的皮皮20 小时前
【OpenCV】Python图像处理之仿射变换
图像处理·python·opencv·计算机视觉
weixin_4462608520 小时前
FastF1: 轻松获取和分析F1数据的Python包
开发语言·python
我送炭你添花20 小时前
Pelco KBD300A 模拟器:06.用 PyQt5 实现 1:1 像素级完美复刻 Pelco KBD300A 键盘
python·qt·自动化·运维开发
山土成旧客20 小时前
【Python学习打卡-Day22】启航Kaggle:从路径管理到独立项目研究的全方位指南
开发语言·python·学习