技术栈
tabula
神奇侠2024
3 小时前
python
·
pdf
·
tabula
基于tabula对pdf中多个excel进行识别并转换成word中的优化(五)
优化地方:处理合并的单元格内容。1、修改为stream="complex"2、增加换行符f"{table_data[i - 1][j]}\n{table_data[i][j]}".strip()
神奇侠2024
8 小时前
python
·
docx
·
tabula
基于tabula对pdf中的excel进行识别并转换成word(三)
上一节中是基于PaddleOCR对图片中的excel进行识别并转换成word优化,本节改变思路,直接从pdf中读取表格的信息,具体思路如下所述。
神奇侠2024
14 小时前
python
·
pdf
·
word
·
tabula
基于tabula对pdf中多个excel进行识别并转换成word中的优化(四)
对上一节进行优化:1、识别多个excel2、将表格中的nan替换成空字符串