技术栈

tabula

神奇侠2024
1 个月前
python·pdf·tabula
基于tabula对pdf中多个excel进行识别并转换成word中的优化(五)优化地方:处理合并的单元格内容。1、修改为stream="complex"2、增加换行符f"{table_data[i - 1][j]}\n{table_data[i][j]}".strip()
神奇侠2024
1 个月前
python·docx·tabula
基于tabula对pdf中的excel进行识别并转换成word(三)上一节中是基于PaddleOCR对图片中的excel进行识别并转换成word优化,本节改变思路,直接从pdf中读取表格的信息,具体思路如下所述。
神奇侠2024
1 个月前
python·pdf·word·tabula
基于tabula对pdf中多个excel进行识别并转换成word中的优化(四)对上一节进行优化:1、识别多个excel2、将表格中的nan替换成空字符串