pandas处理excel问题(记录)

1. pandas读取excel合并单元格问题

复制代码
网上查到的都是 df['col'] = df['col'].ffill()
这个能解决大部分简单合并的问题,遇到复杂的就不行了

遇到上图中 有空的情况,ffill() 也会向下填充。

所以不能通过这种方式

python 复制代码
import openpyxl
# 拆分所有的合并单元格,并赋予合并之前的值。
# 由于openpyxl并没有提供拆分并填充的方法,所以使用该方法进行完成
def unmerge_and_fill_cells(worksheet):
    all_merged_cell_ranges = list(
        worksheet.merged_cells.ranges
    )
    for merged_cell_range in all_merged_cell_ranges:
        merged_cell = merged_cell_range.start_cell
        worksheet.unmerge_cells(range_string=merged_cell_range.coord)
        for row_index, col_index in merged_cell_range.cells:
            cell = worksheet.cell(row=row_index, column=col_index)
            cell.value = merged_cell.value
# 读取原始xlsx文件,拆分并填充单元格,然后生成中间临时文件。
def unmerge_cell(filename):
    wb = openpyxl.load_workbook(filename)
    for sheet_name in wb.sheetnames:
        sheet = wb[sheet_name]
        unmerge_and_fill_cells(sheet)
    filename = filename.replace(".xls", "_temp.xls")
    wb.save(filename)
    wb.close()
if __name__ == '__main__':
    unmerge_cell("test.xlsx")

转自https://www.jb51.net/python/2884618do.htm

2. 向下合并excel中每列的重复数据

思路是首先读取循环每行每列的数据,同时创建列表,保存合并单元格信息、上一行的值、上一行的行号。 判断上一行的数据和当行的数据是否一致,一致就保存到列表中,不一致就合并上面保存的单元格,并清空。

但是发现了一个问题,我处理的是33列,9w行的excel数据,用openpyxl库,去执行合并单元格的操作,会很慢,大概执行了15个小时,直接崩溃。

有没有大佬请教一下,有没有办法优化

相关推荐
办公解码器40 分钟前
Excel怎么将八位数字设置为日期格式?
excel
gis941 分钟前
批量地址解析坐标,支持WPS、EXCEL软件,支持导出SHP、GEOJSON、DXF等文件格式
excel·wps
赵庆明老师2 小时前
ASP.NET Core读取Excel文件
excel
luyun0202025 小时前
流批了,pdf批量转excel
windows·pdf·excel·figma
老师可可5 小时前
成绩发布工具使用方法,附成绩分析教程
学习·信息可视化·小程序·excel·学习方法
SamDeepThinking10 小时前
处理大型excel文件的技术选型
excel
技术钱1 天前
vue3前端解析excel文件
前端·vue.js·excel
VBAMatrix1 天前
数据重构!按一级科目拆分序时账,批量生成明细账
excel·财务·审计·会计师事务所·tb工具箱·明细账
缺点内向1 天前
Java 使用 Spire.XLS 库合并 Excel 文件实践
java·开发语言·excel
焚 城1 天前
EXCEL(带图)转html【uni版】
前端·html·excel