pandas数据分析40——读取 excel 合并单元格的表头

案例背景

真的很容易疯....上班的单位的表格都是不同的人做的,所以就会出现各种合并单元格的情况,要知道我们用pandas读取数据最怕合并单元格了,因为没规律...可能前几列没合并,后面几列又合并了....而且pandas对于索引很严格,这种合并单元读取进来就是空的,还怎么查找数据......例如:

还有这种:

读取的时候....真的很无语。虽然手工做的表头方便人看,但真的不方便代码来取数。

下面我们来看看怎么自动化读取这种多合并表格的数据,并规范表头。就用这个资产的样例


代码实现

读取数据,前2行都是标题没用跳过,然后header=0,1表示2行作为多层索引。

python 复制代码
name='资产类别统计表2023.7.xlsx'

df=pd.read_excel(f'{name}',skiprows=2,header=[0,1],converters={'类别编号': str})
df.head(3)

可以看到有'unnamed'这种合并单元出现的空值的情况。

我们可以打印查看一下行索引名称:

python 复制代码
df.columns

像这种只有部分下面缺失的,可以直接用上面的第一层索引填充第二层索引,让它还是两层索引,然后继续做多层索引数据框。

python 复制代码
cols = df.columns.map(lambda x: [x[0]if 'Unnamed' in i else i for i in x])
multi_cols = pd.MultiIndex.from_arrays([list(col) for col in zip(*cols)])
df.columns=multi_cols
df.head(2)

这样就是处理好, 然后按照多层索引的方法去进行取数。

若多层索引不熟悉,只想变成正常 的二维数据框,那么就这样:

python 复制代码
cols = df.columns.map(lambda x: ''.join('' if 'Unnamed' in i else i for i in x))
cols

把第一层和第二层的名称都进行合并,然后赋值:

python 复制代码
df.columns=cols
df.head(2)

这样就变成了单层数据框,完成!

后面就正常的pandas索引进行取数修改筛选计算等工作了。

相关推荐
dongpengli1 天前
2026年iPaas系统集成平台综合分析及选型参考
大数据·运维·人工智能·自动化办公·ipaas·企业系统集成
傻啦嘿哟1 天前
Python家庭支出统计:从Excel到可视化图表的完整指南
开发语言·python·excel
叫我:松哥1 天前
基于Flask的心理健康咨询管理与智能分析,集成AI智能对话咨询、心理测评(PHQ-9抑郁量表/GAD-7焦虑量表)、情绪追踪记录、危机预警识别
大数据·人工智能·python·机器学习·信息可视化·数据分析·flask
q_35488851531 天前
交通数据分析项目:python地铁数据可视化分析系统 Flask框架 爬虫 数据分析 轨道数据 地铁数据分析 大数据 (源码)✅
人工智能·爬虫·python·机器学习·信息可视化·数据分析·flask
Access开发易登软件2 天前
数据处理中的两大基石:何时选择Excel,何时考虑Access
数据库·信息可视化·excel·vba·access
十六年开源服务商2 天前
WordPress建站公司技术支持服务全解析
运维·数据分析
开开心心就好2 天前
PDF密码移除工具,免费解除打印编辑复制权限
java·网络·windows·websocket·pdf·电脑·excel
AIFQuant2 天前
如何快速接入贵金属期货实时行情 API:python 实战分享
开发语言·python·金融·数据分析·restful
人工干智能2 天前
你知道 Pandas 中 `pd.get_dummies()` 会生成哪些独热的新列么?
大数据·pandas
大闲在人2 天前
24. 连续盘点库存系统:Q-R策略(再订货量-再订货点策略)的核心逻辑与应用
数据分析·供应链管理·智能制造·库存管理·工业工程