Python数据分析和数据处理库Pandas(透视表)

目录

一.什么是透视表

二.pivot_table()

三.案例:睡眠质量分析透视表

1.统计不同睡眠时间,不同压力等级下的睡眠质量

2.添加职业作为列维度

3.​​​​​​​添加性别作为第二个列维度


一.什么是透视表

透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它可以根据多个行分组键和多个列分组键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。

二.​​​​​​​pivot_table()

|--------------------|--------------------------------------------------------------------------------|
| 参数 | 说明 |
| values | 待聚合的列,默认聚合所有数值列。 |
| index | 用作透视表行索引的列。即通过哪个(些)行来对数据进行分组,行索引决定了透视表的行维度。 |
| columns | 用作透视表列索引的列。即通过哪个(些)列来对数据进行分组,列索引决定了透视表的列维度。 |
| aggfunc | 聚合函数或函数列表,默认为mean。 |
| fill_value | 用于替换结果表中的缺失值。 |
| margins | 是否在透视表的边缘添加汇总行和列,显示总计。默认值是 False,如果设置为 True,会添加"总计"行和列,方便查看数据的总体汇总。 |
| dropna | 是否排除包含缺失值的行和列。默认为 True,即如果某个组合的行列数据中包含缺失值,则会被排除在外。如果设置为 False,则会保留这些含有缺失值的行和列。 |
| observerd | 是否显示所有组合数据,True:只显示实际存在的组合 |

下面通过一个案例来学习和理解这些参数。

三.案例:睡眠质量分析透视表

使用sleep(睡眠健康和生活方式)数据集,其中包含13个字段:

  • person_id:每个人的唯一标识符。
  • gender:个人的性别(男/女)。
  • age:个人的年龄(以岁为单位)。
  • occupation:个人的职业或就业状况(例如办公室职员、体力劳动者、学生)。
  • sleep_duration:每天的睡眠总小时数。
  • sleep_quality:睡眠质量的主观评分,范围从 1(差)到 10(极好)。
  • physical_activity_level:每天花费在体力活动上的时间(以分钟为单位)。
  • stress_level:压力水平的主观评级,范围从 1(低)到 10(高)。
  • bmi_category:个人的 BMI 分类(体重过轻、正常、超重、肥胖)。
  • blood_pressure:血压测量,显示为收缩压与舒张压的数值。
  • heart_rate:静息心率,以每分钟心跳次数为单位。
  • daily_steps:个人每天行走的步数。
  • sleep_disorder:存在睡眠障碍(无、失眠、睡眠呼吸暂停)。

1.统计不同睡眠时间,不同压力等级下的睡眠质量

python 复制代码
import pandas as pd

df = pd.read_csv("data/sleep.csv")
# 对睡眠时间进行划分
sleep_duration_stage = pd.cut(df["sleep_duration"], [0, 5, 6, 7, 8, 9, 10, 11, 12])
# 对压力等级进行划分
stress_level_stage = pd.cut(df["stress_level"], 4)
print(df.pivot_table(values="sleep_quality", index=[sleep_duration_stage, stress_level_stage], aggfunc="mean"))

运行结果:

2.添加职业作为列维度

python 复制代码
import pandas as pd

df = pd.read_csv("data/sleep.csv")
# 对睡眠时间进行划分
sleep_duration_stage = pd.cut(df["sleep_duration"], [0, 5, 6, 7, 8, 9, 10, 11, 12])
# 对压力等级进行划分
stress_level_stage = pd.cut(df["stress_level"], 4)

print(df.pivot_table(values="sleep_quality", index=[sleep_duration_stage, stress_level_stage], columns=["occupation"], aggfunc="mean"))

运行结果:

3.​​​​​​​添加性别作为第二个列维度

python 复制代码
import pandas as pd

df = pd.read_csv("data/sleep.csv")
# 对睡眠时间进行划分
sleep_duration_stage = pd.cut(df["sleep_duration"], [0, 5, 6, 7, 8, 9, 10, 11, 12])
# 对压力等级进行划分
stress_level_stage = pd.cut(df["stress_level"], 4)

print(df.pivot_table(values="sleep_quality", index=[sleep_duration_stage, stress_level_stage], columns=["occupation", "gender"], aggfunc="mean"))

运行结果:

相关推荐
BSD_HY2 小时前
智能电动汽车浪潮下,薄膜开关的人机交互技术解析
人工智能·汽车·人机交互·制造·薄膜开关
陈天伟教授2 小时前
GPT Image 2-勾股定理
大数据·数据库·人工智能·gpt
AI医影跨模态组学2 小时前
如何将影像组学特征与肿瘤免疫微环境中的关键信号通路及免疫细胞浸润建立关联,并进一步解释其与胃癌术后复发、预后的机制联系
人工智能·深度学习·计算机视觉·论文·医学影像
天天代码码天天2 小时前
C# OnnxRuntime 部署 DINOv3 密集特征可视化
人工智能
byoass2 小时前
自动化任务系列之五:PDF批量转换+自动清理——文件格式规范化工作流
网络·人工智能·安全·云计算
nix.gnehc2 小时前
读懂 OpenSpec:AI 编码时代的规范驱动开发新范式
人工智能·驱动开发·sdd·openspec
咚咚王者2 小时前
人工智能之大模型应用 基础入门第三章 大模型赋能行业与未来展望
人工智能
阿杰学AI2 小时前
AI核心知识141—大语言模型之 对齐难题(简洁且通俗易懂版)
人工智能·安全·ai·语言模型·自然语言处理·aigc·ai对齐
AI医影跨模态组学2 小时前
如何将机器学习模型评分与肿瘤微环境中的去乙酰化修饰及免疫细胞组成建立关联,并进一步解释其与NSCLC免疫治疗预后的机制联系
人工智能·机器学习·论文·医学·医学影像