Pandas 中使用交叉表为分类列生成计数型宽表结构

本文介绍如何利用 pd.crosstab 将长格式的分类评分数据(如 high/medium/low)高效转换为按分组(如店铺)展开的宽表,自动生成对应类别的计数列,并控制类别顺序与轴标签。 本文介绍如何利用 pd.crosstab 将长格式的分类评分数据(如 high/medium/low)高效转换为按分组(如店铺)展开的宽表,自动生成对应类别的计数列,并控制类别顺序与轴标签。在数据分析中,常需将"长格式"(long format)的分组-类别记录(例如每条记录代表某店铺的一次顾客评分)聚合为"宽格式"(wide format)的汇总表------即每个唯一分组(如 Shop)作为一行,每个预定义类别(如 'High'、'Medium'、'Low')作为一列,单元格值为该店铺获得该评分的总次数。这种结构更便于后续统计、可视化或建模。pandas 提供了专为此类任务设计的高效函数:pd.crosstab。它本质是二维频数表生成器,支持索引(行分组)、列变量(类别维度)及可选的值聚合逻辑。为确保输出列严格按指定顺序(如 High → Medium → Low),推荐先将目标列转为有序分类类型(pd.Categorical),再传入 crosstab:import pandas as pd# 原始数据:长格式,含重复店铺IDdata = \['store1', 'High', 'store1', 'Medium', 'store2', 'Low', 'store2', 'Low']df = pd.DataFrame(data, columns='Shop', 'Review')# 步骤1:将 Review 列设为有序分类,明确指定类别顺序df'Review' = pd.Categorical(df'Review', categories='High', 'Medium', 'Low')# 步骤2:生成交叉表(行=Shop,列=Review)result = pd.crosstab(df'Shop', df'Review')print(result)输出:Review High Medium LowShop store1 1 1 0store2 0 0 2默认情况下,crosstab 会为行索引和列名添加轴标签(如 Shop 和 Review)。若需更简洁的表格结构(例如直接用于导出或合并),可链式调用 rename_axis 清除这些标签: 知网AI智能写作 知网AI智能写作,写文档、写报告如此简单

相关推荐
蚰蜒螟5 小时前
从mkdir命令到磁盘:Linux内核目录创建过程深度解析
linux·运维·数据库
我是一颗柠檬5 小时前
【Redis】字符串与哈希Day3(2026年)
数据库·redis·后端·database
sakoba5 小时前
MySQL常见问题学习
数据库·学习·mysql
小二·5 小时前
向量数据库深度对比:PGVector vs Qdrant vs Milvus vs Chroma(附性能测试数据)
数据库·wpf·milvus
weixin_468466855 小时前
Data-Engineering-Zoomcamp 新手实战指南
python·自动化·pandas·编程·数据处理
sleven fung5 小时前
Milvus 向量数据库
开发语言·数据库·python·langchain·milvus
aqi005 小时前
15天学会AI应用开发(三)把历史对话作为提示词会怎样
人工智能·python·大模型·ai编程·ai应用
大数据魔法师5 小时前
Streamlit(十八)- API 参考文档(十一)- 页面导航组件
python·web
赵渝强老师5 小时前
【赵渝强老师】崖山数据库的数据字典
数据库·oracle