本文介绍如何利用 pd.crosstab 将长格式的分类评分数据(如 high/medium/low)高效转换为按分组(如店铺)展开的宽表,自动生成对应类别的计数列,并控制类别顺序与轴标签。 本文介绍如何利用 pd.crosstab 将长格式的分类评分数据(如 high/medium/low)高效转换为按分组(如店铺)展开的宽表,自动生成对应类别的计数列,并控制类别顺序与轴标签。在数据分析中,常需将"长格式"(long format)的分组-类别记录(例如每条记录代表某店铺的一次顾客评分)聚合为"宽格式"(wide format)的汇总表------即每个唯一分组(如 Shop)作为一行,每个预定义类别(如 'High'、'Medium'、'Low')作为一列,单元格值为该店铺获得该评分的总次数。这种结构更便于后续统计、可视化或建模。pandas 提供了专为此类任务设计的高效函数:pd.crosstab。它本质是二维频数表生成器,支持索引(行分组)、列变量(类别维度)及可选的值聚合逻辑。为确保输出列严格按指定顺序(如 High → Medium → Low),推荐先将目标列转为有序分类类型(pd.Categorical),再传入 crosstab:import pandas as pd# 原始数据:长格式,含重复店铺IDdata = \['store1', 'High', 'store1', 'Medium', 'store2', 'Low', 'store2', 'Low']df = pd.DataFrame(data, columns='Shop', 'Review')# 步骤1:将 Review 列设为有序分类,明确指定类别顺序df'Review' = pd.Categorical(df'Review', categories='High', 'Medium', 'Low')# 步骤2:生成交叉表(行=Shop,列=Review)result = pd.crosstab(df'Shop', df'Review')print(result)输出:Review High Medium LowShop store1 1 1 0store2 0 0 2默认情况下,crosstab 会为行索引和列名添加轴标签(如 Shop 和 Review)。若需更简洁的表格结构(例如直接用于导出或合并),可链式调用 rename_axis 清除这些标签: 知网AI智能写作 知网AI智能写作,写文档、写报告如此简单
相关推荐
luckdewei1 小时前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化aqi007 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能Csvn8 小时前
`functools.lru_cache` —— 一行代码搞定缓存加速金銀銅鐵1 天前
[Python] 从《千字文》中随机挑选汉字cup111 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南aqi001 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG金銀銅鐵1 天前
用 Python 实现 Take-Away 游戏copyer_xyf1 天前
Agent 流程编排