掌握pandas cut函数,一键实现数据分类

pandas中的cut函数可将一维数据按照给定的区间进行分组,并为每个值分配对应的标签。

其主要功能是将连续的数值数据转化为离散的分组数据,方便进行分析和统计。

数据准备

下面的示例中使用的数据采集自王者荣耀比赛的统计数据。

数据下载地址:databook.top/

导入数据:

python 复制代码
# 2023年世冠比赛选手的数据
fp = r"D:\data\player-2023世冠.csv"

df = pd.read_csv(fp)

# 这里只保留了下面示例中需要的列
df = df.loc[:, ["排名", "选手", "场均经济", "场均伤害"]]
df

使用示例

每个选手的**"场均经济" "场均伤害"是连续分布的数据,为了整体了解所有选手的情况,
可以使用下面的方法将
"场均经济""场均伤害"**分类。

查看数据分布

首先,可以使用直方图的方式看看数据连续分布的情况:

python 复制代码
import matplotlib.pyplot as plt

df.loc[:, ["场均经济", "场均伤害"]].hist()
plt.show()

图中的横轴 是"经济"和"伤害"的数值,纵轴是选手的数量。

定制分布参数

从默认的直方图中可以看出大部分选手的**"场均经济" "场均伤害"**大致在什么范围,

不过,为了更精细的分析,我们可以进一步定义自己的分类范围,看看各个分类范围内的选手数量情况。

比如,我们将**"场均经济"分为3块,分别为 低**(0~5000),5000~10000),10000~20000)。

同样,对于**"场均伤害",也分为3块,分别为 低**(0~50000),50000~100000),100000~200000)。

python 复制代码
bins1 = [0, 5000, 10000, 20000]
bins2 = [0, 50000, 100000, 200000]

labels = ["低", "中", "高"]
s1 = "场均经济"
s2 = "场均伤害"
df[f"{s1}-分类"] = pd.cut(df[s1], bins=bins1, labels=labels)
df[f"{s2}-分类"] = pd.cut(df[s2], bins=bins2, labels=labels)

df

分类之后,选手被分到3个类别之中,然后再绘制直方图。

python 复制代码
df.loc[:, f"{s1}-分类"].hist()
plt.title(f"{s1}-分类")
plt.show()

从这个图看出,大部分选手都是**"中""高"**的经济,说明职业选手很重视英雄发育。

python 复制代码
df.loc[:, f"{s2}-分类"].hist()
plt.title(f"{s2}-分类")
plt.show()

从图中可以看出,打出高伤害的选手比例并不高,可能职业比赛中,更多的是团队作战。

总结

总的来说,cut函数的主要作用是将输入的数值数据(可以是一维数组、Series或DataFrame的列)按照指定的间隔或自定义的区间边界进行划分 ,并为每个划分后的区间分配一个标签

这样,原始的连续数据就被转化为了离散的分组数据,每个数据点都被分配到了一个特定的组中,从而方便后续进行分析和统计。

相关推荐
JavaEdge在掘金21 小时前
掌握Spring IoC容器和Bean作用,轻松实现依赖注入!
python
flysh051 天前
pyAutoGUI 模块主要功能介绍-(2)键盘功能
python·pyautogui
强盛小灵通专卖员1 天前
闪电科创 SCI专业辅导
python·深度强化学习·研究生·ei会议·导师·sci期刊
跟橙姐学代码1 天前
自动化邮件发送的终极秘籍:Python库smtplib与email的完整玩法
前端·python·ipython
扯淡的闲人1 天前
多语言编码Agent解决方案(2)-后端服务实现
开发语言·python·深度学习
蒋星熠1 天前
深度学习实战指南:从神经网络基础到模型优化的完整攻略
人工智能·python·深度学习·神经网络·机器学习·卷积神经网络·transformer
万粉变现经纪人1 天前
如何解决pip安装报错ModuleNotFoundError: No module named ‘cuml’问题
python·scrapy·beautifulsoup·pandas·ai编程·pip·scipy
IT学长编程1 天前
计算机毕业设计 基于Hadoop豆瓣电影数据可视化分析设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试
大数据·hadoop·python·django·毕业设计·毕业论文·豆瓣电影数据可视化分析
java1234_小锋1 天前
Scikit-learn Python机器学习 - 分类算法 - K-近邻(KNN)算法
python·算法·机器学习
数据牧羊人的成长笔记1 天前
数据分析需要掌握的数学知识(易理解)
数学建模·数据分析