11. Pandas 数据分类与区间分组(cut 与 qcut)

Pandas 数据分类与区间分组(cut 与 qcut)

在数据分析中,我们常常需要将连续型变量划分为若干区间,从而对数据进行离散化、分层统计或可视化展示。Pandas 提供了两种常用方法:cut(等宽分组)和 qcut(等频分组)。它们能帮助我们快速地将连续数值数据转化为类别变量,为后续的趋势分析、分层汇总和建模提供有力支持。


1. 等宽分组(cut)

cut 函数用于将连续数值划分为固定宽度的区间 ,即每个分组的区间长度相同。

这类方法适合数据分布相对均匀的情况,能直观地反映数值的分布范围。

python 复制代码
import pandas as pd

data = {
    "姓名": ["张三", "李四", "王五", "赵六", "孙七"],
    "年龄": [23, 34, 29, 40, 34]
}

df = pd.DataFrame(data)
print(df)
txt 复制代码
   姓名  年龄
0  张三  23
1  李四  34
2  王五  29
3  赵六  40
4  孙七  34

1.1 基本使用

通过 bins 参数指定分组数量,即可让 Pandas 自动计算区间范围:

python 复制代码
# 将年龄划分为3个等宽区间
df['年龄段'] = pd.cut(df['年龄'], bins=3)
print(df)
txt 复制代码
   姓名  年龄               年龄段
0  张三  23  (22.983, 28.667]
1  李四  34  (28.667, 34.333]
2  王五  29  (28.667, 34.333]
3  赵六  40    (34.333, 40.0]
4  孙七  34  (28.667, 34.333]

每个区间以"(a, b]"表示,其中 a 为左开、b 为右闭。

1.2 自定义区间与标签

我们也可以手动指定分组区间及其对应标签,使结果更具可读性:

python 复制代码
bins = [20, 30, 35, 45]
labels = ['青年', '中年', '壮年']
df['年龄段'] = pd.cut(df['年龄'], bins=bins, labels=labels)
print(df)
txt 复制代码
   姓名  年龄 年龄段
0  张三  23  青年
1  李四  34  中年
2  王五  29  青年
3  赵六  40  壮年
4  孙七  34  中年

通过这种方式,我们可以自由定义区间边界与命名,更符合业务逻辑或统计需求。


2. 等频分组(qcut)

qcut 函数按**数据分位数(quantile)**划分区间,确保每个区间包含大致相同数量的数据。这在数据分布不均匀时尤其有用,能避免某些区间数据过少或过多的问题。

python 复制代码
# 将年龄划分为3个等频组
df['年龄组_q'] = pd.qcut(df['年龄'], q=3)
print(df)
txt 复制代码
   姓名  年龄 年龄段             年龄组_q
0  张三  23  青年  (22.999, 30.667]
1  李四  34  中年    (30.667, 34.0]
2  王五  29  青年  (22.999, 30.667]
3  赵六  40  壮年      (34.0, 40.0]
4  孙七  34  中年    (30.667, 34.0]

可以看到,虽然区间长度不一致,但每组包含的数据数量大致相同,适合用于分布密度不均的数据。


3. 分组统计与应用场景

3.1 按区间统计

区间分组完成后,我们可以直接对其进行统计分析。例如统计各年龄段的人数:

python 复制代码
# 按年龄段统计人数
age_counts = df['年龄段'].value_counts()
print(age_counts)
txt 复制代码
年龄段
青年    2
中年    2
壮年    1
Name: count, dtype: int64

3.2 应用场景

区间分组是数据分析中极为常见的操作,常用于:

  • 人群分层分析:如按年龄、收入或学历进行层级划分;
  • 业务指标统计:例如销售额、评分、访问时长的区间统计;
  • 可视化展示:在绘制柱状图、箱线图或密度图时,常需先进行区间划分以提升可读性。

4. 小结

在 Pandas 中:

  • cut 适用于等宽分组,按照固定区间长度划分;
  • qcut 适用于等频分组,按数据分布的分位数进行划分;
  • 两者均可搭配标签使用,实现连续数据的离散化与分层统计

掌握这两种方法,可以让我们在面对连续型变量时灵活地构建分组结构,为数据分析、建模和可视化提供更清晰的层次与洞察。

相关推荐
寻星探路2 小时前
【深度长文】万字攻克网络原理:从 HTTP 报文解构到 HTTPS 终极加密逻辑
java·开发语言·网络·python·http·ai·https
Codebee4 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º4 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys4 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56784 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子5 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
ValhallaCoder5 小时前
hot100-二叉树I
数据结构·python·算法·二叉树
智驱力人工智能5 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144875 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile5 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算