【Python】pandas.cut()函数的用法

pandas.cut() 函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。

pandas.cut() 的基本语法如下：

python 复制代码

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')

x：需要被划分的一维数组或类数组对象。
bins ：
- 一个整数，表示要生成的均匀分布的箱子的数量。
- 一个序列，指定每个分箱的边界值。
right ：布尔值，表示分箱的区间是左开右闭(right=True)还是左闭右开(right=False)。默认为True，即包含右边界。
labels ：
- 数组或布尔值。这个参数用于设置每个箱子的标签。
- 若为None，则返回结果为分箱时的整数编码。
- 若为False，则返回整数编码而非独特标签。
- 若传入数组，则应与结果的箱子数相同。
retbins ：布尔值，若为True，则除了返回编码或标签外，还会返回每个分箱的边界。
precision：整数，指定小数精度。
include_lowest ：布尔值，若为True，则第一个区间将是左闭合的。
duplicates：{'raise', 'drop'}，如果bin边界不是唯一的，则决定是否引发错误或删除非唯一边界。

假设你有一组数据，你想将其分成4个等宽的区间：

python 复制代码

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
result = pd.cut(data, bins=4)
print(result)

输出将是数据分布在这四个区间的类别对象。

如果你想根据自定义的边界来分箱，可以直接指定这些边界：

python 复制代码

result = pd.cut(data, bins=[0, 2.5, 5.5, 8.5, 10])
print(result)

这会根据提供的边界值将数据分配到四个不同的区间中。

你还可以通过labels参数为每个区间提供一个标签，通过include_lowest参数确保包含最低值：

python 复制代码

result = pd.cut(data, bins=[0, 2.5, 5.5, 8.5, 10], labels=["Low", "Medium", "High", "Very High"], include_lowest=True)
print(result)

这将输出带有自定义标签的类别类型。

如果你同时需要获取分箱的边界，可以设置retbins=True：

python 复制代码

result, bins = pd.cut(data, bins=4, retbins=True)
print(result)
print(bins)

这将返回分箱结果和每个箱的边界数组。

pandas.cut() 是处理连续数据时非常实用的工具，它可以基于数值范围将数据划分为不同的类别。通过合理地使用这个功能，可以有效地将连续特征转换为有助于机器学习模型理解的离散特征

。