pd.cut 是 Pandas 提供的一个非常实用的函数,用于将数值数据分割成离散的区间(bins)。它常用于数据分桶(binning)、分类或离散化操作。
参数说明
1. x: Any
- 
描述:输入数据,可以是 Pandas Series、列表或数组。 
- 
示例 : pythonimport pandas as pd x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
2. bins: Any
- 
描述 :定义分割点的边界。长度必须比 labels长 1 ,可以是以下几种类型:- 整数 :指定分割的区间数,pd.cut会自动计算等宽的区间。
- 序列 :指定具体的分割点,例如 [0, 5, 10, 15],表示分割区间为(0, 5]、(5, 10]和(10, 15]。
 
- 整数 :指定分割的区间数,
- 
示例 : pythonbins = 3 # 自动分割为3个等宽区间 bins = [0, 5, 10, 15] # 自定义分割点
3. right: bool = True
- 
描述 :是否包含右侧边界。 - 如果为 True,则区间为(a, b]。
- 如果为 False,则区间为[a, b)。
 
- 如果为 
- 
示例 : pythonpd.cut(x, bins=3, right=True) # 默认为 (a, b] pd.cut(x, bins=3, right=False) # 区间为 [a, b)
4. labels: Any = None
- 
描述 :为每个区间指定标签。如果为 None,则默认使用区间字符串作为标签。
- 
示例 : pythonlabels = ['低', '中', '高'] pd.cut(x, bins=3, labels=labels)
5. retbins: bool = False
- 
描述 :是否返回分割点。 - 如果为 True,则返回一个元组(binned_data, bins)。
- 如果为 False,则只返回分桶后的数据。
 
- 如果为 
- 
示例 : pythonresult, bins = pd.cut(x, bins=3, retbins=True)
6. precision: int = 3
- 
描述:控制分割点的精度(小数点后保留的位数)。 
- 
示例 : pythonpd.cut(x, bins=3, precision=2) # 分割点保留两位小数
7. include_lowest: bool = False
- 
描述 :是否包含最低值(第一个区间的左边界)。 - 如果为 True,则第一个区间为[a, b)。
- 如果为 False,则第一个区间为(a, b)。
 
- 如果为 
- 
示例 : pythonpd.cut(x, bins=3, include_lowest=True) # 第一个区间包含最低值
8. duplicates: str = "raise"
- 
描述 :处理重复分割点的方式。 - "raise":如果发现重复的分割点,抛出- ValueError。
- "drop":忽略重复的分割点。
 
- 
示例 : pythonpd.cut(x, bins=[0, 5, 5, 10], duplicates='drop') # 忽略重复的5
9. ordered: bool = True
- 
描述 :是否将结果作为有序分类(Categorical)返回。 - 如果为 True,则返回有序分类。此时labels中的数据必须唯一
- 如果为 False,则返回无序分类。此时labels中的数据可重复
 
- 如果为 
- 
示例 : pythonpd.cut(x, bins=3, ordered=True) # 默认为有序分类
返回值
- 返回类型:Pandas Categorical 类型(分类数据)。
- 内容:每个数据点对应的区间标签。
使用示例
示例 1:自动分割区间
            
            
              python
              
              
            
          
          import pandas as pd
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result = pd.cut(x, bins=3)
print(result)输出:
[(0.994, 4.0], (0.994, 4.0], (0.994, 4.0], (0.994, 4.0], (4.0, 7.0], (4.0, 7.0], (4.0, 7.0], (7.0, 10.0], (7.0, 10.0], (7.0, 10.0]]
Categories (3, interval[float64]): [(0.994, 4.0] < (4.0, 7.0] < (7.0, 10.0]]示例 2:自定义分割点
            
            
              python
              
              
            
          
          result = pd.cut(x, bins=[0, 5, 10, 15])
print(result)输出:
[(0, 5], (0, 5], (0, 5], (0, 5], (0, 5], (5, 10], (5, 10], (5, 10], (5, 10], (5, 10]]
Categories (3, interval[int64]): [(0, 5] < (5, 10] < (10, 15]]示例 3:自定义标签
            
            
              python
              
              
            
          
          result = pd.cut(x, bins=[0, 5, 10, 15], labels=['低', '中', '高'])
print(result)输出:
[低, 低, 低, 低, 低, 中, 中, 中, 中, 中]
Categories (3, object): [低 < 中 < 高]示例 4:返回分割点
            
            
              python
              
              
            
          
          result, bins = pd.cut(x, bins=3, retbins=True)
print(result)
print(bins)输出:
[(0.994, 4.0], (0.994, 4.0], (0.994, 4.0], (0.994, 4.0], (4.0, 7.0], (4.0, 7.0], (4.0, 7.0], (7.0, 10.0], (7.0, 10.0], (7.0, 10.0]]
Categories (3, interval[float64]): [(0.994, 4.0] < (4.0, 7.0] < (7.0, 10.0]]
[0.994 4.     7.     10.   ]