np.digitize函数详解

np.digitize 是 NumPy 库中的一个函数,用于将输入数组的元素归入指定的区间(bins)中。它根据输入的数组和区间边界,返回一个与输入数组形状相同的数组,其中每个元素都被赋予一个区间标签,表示该元素属于哪个区间。

np.digitize 函数的语法

python 复制代码
numpy.digitize(x, bins, right=False)

参数说明

  • x:需要分类的输入数组或列表。这个数组中的每个元素将被分配到指定的区间(bins)中。

  • bins:定义区间边界的数组或列表。这个数组通常是单调递增的,但也可以是单调递减的。它定义了区间的边界值。

  • right :布尔值,默认为 False。它决定区间是左开右闭 [left, right) 还是左闭右开 (left, right]

    • right=False 时,区间是左闭右开 [left, right),即包含左端点,但不包含右端点。
    • right=True 时,区间是左开右闭 (left, right],即不包含左端点,但包含右端点。

返回值

返回一个与 x 形状相同的整数数组,其中每个元素的值表示 x 中相应元素所属的区间编号。编号从1开始。如果某个元素小于第一个区间的左端点,那么返回0;如果某个元素大于最后一个区间的右端点,那么返回 len(bins)

示例说明

  1. 简单的分类示例

    python 复制代码
    import numpy as np
    
    x = [0.2, 6.4, 3.0, 1.6]
    bins = [0.0, 1.0, 2.5, 4.0, 6.0]
    
    indices = np.digitize(x, bins)
    print(indices)  # 输出:[1 5 3 2]
    • 解释
      • 0.2 落在第一个区间 [0.0, 1.0) 中,返回1。
      • 6.4 大于最后一个区间的右端点,返回 len(bins),即5。
      • 3.0 落在第三个区间 [2.5, 4.0) 中,返回3。
      • 1.6 落在第二个区间 [1.0, 2.5) 中,返回2。
  2. 改变区间包含方式

    python 复制代码
    indices_right = np.digitize(x, bins, right=True)
    print(indices_right)  # 输出:[1 5 3 1]
    • 解释
      • 0.2 落在第一个区间 (0.0, 1.0] 中,返回1。
      • 6.4 大于最后一个区间的右端点,返回 len(bins),即5。
      • 3.0 落在第三个区间 (2.5, 4.0] 中,返回3。
      • 1.6 落在第一个区间 (0.0, 1.0] 中,因为 right=True 时第一个区间右端点1.0是包含的,返回1。
  3. 逆序区间的分类

    python 复制代码
    x = [0.2, 6.4, 3.0, 1.6]
    bins = [6.0, 4.0, 2.5, 1.0, 0.0]
    
    indices = np.digitize(x, bins)
    print(indices)  # 输出:[4 0 2 3]
    • 解释
      • 0.2 落在第四个区间 [1.0, 0.0) 中,返回4。
      • 6.4 大于第一个区间的右端点,返回0(因为大于第一个区间的右端点 6.0)。
      • 3.0 落在第二个区间 [4.0, 2.5) 中,返回2。
      • 1.6 落在第三个区间 [2.5, 1.0) 中,返回3。

总结

  • np.digitize 是一个非常实用的函数,能够帮助我们将数据划分到预定义的区间中,常用于数据分组、直方图计算和分位数计算等场景。

  • 关键在于 bins 的定义及 right 参数的设置,确保数据根据需求正确划分到相应的区间中。

通过这个函数,我们可以轻松地将数据分段处理,这在数据分析和可视化中非常有用。

笔者水平有限,若有不对的地方欢迎评论指正!

相关推荐
程序员NEO3 分钟前
Spring AI 对话记忆大揭秘:服务器重启,聊天记录不再丢失!
人工智能·后端
柠檬味拥抱3 分钟前
基于YOLOv8的100种中药分类识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
人工智能
applebomb8 分钟前
没合适的组合wheel包,就自行编译flash_attn吧
python·ubuntu·attention·flash
神经星星9 分钟前
新加坡国立大学基于多维度EHR数据实现细粒度患者队列建模,住院时间预测准确率提升16.3%
人工智能·深度学习·机器学习
TY-20259 分钟前
深度学习——神经网络1
人工智能·深度学习·神经网络
y_y_liang12 分钟前
图生生AI商品换背景,高效商拍!
大数据·人工智能·ai·ai作画
vortex515 分钟前
算法设计与分析 知识总结
算法
中杯可乐多加冰26 分钟前
百度文心一言开源ERNIE-4.5深度测评报告:技术架构解读与性能对比
人工智能·掘金·金石计划
王小王-12329 分钟前
基于Hadoop的用户购物行为可视化分析系统设计与实现
大数据·hadoop·分布式·用户购物行为·电商日志分析
198931 分钟前
【零基础学AI】第31讲:目标检测 - YOLO算法
人工智能·rnn·yolo·目标检测·tensorflow·lstm