离散化及其在 Pandas 中的实现方法

目录

1.什么是离散化?

2.离散化类型

3.示例代码

3.1连续变量离散化

3.2定性变量离散化

4.运行结果

4.1连续变量离散化

4.2定性变量离散化


1.什么是离散化?

离散化是将连续数据或分类数据转换为离散类别的过程,方便后续的数据分析和机器学习建模。

2.离散化类型

  1. 连续变量离散化:
    • 定义:将连续的数值数据(例如年龄、收入、温度等)转换为离散的区间或类别。
    • 方法:使用区间划分,将连续的数据分割成几个区间,并赋予每个区间一个标签或编码。
    • 示例:将年龄数据分为"年轻"(18-29岁)、"中年"(30-40岁)、"老年"(41-50岁)。
  2. 定性变量离散化(分类编码):
    • 定义:将定性(分类)变量(例如性别、颜色、品牌等)转换为数值型或二进制型变量。
    • 方法:将每个类别转换为一个唯一的数值标签(数值编码)或多个二进制变量(独热编码)。
    • 示例 :将水果名称转换为数值编码(apple = 0, banana = 1, cherry = 2)或独热编码(apple = [1, 0, 0], banana = [0, 1, 0], cherry = [0, 0, 1])。

3.示例代码

3.1连续变量离散化

等宽分箱 (Equal-width binning)是一种将连续变量离散化的方法。它将数据范围分成宽度相等的区间 (也称为"")。每个区间包含的数据点数量可能不同,但每个区间的宽度是相同的。

将年龄数据划分为几个年龄段:

python 复制代码
import pandas as pd

# 创建 DataFrame
data = {'age': [22, 25, 47, 35, 46, 50, 18, 21, 30, 19]}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 等宽分箱
df['age_bins'] = pd.cut(df['age'], bins=3, labels=["Young", "Middle-aged", "Old"])
print("\n离散化结果(等宽分箱):")
print(df)
"""
    pd.cut:Pandas 的 cut 函数用于将连续变量(数值数据)分割成离散的区间。这个函数可以创建等宽区间或自定义区间。
    df['age']:选择 DataFrame 中的 age 列作为需要离散化的数据。
    bins=3:将 age 列的数据分成三个等宽的区间。
    labels=["Young", "Middle-aged", "Old"]:为每个区间分配标签。三个区间将分别被标记为"Young"(年轻),"Middle-aged"(中年)和"Old"(老年)。
"""

3.2定性变量离散化

独热编码 (One-Hot Encoding)是一种将分类变量(定性变量)转换为二进制向量的编码方法。每个分类变量的值将被转换为一个二进制向量,该向量在某个位置上为1,其余位置为0。这样可以避免分类变量在数值运算中引入大小关系。

定性变量(qualitative variable)又名分类变量,是统计学中的概念。当观测的个体只能归属于几种互不相容的类别中的一种时,一般用非数字来表达其类别,这样的观测数据称为定性变量

将水果名称转换为数值编码和独热编码:

python 复制代码
import pandas as pd

# 创建 DataFrame
data = {'fruit': ['apple', 'banana', 'cherry', 'date', 'apple', 'banana', 'cherry']}
df = pd.DataFrame(data)
print("原始数据:")
print(df)

# 数值编码
df['fruit_code'] = df['fruit'].astype('category').cat.codes
print("\n数值编码结果:")
print(df)
"""
    在这里,fruit_code 列中的数据代表 fruit 列中水果名称的数值编码。具体解释如下:
    apple 被编码为 0
    banana 被编码为 1
    cherry 被编码为 2
    date 被编码为 3
    
    df['fruit']:选择 DataFrame 中的 fruit 列。
    astype('category'):将 fruit 列的数据类型转换为 Pandas 的分类数据类型(category)。分类数据类型是 Pandas 用于处理有限的离散值的一种类型,通常用于表示字符串分类变量。
    cat.codes:获取分类数据的编码。每个唯一的分类值(例如 'apple', 'banana', 'cherry' 等)都会被映射为一个唯一的整数代码。这些整数代码存储在 cat.codes 属性中。
"""

# 独热编码
df_dummies = pd.get_dummies(df['fruit'], prefix='fruit')
print("\n独热编码结果:")
print(df_dummies)
"""
    pd.get_dummies:Pandas 的 get_dummies 函数用于执行独热编码(One-Hot Encoding)。独热编码是将分类变量转换为多个二进制(0 或 1)变量的过程。
    df['fruit']:选择 DataFrame 中的 fruit 列。
    prefix='fruit':为生成的虚拟变量添加前缀。在生成的虚拟变量的列名中会添加这个前缀,以便识别这些列属于哪个原始变量。
"""

# 合并结果
df = pd.concat([df, df_dummies], axis=1)
print("\n合并后的结果:")
print(df)
"""
    pd.concat:Pandas 的 concat 函数用于连接两个或多个 DataFrame。
    [df, df_dummies]:将原始 DataFrame df 和独热编码后的 DataFrame df_dummies 作为列表传递给 concat 函数。这里我们将这两个 DataFrame 水平地连接在一起(即按列连接)。
    axis=1:指定连接操作沿着列轴(轴=1)进行。这意味着新 DataFrame 的列数会增加,而行数保持不变。
"""

4.运行结果

4.1连续变量离散化

python 复制代码
原始数据:
   age
0   22
1   25
2   47
3   35
4   46
5   50
6   18
7   21
8   30
9   19

离散化结果(等宽分箱):
   age      age_bins
0   22         Young
1   25         Young
2   47           Old
3   35  Middle-aged
4   46           Old
5   50           Old
6   18         Young
7   21         Young
8   30  Middle-aged
9   19         Young

4.2定性变量离散化

python 复制代码
原始数据:
     fruit
0    apple
1   banana
2   cherry
3     date
4    apple
5   banana
6   cherry

数值编码结果:
     fruit  fruit_code
0    apple           0
1   banana           1
2   cherry           2
3     date           3
4    apple           0
5   banana           1
6   cherry           2

独热编码结果:
   fruit_apple  fruit_banana  fruit_cherry  fruit_date
0            1             0             0           0
1            0             1             0           0
2            0             0             1           0
3            0             0             0           1
4            1             0             0           0
5            0             1             0           0
6            0             0             1           0

合并后的结果:
     fruit  fruit_code  fruit_apple  fruit_banana  fruit_cherry  fruit_date
0    apple           0            1             0             0           0
1   banana           1            0             1             0           0
2   cherry           2            0             0             1           0
3     date           3            0             0             0           1
4    apple           0            1             0             0           0
5   banana           1            0             1             0           0
6   cherry           2            0             0             1           0
相关推荐
乾元4 分钟前
AI 在云网络(VPC / VNet)部署的编排与安全对齐——从“手工堆资源”到“意图驱动的网络生成”(含 Terraform 工程化)
运维·网络·人工智能·网络协议·安全·云计算·terraform
万俟淋曦6 分钟前
【TextIn大模型加速器 + 火山引擎】赋能机器人行业分析与VLA研究
人工智能·机器人·火山引擎·robot·具身智能·coze·textln
三掌柜6668 分钟前
2025三掌柜赠书活动第四十六期 白话AI安全:32个故事带你读懂AI的攻防博弈
人工智能
猫头虎9 分钟前
猫头虎AI分享|可把GitHub代码库变成实时文档中心的一款实用型MCP工具:GitMCP,让AI随时访问最新文档代码,消除代码幻觉
人工智能·github·aigc·ai编程·ai写作·agi·ai-native
IT_陈寒10 分钟前
Java 21新特性实战:5个必学的性能优化技巧让你的应用提速40%
前端·人工智能·后端
小毅&Nora12 分钟前
【人工智能】【阿里云百炼平台】 ① 大模型全景图:从文本到全模态,一张图看懂AI能力边界(2025版)
人工智能·阿里云·云计算
寻道码路15 分钟前
【GitHub周榜】WrenAI:开源SQL AI代理,让Text-to-SQL轻松实现,开启自然语言与数据交互新时代
人工智能·sql·语言模型·开源·github·aigc·ai编程
技术小甜甜15 分钟前
[AI] openwebui内网部署网页加载缓慢?一个设置绕过openai连接问题!
人工智能·llm·ollama·openwebui
编码小哥16 分钟前
OpenCV轮廓特征分析:面积、周长与形状拟合
人工智能·opencv·计算机视觉
张彦峰ZYF16 分钟前
AI赋能原则8解读思考:当 AI 能“完美决策”-为什么动态契约才是安全之钥
人工智能·ai·ai赋能与落地