数据分析 | 热度编码和标签编码

热度编码 (One-Hot Encoding)和标签编码 (Label Encoding)是两种常用的将分类变量转换为数值型变量的方法。下面是对这两种编码

方式的详细解释及Python代码示例。

1. 热度编码(One-Hot Encoding)

定义

热度编码将每个类别转换为一个新的二进制变量(0或1)。每个类别都有一个独立的列,表示该样本是否属于该类别。

优点

  • 不会引入顺序关系,适合无序类别(如颜色、性别等)。
  • 保持了每个类别的独立性。

缺点

  • 对于类别数量较多的变量,可能会导致维度爆炸(即生成大量的虚拟变量)。

Python示例

python 复制代码
import pandas as pd

# 创建示例数据集
data = pd.DataFrame({
    'color': ['red', 'blue', 'green', 'blue', 'red']
})

# 使用独热编码
one_hot_encoded_data = pd.get_dummies(data, columns=['color'], drop_first=True)

print(one_hot_encoded_data)

输出

复制代码
   color_blue  color_green
0           0            0
1           1            0
2           0            1
3           1            0
4           0            0

解释

  • pd.get_dummies(...)函数将color列中的每种颜色转换为新的二进制列(color_bluecolor_green)。
  • drop_first=True参数删除了第一个类别(red),从而避免了多重共线性。

2. 标签编码(Label Encoding)

定义

标签编码将每个类别转换为一个唯一的整数值。这种方法对每个类别分配一个数字,通常从0开始。

优点

  • 简单且节省内存。
  • 在某些模型(如树模型)中,能够处理有序类别。

缺点

  • 对于无序类别,可能会引入不必要的顺序关系,使得模型误解类别之间的关系。

Python示例

python 复制代码
from sklearn.preprocessing import LabelEncoder

# 创建示例数据集
data = pd.DataFrame({
    'color': ['red', 'blue', 'green', 'blue', 'red']
})

# 创建LabelEncoder实例
label_encoder = LabelEncoder()

# 使用标签编码
data['color_encoded'] = label_encoder.fit_transform(data['color'])

print(data)

输出

复制代码
   color  color_encoded
0    red              2
1   blue              0
2  green              1
3   blue              0
4    red              2

解释

  • LabelEncodercolor列中的每种颜色转换为唯一的整数值。 red被编码为2,blue为0,green为1。
  • 这种方法在处理有序类别时可能有意义,但在处理无序类别时需要谨慎。

总结

  • 热度编码(One-Hot Encoding)

    • 将每个类别转换为独立的二进制列,适合无序类别。
    • 可能导致维度爆炸。
  • 标签编码(Label Encoding)

    • 将每个类别转换为唯一的整数,适合有序类别。
    • 可能引入不必要的顺序关系,适合某些模型(如树模型)使用。

选择合适的编码方式取决于数据的特性和后续模型的需求。在无序类别的情况下,热度编码通常是更好的选择,而标签编码适用于有序

类别。

相关推荐
python机器学习ML12 小时前
机器学习——16种模型(基础+集成学习)+多角度SHAP高级可视化+Streamlit交互式应用+RFE特征选择+Optuna+完整项目
人工智能·python·机器学习·分类·数据挖掘·scikit-learn·集成学习
YangYang9YangYan12 小时前
2026大专计算机专业学数据分析的价值分析
数据挖掘·数据分析
Liue6123123113 小时前
肝脏疾病病理特征识别与分类:基于GFL_R101-DConv-C3-C5_FPN_MS-2x_COCO模型的深度学习方法研究
深度学习·分类·数据挖掘
OLOLOadsd12313 小时前
自然景观分类与识别_YOLO11_C3k2_IDWC改进方法详解
人工智能·分类·数据挖掘
2501_9413297213 小时前
棉田方向识别与分类_yolo11-seg-repvit实现_1
人工智能·分类·数据挖掘
高洁0113 小时前
知识图谱如何结合 RAG实现更精确的知识问答
人工智能·算法·机器学习·数据挖掘·知识图谱
余丁,微生信13 小时前
在线绘制特殊形状(三角行,菱形,五边形,六边形,椭圆,圆形)聚类热图
数据挖掘·数据可视化·生信分析·科研绘图·科学科普·临床分析·聚类热图
铉铉这波能秀14 小时前
如何在arcmap中将shp等文件类型导出为表格(四种方法)
数据库·arcgis·数据分析·arcmap·地理信息·shp
2501_9418372614 小时前
龙虾性别分类与未定义类别识别模型训练 tood_r50_fpn_ms-2x_coco实现详解_1
人工智能·分类·数据挖掘
博思云为14 小时前
企业级智能PPT生成:Amazon云+AI驱动,全流程自动化提效
人工智能·语言模型·云原生·数据挖掘·云计算·语音识别·aws