Python 之Scikit-learn(六) -- Scikit-learn提供的独热编码

独热编码(One-Hot Encoding)是一种常用的将分类数据转换为数值数据的技术。Scikit-learn 提供了 OneHotEncoder 类来方便地进行独热编码。下面是独热编码的原理、适用情况以及使用 Scikit-learn 进行独热编码的详细介绍和示例代码。

原理

独热编码是一种将分类变量转换为二进制向量的编码方式。每个类别都用一个独特的二进制向量表示,向量的长度等于类别的总数。在该向量中,只有一个元素是1,其他元素都是0。例如,有三个类别 ['cat', 'dog', 'mouse'],独热编码后将变为:

  • cat: [1, 0, 0]
  • dog: [0, 1, 0]
  • mouse: [0, 0, 1]

适用情况

独热编码适用于以下情况:

  • 分类变量需要转换为数值变量,供机器学习模型使用。
  • 适用于没有顺序的分类数据(如颜色、性别、城市等)。
  • 适用于大多数机器学习算法,特别是线性模型、树模型、神经网络等。

Scikit-learn 独热编码示例

下面是使用 Scikit-learn 进行独热编码的详细步骤和示例代码。

  1. 导入必要的库
python 复制代码
import numpy as np
from sklearn.preprocessing import OneHotEncoder
  1. 创建示例数据

假设我们有一个包含三个分类特征的数据集:

python 复制代码
data = np.array([
    ['cat', 'small', 'black'],
    ['dog', 'large', 'brown'],
    ['mouse', 'small', 'white'],
    ['cat', 'large', 'white'],
    ['dog', 'small', 'black']
])
  1. 初始化并应用 OneHotEncoder

首先,创建 OneHotEncoder 的实例。然后,使用 fit_transform 方法将分类特征转换为独热编码。

python 复制代码
encoder = OneHotEncoder()
encoded_data = encoder.fit_transform(data).toarray()
  1. 查看编码后的数据
python 复制代码
print(encoded_data)
  1. 获取编码后的特征名称
python 复制代码
print(encoder.get_feature_names_out())

完整示例代码

python 复制代码
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# 创建示例数据
data = np.array([
    ['cat', 'small', 'black'],
    ['dog', 'large', 'brown'],
    ['mouse', 'small', 'white'],
    ['cat', 'large', 'white'],
    ['dog', 'small', 'black']
])

# 初始化 OneHotEncoder
encoder = OneHotEncoder()

# 应用 OneHotEncoder 进行独热编码
encoded_data = encoder.fit_transform(data).toarray()

# 输出编码后的数据
print("Encoded Data:")
print(encoded_data)

# 输出编码后的特征名称
print("Feature Names:")
print(encoder.get_feature_names_out())

结果

python 复制代码
Encoded Data:
[[1. 0. 0. 1. 0. 1. 0. 1.]
 [0. 1. 0. 0. 1. 0. 1. 0.]
 [0. 0. 1. 1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1. 0. 0. 1.]
 [0. 1. 0. 1. 0. 1. 0. 1.]]

Feature Names:
['x0_cat' 'x0_dog' 'x0_mouse' 'x1_large' 'x1_small' 'x2_black' 'x2_brown' 'x2_white']
相关推荐
nimadan122 分钟前
手机制作AI漫剧APP2025推荐,高效便捷创作体验
人工智能·python·智能手机
kronos.荒5 分钟前
柱状图中的最大矩形(python)
python·单调栈
jf加菲猫5 分钟前
第10章 数据处理
xml·开发语言·数据库·c++·qt·ui
学而要时习6 分钟前
强化学习:从“试错进化“到“推理革命
c语言·人工智能·python·语言模型
June bug6 分钟前
(Mac)docling-mcp 的依赖解析器找不到匹配的 torch 安装包
经验分享·python·macos
小陈工6 分钟前
2026年4月1日技术资讯洞察:AI芯片革命、数据库智能化与云原生演进
前端·数据库·人工智能·git·python·云原生·开源
芜湖xin6 分钟前
【解决Error】pip安装Flask失败
python·flask·pip
m0_747124536 分钟前
LangChain 嵌入向量详解
python·ai·langchain
酉鬼女又兒8 分钟前
零基础快速入门前端深入掌握箭头函数、Promise 与 Fetch API —— 蓝桥杯 Web 考点全解析(可用于备赛蓝桥杯Web应用开发)
开发语言·前端·css·职场和发展·蓝桥杯·es6·js
迷藏49411 分钟前
**发散创新:Go语言中基于上下文的优雅错误处理机制设计与实战**在现代后端开发中,**错误处理**早已不是简单
java·开发语言·后端·python·golang