one-hot编码

我来详细介绍一下 one-hot 编码(独热编码)。

什么是 One-Hot 编码?

One-Hot 编码是一种将分类变量 转换为二进制向量的技术,其中每个类别都表示为一个二进制向量,只有一个元素为1("热"),其余都为0。

工作原理

假设有一个颜色类别变量:["红", "绿", "蓝"]

原始数据:

text

复制代码
红
绿
蓝
红

One-Hot 编码后:

text

复制代码
红 → [1, 0, 0]
绿 → [0, 1, 0]
蓝 → [0, 0, 1]
红 → [1, 0, 0]

为什么要使用 One-Hot 编码?

  1. 消除类别间的序数关系:避免机器学习模型误以为类别之间有大小顺序关系

  2. 兼容算法:许多机器学习算法(如线性回归、神经网络)需要数值输入

  3. 保持类别独立性:每个类别都成为独立的特征维度

在 Python 中的实现

方法1:使用 pandas

python

复制代码
import pandas as pd

# 创建示例数据
df = pd.DataFrame({'颜色': ['红', '绿', '蓝', '红', '绿']})

# 进行 one-hot 编码
one_hot = pd.get_dummies(df['颜色'], prefix='颜色')
print(one_hot)

方法2:使用 scikit-learn

python

复制代码
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 创建示例数据
data = np.array(['红', '绿', '蓝', '红', '绿']).reshape(-1, 1)

# 创建编码器
encoder = OneHotEncoder(sparse_output=False)

# 拟合和转换
one_hot_encoded = encoder.fit_transform(data)
print(one_hot_encoded)

One-Hot 编码的优缺点

优点:

  • ✅ 简单直观,易于实现

  • ✅ 消除了类别间的虚假序数关系

  • ✅ 与大多数机器学习算法兼容

缺点:

  • 维度灾难:如果类别很多,会创建大量稀疏特征

  • 稀疏矩阵:存储效率低

  • ❌ 丢失了类别之间的关系信息(如果有的话)

替代方案

  1. 标签编码(Label Encoding):将类别转换为数字(0, 1, 2...)

  2. 目标编码(Target Encoding):用目标变量的统计量编码

  3. 二进制编码(Binary Encoding):将类别先转换为数字,再转换为二进制

实用建议

  • 当类别数量较少(如<15)时,使用 One-Hot 编码

  • 当类别数量很多时,考虑其他编码方式或特征选择

  • 在神经网络中,One-Hot 编码通常用于输入层

  • 对于有序类别,可以考虑使用有序编码而不是 One-Hot

示例:完整代码

python

复制代码
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 示例数据
data = pd.DataFrame({
    '颜色': ['红', '绿', '蓝', '红', '绿', '蓝'],
    '尺寸': ['大', '中', '小', '中', '大', '小'],
    '价格': [100, 200, 150, 120, 180, 160]
})

# One-Hot 编码分类变量
data_encoded = pd.get_dummies(data, columns=['颜色', '尺寸'])

print("原始数据:")
print(data)
print("\nOne-Hot 编码后:")
print(data_encoded)

One-Hot 编码是数据预处理中的基础且重要的技术,特别适用于处理名义型分类变量。

相关推荐
梦想三三10 小时前
OpenCV银行卡数字识别项目(图像预处理与字符分割)
人工智能·opencv·计算机视觉
m0_6346667310 小时前
Anthropic Fable/Mythos 被紧急暂停:前沿模型商业化开始碰到真正的政策墙
人工智能·ai·ai编程
程序员cxuan10 小时前
LobsterAI 快把职业门槛打没了
人工智能·程序员
cqbzcsq10 小时前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
AndrewHZ10 小时前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl
生成论实验室11 小时前
机器人:一个自主运动的系统
人工智能·算法·语言模型·机器人·自动驾驶·agi·安全架构
Godspeed Zhao11 小时前
现代智能汽车系统——智驾SoC之框架版图
人工智能·机器学习·自动驾驶·汽车·soc
薛定猫AI11 小时前
【技术干货】OpenRouter Fusion复合API实战:多模型协同调用如何突破单模型性能瓶颈
人工智能·agi
dayuOK630711 小时前
写作卡壳怎么办?我的“5分钟启动法”
人工智能·职场和发展·自动化·新媒体运营·媒体
大山佬11 小时前
边缘 AI 部署实战:从模型量化到 MCU 推理的端到端工程方案
人工智能