在机器学习领域中,One-Hot Encoding是什么

一般来说,机器学习模型要求所有的输入输出变量都必须是数字。如果我们的数据中包含了分类数据,我们必须将它们编码成一些数字,这样我们才可以拿去训练和评测一个机器学习模型。

我们常说的分类数据是不能够直接拿来训练、预测的。因为它们一般都不是数值数据(数字),分类数据一般都是一些名称、标签,比如说颜色的分类数据有"红"、"绿"、"黄"、"紫"等等,再比如汽车品牌分类数据有"比亚迪"、"奇瑞"、"长城"、"广汽"等等。它们都缺乏特定的数值。为了能够使用上机器学习算法,我们就要想办法用一些数字去代表它们。这个过程就是数字化编码过程。只要你把够把数字与它们(分类数据)对应上就行。

数字编码技术有很多。其中有一种叫"One-Hot Encoding",关键python还有相似的库来使用,所以让这种编码就更流行了。编出来的码主要的作用就是与相应分类数据一一对应上,方便机器学习算法的操作。而且这种编码用完就可以丢掉了,hot就体现在这了。它只有在对应着分类数据时才是有意义的。

One-Hot Encoding的思想也很简单,one bit hot encoding,一个比特位热编码。比特位的值只有两个0或1,所以一个比特位代表一个分类。如

奇瑞 广汽 比亚迪 长城
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1

奇瑞: 1000

广汽:0100

比亚迪:0010

长城:0001

sklearn提供了One-Hot encoding的数据预处理工具,我们这里因为是在应用机器学习算法前做的数据处理,所以这个阶段也叫数据预处理。

python 复制代码
import numpy as np
from sklearn.preprocessing import OneHotEncoder

categerical_data = np.array([['比亚迪'],['奇瑞'],['长城'],['广汽']])
one_hot_encoder = OneHotEncoder(sparse_output=False)
rs = one_hot_encoder.fit_transform(categerical_data)

结果:

相关推荐
RFID舜识物联网3 分钟前
耐高温RFID技术如何解决汽车涂装车间管理难题?
大数据·人工智能·嵌入式硬件·物联网·安全·信息与通信
NikoAI编程3 分钟前
用了半年 AI 编程,我总结出 5 类"别让 AI 碰"的场景
人工智能·ai编程·claude
SUNNY_SHUN4 分钟前
不需要Memory Bank:CMDR-IAD用2D+3D双分支重建做工业异常检测,MVTec 3D 97.3%
论文阅读·人工智能·算法·3d
guslegend7 分钟前
4月11日(Codex使用)
人工智能·大模型
V搜xhliang02467 分钟前
超声心动图影像组学对肥厚型心肌病心脏重构的预测价值
人工智能·重构·机器人
杜子不疼.8 分钟前
浏览器秒连服务器!WebSSH 实战体验,远程运维再也不折腾
运维·服务器·人工智能
一江寒逸10 分钟前
【30天做一个生产级RAG知识库系统】第5篇:Prompt工程与大模型调用封装,解决幻觉问题
人工智能·prompt
天渺工作室14 分钟前
给AI装上「丁真语录」skill,vibecoding也能加点笑料
人工智能·ai编程
学亮编程手记15 分钟前
一台服务器能支持的A800或H800 GPU最大数量分析
运维·服务器·人工智能
大灰狼来喽16 分钟前
McPorter 实战:一键管理 OpenClaw 的 MCP 服务器
运维·服务器·人工智能·aigc·ai编程