词向量(One-Hot Encoding、Word Embedding、Word2Vec)

词向量,顾名思义,用向量表示单词。

1、One-Hot Encoding

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

python 代码示例:

python 复制代码
from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  # 训练。这里共有4个数据,3种特征
   
array = enc.transform([[0,1,3]]).toarray()  # 测试。这里使用1个新数据来测试
   
print array   # [[ 1  0  0  1  0  0  0  0  1]] # 独热编码结果

*后面参考文献有对代码进行解释

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。

2、Word Embedding

由于 One-Hot Encoding 表示的词向量无法解决词之间相似性问题(即词与词之间的关系)。

然而,通过 One-Hot Encoding 表示的词向量输入神经网络语言模型中,得到新的词向量可以解决词之间相似性问题(即可以采用余弦相似度等方法计算两个词之间的相似度)。

Word Embedding 例子:

当一个单词表达成 Word Embedding 后,很容易找出语义相近的其它词汇。

3、Word2Vec

Word2Vec 是 Word Embedding 语言模型之一。

Word2Vec 有两种训练方法:

第一种叫 CBOW,核心思想是从一个句子里面把一个词抠掉,用这个词的上文和下文去预测被抠掉的这个词;

第二种叫做 Skip-gram,和 CBOW 正好反过来,输入某个单词,要求网络预测它的上下文单词。

REFERENCE

数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码
机器学习数据预处理1:独热编码(One-Hot)及其代码
机器学习之独热编码(One-Hot)详解(代码解释)

相关推荐
ekprada几秒前
Day 42 深度学习可解释性:Grad-CAM 与 Hook 机制
人工智能·机器学习
nwsuaf_huasir1 分钟前
深度学习雷达信号参数估计
人工智能·深度学习
永霖光电_UVLED2 分钟前
Navitas 与 Cyient 达成合作伙伴关系,旨在推动氮化镓(GaN)技术在印度的普及
大数据·人工智能·生成对抗网络
wtsolutions3 分钟前
Sheet-to-Doc: Automate Document Generation with Excel Data and Word Templates
word·excel·wtsolutions
视觉光源老郑5 分钟前
推荐一些机器视觉检测光源的优秀品牌
人工智能·计算机视觉·视觉检测
serve the people7 分钟前
AI 模型识别 Nginx 流量中爬虫机器人的防御机制
人工智能·爬虫·nginx
PS1232328 分钟前
桥梁与隧道安全守护者 抗冰冻型风速监测方案
大数据·人工智能
九鼎创展科技8 分钟前
「有温度的陪伴」:基于全志 V821 的情感共鸣型实体机器人详解
linux·人工智能·嵌入式硬件·机器人
白熊18812 分钟前
【论文精读】Transformer: Attention Is All You Need 注意力机制就是一切
人工智能·深度学习·transformer
CES_Asia13 分钟前
资本赋能实体智能——2026 CES Asia机器人产业投资峰会定档北京
大数据·人工智能·microsoft·机器人