词向量(One-Hot Encoding、Word Embedding、Word2Vec)

词向量,顾名思义,用向量表示单词。

1、One-Hot Encoding

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

python 代码示例:

python 复制代码
from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  # 训练。这里共有4个数据,3种特征
   
array = enc.transform([[0,1,3]]).toarray()  # 测试。这里使用1个新数据来测试
   
print array   # [[ 1  0  0  1  0  0  0  0  1]] # 独热编码结果

*后面参考文献有对代码进行解释

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。

2、Word Embedding

由于 One-Hot Encoding 表示的词向量无法解决词之间相似性问题(即词与词之间的关系)。

然而,通过 One-Hot Encoding 表示的词向量输入神经网络语言模型中,得到新的词向量可以解决词之间相似性问题(即可以采用余弦相似度等方法计算两个词之间的相似度)。

Word Embedding 例子:

当一个单词表达成 Word Embedding 后,很容易找出语义相近的其它词汇。

3、Word2Vec

Word2Vec 是 Word Embedding 语言模型之一。

Word2Vec 有两种训练方法:

第一种叫 CBOW,核心思想是从一个句子里面把一个词抠掉,用这个词的上文和下文去预测被抠掉的这个词;

第二种叫做 Skip-gram,和 CBOW 正好反过来,输入某个单词,要求网络预测它的上下文单词。

REFERENCE

数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码
机器学习数据预处理1:独热编码(One-Hot)及其代码
机器学习之独热编码(One-Hot)详解(代码解释)

相关推荐
audyxiao0019 小时前
人工智能顶级期刊PR论文解读|HCRT:基于相关性感知区域的混合网络,用于DCE-MRI图像中的乳腺肿瘤分割
网络·人工智能·智慧医疗·肿瘤分割
零售ERP菜鸟9 小时前
IT价值证明:从“成本中心”到“增长引擎”的确定性度量
大数据·人工智能·职场和发展·创业创新·学习方法·业界资讯
叫我:松哥9 小时前
基于大数据和深度学习的智能空气质量监测与预测平台,采用Spark数据预处理,利用TensorFlow构建LSTM深度学习模型
大数据·python·深度学习·机器学习·spark·flask·lstm
童话名剑10 小时前
目标检测(吴恩达深度学习笔记)
人工智能·目标检测·滑动窗口·目标定位·yolo算法·特征点检测
木卫四科技10 小时前
【木卫四 CES 2026】观察:融合智能体与联邦数据湖的安全数据运营成为趋势
人工智能·安全·汽车
珠海西格电力15 小时前
零碳园区有哪些政策支持?
大数据·数据库·人工智能·物联网·能源
じ☆冷颜〃15 小时前
黎曼几何驱动的算法与系统设计:理论、实践与跨领域应用
笔记·python·深度学习·网络协议·算法·机器学习
启途AI16 小时前
2026免费好用的AIPPT工具榜:智能演示文稿制作新纪元
人工智能·powerpoint·ppt
TH_116 小时前
35、AI自动化技术与职业变革探讨
运维·人工智能·自动化
楚来客16 小时前
AI基础概念之八:Transformer算法通俗解析
人工智能·算法·transformer