【自然语言处理】【深度学习】文本向量化、one-hot、word embedding编码

因为文本不能够直接被模型计算,所以需要将其转化为向量

把文本转化为向量有两种方式:

  • 转化为one-hot编码
  • 转化为word embedding

一、one-hot 编码

在one-hot编码中,每一个token使用一个长度为N的向量表示,N表示词典的数量。

即:把待处理的文档进行分词或者是N-gram处理,然后进行去重得到词典。

  • 例:假设我们有一个文档:"深度学习",那么进行one-hot处理后得到的结果如下
token one-hot encoding
1000
0100
0010
0001

弊端:我们有1万个词的时候,编码很长,而且只有一个位置的1有效。使用稀疏向量表示文本,占用空间比较大。

二、word embedding编码

word embedding是深度学习中表示文本常用的一种方法。和one-hot编码不同,word embedding使用了浮点型的稠密矩阵来表示token。根据词典的大小,我们的向量通常使用不同的维度,例如100,256,300等。其中向量中的每一个值是一个超参数,其初始值是随机生成的,之后会在训练的过程中进行学习中获得。Word embedding 的目标是捕捉词语之间的语义关系,使得相似含义的词在向量空间中的表示更为接近。

如果我们文本中有20000个词语,如果使用one-hot编码,那么我们会有20000*20000的矩阵,其中大多数的位置都为0,但是如果我们使用word embedding来表示的话,只需要20000*维度,比如20000*300的形象表示就是:

token num vector
词1 0 [w11,w12,w13···w1N],其中N表示维度(dimension)
词2 1 [w21,w22,w23···w2N]
词3 2 [w31,w32,w33···w3N]
··· ··· ···
词m m [wm1,wm2,wm3···wmN],其中m表示词典的大小

我们会把所有的文本转化为向量,把句子用向量来表示

在这之间,我们会先把token使用数字来表示再把数字用向量来表示

即:token ---> num ---> vector。

比如,dog是1,cat是2,lion是3,然后再将1、2、3转化为向量。

token d1 d2 d3 d4
dog -0.4 0.37 0.02 -0.34
cat -0.15 -0.02 -0.23 -0.23
lion 0.19 -0.4 0.35 -0.48
tiger -0.08 0.31 0.56 0.07
elephant -0.04 -0.09 0.11 -0.06
cheetah 0.27 -0.28 -0.2 -0.43
monkey -0.02 -0.67 -0.21 -0.48
rabbit -0.04 -0.3 -0.18 -0.47
mouse 0.09 -0.46 -0.35 -0.24

2.1 word embedding数据形状转化

这批batch的每个句子有N个词,总共有batch_size个句子,也就是说这批batch的形状为[batch_size, N]。

word embedding规定,每个词映射到长度为4的向量上,即维度为4。其形状为[M, D]

这批batch经过word embedding后,查询其中的词典(M个词),把每一个句子的词映射到其中的向量上,最终batch的形状变成了[batch_size, N, D]。

2.2 word embedding API

torch.nn.Embedding(num_embeddings,embedding_dim)

参数:

  • num_embbeding:词典的大小
  • embedding_dim: embedding的维度

使用方法:

python 复制代码
embedding = nn.Embedding(vocab_size,300)#实例化
input_embed = embedding(input) #进行embedding操作

2.3数据形状的变化

思考:每一个batch中的句子有10个词语,经过形状为[20, 4]的word embedding之后,原来的句子会变成什么形状?

因为word emdedding规定每个词用长度为4的向量表示,所以batch中每个句子中的10个词语会分布到向量的4个分量上,最终变成[batch_size, 10, 4]。

做图码字不易,可以点个赞嘛,谢谢你~~~

相关推荐
paixiaoxin1 小时前
CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究
人工智能·深度学习·机器学习·生成对抗网络·计算机视觉·ocr·.net
weixin_515202491 小时前
第R3周:RNN-心脏病预测
人工智能·rnn·深度学习
AIGCmagic社区2 小时前
AI多模态技术介绍:理解多模态大语言模型的原理
人工智能·语言模型·自然语言处理
吕小明么3 小时前
OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步思考
人工智能·深度学习·算法·aigc·agi
CSBLOG4 小时前
深度学习试题及答案解析(一)
人工智能·深度学习
小陈phd4 小时前
深度学习之超分辨率算法——SRCNN
python·深度学习·tensorflow·卷积
王国强20095 小时前
动手学人工智能-深度学习计算5-文件读写操作
深度学习
开放知识图谱6 小时前
论文浅尝 | HippoRAG:神经生物学启发的大语言模型的长期记忆(Neurips2024)
人工智能·语言模型·自然语言处理
威化饼的一隅6 小时前
【多模态】swift-3框架使用
人工智能·深度学习·大模型·swift·多模态
机器学习之心6 小时前
BiTCN-BiGRU基于双向时间卷积网络结合双向门控循环单元的数据多特征分类预测(多输入单输出)
深度学习·分类·gru