多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为W~i-1~这个单词,通过神经网络,输出为不同的词汇中下个单词为W~i~的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词X~i-2~和X~i-1~

相关推荐
Java开发追求者10 小时前
在CSS中换行word-break: break-word和 word-break: break-all区别
前端·css·word
徐同保1 天前
vue 在线预览word和excel
vue.js·word·excel
eybk3 天前
拖放WORD文件朗读全文
开发语言·c#·word
codelife3213 天前
记录word转xml文件踩坑
xml·word
老田低代码3 天前
根据NVeloDocx Word模板引擎生成Word(五)
开发语言·c#·word
xuanyu223 天前
Word使用手册
word
忧郁的蛋~4 天前
asp.net core调用wps实现word转pdf的方法
pdf·word·wps
zhangdabai14 天前
在Word中,用VBA比较两段文本的相似度
word·wps
weixin_457703924 天前
如何设置word页码从指定页开始
word
老田低代码5 天前
根据NVeloDocx Word模板引擎生成Word(六-结束)
word