多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
空中湖1 小时前
免费批量Markdown转Word工具
word·markdown
呆萌的代Ma4 小时前
Cursor实现用excel数据填充word模版的方法
word·excel
空中湖1 天前
文档极速转换器 - 免费批量Word转PDF工具
pdf·word
东方佑1 天前
使用 Python 自动化 Word 文档样式复制与内容生成
python·自动化·word
wqqqianqian3 天前
国产linux系统(银河麒麟,统信uos)使用 PageOffice在线编辑word文件保存数据同时保存文件
linux·word·信创·国产·保存·pageoffice·在线编辑
余子桃3 天前
Python实现markdown文件转word
python·word·markdown
一只特立独行的兔先森3 天前
WordZero:让Markdown与Word文档自由转换的Golang利器
golang·word·word自动化
CodeCraft Studio3 天前
文档处理组件Aspose.Words 25.5全新发布 :六大新功能与性能深度优化
word·aspose·aspose.words·word文档转换
weixin_472339463 天前
python批量解析提取word内容到excel
python·word·excel
俱会一处3 天前
将word文件转为kindle可识别的azw3文件的方法
word