多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
玩泥巴的2 天前
.NET驾驭Word之力:理解Word对象模型核心 (Application, Document, Range)
word·二次开发·office·com互操作
玩泥巴的3 天前
.NET驾驭Word之力:COM组件二次开发全攻略之连接Word与创建你的第一个自动化文档
word·二次开发·com互操作
辣香牛肉面4 天前
[Windows] 搜索文本2.6.2(从word、wps、excel、pdf和txt文件中查找文本的工具)
word·excel·wps·搜索文本
FlYFlOWERANDLEAF5 天前
DevExpress中Word Processing Document API学习记录
学习·c#·word
AnySpaceOne5 天前
PDF转Word在线转换教程:多种实用方法分享
学习·pdf·word
我命由我123457 天前
Word - Word 的 5 种视图(页面视图、阅读视图、Web 版式视图、大纲视图、草稿视图)
ui·word·excel·photoshop·表格·ps·美工
XYZLHL7 天前
Word怎么设置页码总页数不包含封面和目录页
word
传而习乎7 天前
Word添加图/表题注
word
YAY_tyy7 天前
基于 Vue3 + VueOffice 的多格式文档预览组件实现(支持 PDF/Word/Excel/PPT)
前端·javascript·vue.js·pdf·word·excel