多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
薛定谔的猫-菜鸟程序员10 小时前
从零到一:用Electron打造专业的Markdown转Word桌面应用。
javascript·electron·word
wtsolutions11 小时前
Sheet-to-Doc高级功能:循环占位符的使用技巧
json·word·wtsolutions·sheet-to-doc
百事牛科技12 小时前
文件不想再加密了?取消Word 打开密码的方法
windows·word
wtsolutions16 小时前
Sheet-to-Doc图片处理:如何在Word中插入动态图片
word
2501_9071368216 小时前
Word题库转换Excel
word·excel·软件需求
Lkygo2 天前
Embedding 和 Reranker 模型
人工智能·embedding·vllm·sglang
Tmin.2 天前
Word论文中遇到的
word
智航GIS2 天前
9.4 Word 自动化
python·自动化·word
love3981467792 天前
Embedding,rerank,lora区别
embedding
深念Y3 天前
学习通下载老师没有开放下载的文档的方法
学习·pdf·word·文档·下载·学习通·开发者模式