多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
Blossom.11819 小时前
基于Embedding+图神经网络的开源软件供应链漏洞检测:从SBOM到自动修复的完整实践
人工智能·分布式·深度学习·神经网络·copilot·开源软件·embedding
不坑老师1 天前
在Word、PPT中一键制作汉字笔顺分解步骤效果,自定义格子颜色、多种效果~
microsoft·word·powerpoint·wps·office
Yeliang Wu2 天前
基于 ms-swift 框架微调 Embedding 模型(Ubuntu22.04):从原理到实践
微调·embedding·训练·ms-swift
打小就很皮...3 天前
前端 Word 导出:自定义页眉表格的实现方案
前端·word·react·页眉设置
CodeCraft Studio3 天前
国产化Word处理组件Spire.DOC教程:通过Python将HTML转换为TXT文本
python·html·word·python编程·spire.doc·html转txt
Full Stack Developme3 天前
Java实现Word、Excel、PDF文件 在线预览
java·word·excel
清纯世纪5 天前
word设置的正文样式,按回车后变成了样式格式
word
ELI_He9995 天前
WPS制作论文三线表
word·论文
坚定信念,勇往无前5 天前
vue3图片,pdf,word,excel,ppt多格式文件预览组件Vue Doc Viewers Plus
pdf·word·excel
qq_296544656 天前
在怎么编辑PDF?专业级pdf转换教程,PDF在线编辑,Word转PDF使用方法
microsoft·pdf·word