多模态基础--- word Embedding

1 word Embedding

原始的单词编码方式:

one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。

wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3都属于生物

word Embedding编码方式:

将每个word映射到高维向量上

1.1 word Embedding方式

word Embedding主要有两种方法:
count based:

通过阅读大量的文章,比较不同的词汇后面跟随的内容一致性判断该两个词汇的相关性。

例:乔丹在NBA打球《===》科比在NBA打球

prediction based:

如下图,输入为Wi-1这个单词,通过神经网络,输出为不同的词汇中下个单词为Wi的概率。
取第一个隐藏层 Z作为word的编码

由于只依靠前一个单词预测后面的单词,这很困难,因此可以选择前面的多个单词来预测后面的单词。

我们将输入的单词Xi-2和Xi-1

相关推荐
huluang27 分钟前
XML文档差异分析工具:深入解析Word XML结构变化
xml·word
nongcunqq17 小时前
Latex 转 word 在线
word
繁依Fanyi18 小时前
【参赛心得】我的 HarmonyOS 开发入门与参赛之路
ide·人工智能·华为·word·harmonyos·aiide·codebuddyide
Lucky_云佳1 天前
自动化文献引用和交叉引用高亮显示:Word VBA宏解决方案
经验分享·word
yivifu2 天前
Word VBA中的Collapse方法详解
word·vba·collapse
勇者无畏4042 天前
基于 Spring AI Alibaba 搭建 Text-To-SQL 智能系统(前置介绍)
java·后端·spring·prompt·embedding
m5655bj2 天前
通过 C# 在 Word 文档中添加文字或图片水印
c#·word·visual studio
儒雅永缘3 天前
VBA实现word文档批量转PDF文件
pdf·c#·word
月阳羊4 天前
【论文学习与撰写】Mathtype的安装与word插件安装
学习·word
BlueBirdssh4 天前
大量文本向量化 + Embedding 检索 + LLM 具体流程解析
人工智能·embedding